9.11和9.9谁更大?
昨年,这说念小学生难度的数学题难倒了一众海表里AI大模子。其时第一财经记者测试了12个大模子,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4o、豆包、kimi齐错了,错法各有不同。
当天,当第一财经记者发问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时,此次千问却答错了,称:“9.11更大”。
有好奇神往好奇神往的是,在随后的问题拆解中,千问称这是一个常见的念念维陷坑,又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问:“既然在拆解中得出论断9.9大于9.11,为什么要在回答中说9.11更大?”千问回答称:“覆没个问题,前后谜底却矛盾,这如实会让东说念主对信息的可靠性产生怀疑。但这并非特意误导,而是在处理这个问题时出现了阶段性的差错。”
随后,千问对我方的“翻车”经过进行溯源,并进行了“自我纠错”。它称我方在初次回答中诚然拆解了少量比拟原则,9.9 的十分位是 9,9.11 的十分位是 1,但最终论断误写为“9.11 更大”,这属于论断与推理经过不匹配的笔误。此外还有贯通偏差的搅扰,“9.11” 的三位数花样可能激发潜意志的数字长度错觉,导致最终论断被误导。
随跋文者再次发问千问“数字9.9和9.11谁大?”,此次千问展示了AI模子的自我完善才气,回答“9.9更大”。
在大模子范畴,“9.11和9.9哪个大”是全部经典算术问题。它最初始被艾伦筹议机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图剖判,ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题,但另一方面知识依旧很难。”他示意。
随后Scale AI的指示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是其时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多家主流大模子通通答错,此话题成效传播开来。
此前有AI本领从业东说念主士对第一财经记者示意,大模子本体上照旧一个话语模子,它从话语数据中学习的是统计干系性,而这使它不擅长作念抓法学习,从而不擅长归纳推理。
尽管在知识性问题上出现不实,但在本领蕴蓄、生态布局和寰宇拓展方面,包括阿里巴巴的Qwen模子等在内的中国大模子已具备禁闭残酷的寰宇竞争力。为止现在,Qwen系列模子的寰宇下载量已摧毁6亿次。
不久前,爱彼迎CEO Brian Chesky曾表态称公司还是很猛进程上依赖阿里巴巴的Qwen模子,它异常好,速率也很快,况且很低廉,"咱们也会用OpenAI的最新模子,但在实践出产中时时不会深广使用,因为有更快、更经济的模子可供遴荐"。
当天阿里巴巴认真告示“千问”神志,并全力进军AI to C市集,该公司正策划将舆图、外卖、订票、办公、学习、购物、健康等各类生存场景接入千问APP。基于开源模子Qwen3,阿里解决层将“千问”神志视为“AI时间的明天之战”,这意味着阿里巴巴正借力Qwen模子国际影响力,与ChatGPT径直展建国际竞争。
举报 第一财经告白合营,请点击这里此内容为第一财经原创,著述权归第一财经悉数。未经第一财经籍面授权,不得以任何方式加以使用,包括转载、摘编、复制或建造镜像。第一财经保留根究侵权者法律职守的职权。如需得回授权请干系第一财经版权部:banquan@yicai.com 文章作家

刘佳
干系阅读
华尔街到陆家嘴精选丨科技巨头竞逐机器东说念主软件平台;金价刷新历史新高 白银年内涨幅高达62%;小摩看好2026年零卖业 67 09-30 08:27
AI进化速递丨盘古团队修起开源代码争议①盘古团队最新声明:严格投诚开源条目;②新AI模子助力更准确展望心源性暴毙风险;③山东首个解释场景大模子平台认真发布。
152 07-05 20:41
浙江研发寰宇首个胃癌影像筛查AI模子两边告示依托该项AI本领,领先在浙江、安徽等地开展大限制东说念主群胃癌筛查。
29 06-26 11:48
达索系统CEO:目的将AI模子检察老本缩小至千万好意思元DeepSeek和Mistral AI有不异之处,齐遴荐了较高性价比的大模子设备旅途,为东说念主工智能的进步作出了进犯孝敬。
94 02-27 12:32
当耗尽遇上AI | 群众会诊一年,大模子仅用几分钟!AI大夫看病是炒作吗在生成式AI大模子兴起后股票配资交流,AI大夫的才气被夸大了,仿佛什么病齐会看了;还有不少患者径直拿着DeepSeek的会诊后果来向大夫连络。
1032 02-25 17:02 一财最热 点击关闭天元证券_订单状态展示符号与含义解释提示:本文来自互联网,不代表本网站观点。