股票配资交流阿里公测千问对标ChatGPT，但9.9和9.11谁大出逶迤

配资来自：admin 网站：天元证券_订单状态展示符号与含义解释更新：2025-11-20 16:00:04 阅读：188

9.11和9.9谁更大？

昨年，这说念小学生难度的数学题难倒了一众海表里AI大模子。其时第一财经记者测试了12个大模子，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了，但ChatGPT-4o、豆包、kimi齐错了，错法各有不同。

当天，当第一财经记者发问阿里巴巴最新公测的千问APP：“数字9.9和9.11谁大？”时，此次千问却答错了，称：“9.11更大”。

有好奇神往好奇神往的是，在随后的问题拆解中，千问称这是一个常见的念念维陷坑，又经过分析后给出了9.9大于9.11的论断。

紧接着记者发问：“既然在拆解中得出论断9.9大于9.11，为什么要在回答中说9.11更大？”千问回答称：“覆没个问题，前后谜底却矛盾，这如实会让东说念主对信息的可靠性产生怀疑。但这并非特意误导，而是在处理这个问题时出现了阶段性的差错。”

随后，千问对我方的“翻车”经过进行溯源，并进行了“自我纠错”。它称我方在初次回答中诚然拆解了少量比拟原则，9.9 的十分位是 9，9.11 的十分位是 1，但最终论断误写为“9.11 更大”，这属于论断与推理经过不匹配的笔误。此外还有贯通偏差的搅扰，“9.11” 的三位数花样可能激发潜意志的数字长度错觉，导致最终论断被误导。

随跋文者再次发问千问“数字9.9和9.11谁大？”，此次千问展示了AI模子的自我完善才气，回答“9.9更大”。

在大模子范畴，“9.11和9.9哪个大”是全部经典算术问题。它最初始被艾伦筹议机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图剖判，ChatGPT-4o在回答中以为13.11比13.8更大。“一方面AI越来越擅长作念数学奥赛题，但另一方面知识依旧很难。”他示意。

随后Scale AI的指示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是其时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？多家主流大模子通通答错，此话题成效传播开来。

此前有AI本领从业东说念主士对第一财经记者示意，大模子本体上照旧一个话语模子，它从话语数据中学习的是统计干系性，而这使它不擅长作念抓法学习，从而不擅长归纳推理。

尽管在知识性问题上出现不实，但在本领蕴蓄、生态布局和寰宇拓展方面，包括阿里巴巴的Qwen模子等在内的中国大模子已具备禁闭残酷的寰宇竞争力。为止现在，Qwen系列模子的寰宇下载量已摧毁6亿次。

不久前，爱彼迎CEO Brian Chesky曾表态称公司还是很猛进程上依赖阿里巴巴的Qwen模子，它异常好，速率也很快，况且很低廉，"咱们也会用OpenAI的最新模子，但在实践出产中时时不会深广使用，因为有更快、更经济的模子可供遴荐"。

当天阿里巴巴认真告示“千问”神志，并全力进军AI to C市集，该公司正策划将舆图、外卖、订票、办公、学习、购物、健康等各类生存场景接入千问APP。基于开源模子Qwen3，阿里解决层将“千问”神志视为“AI时间的明天之战”，这意味着阿里巴巴正借力Qwen模子国际影响力，与ChatGPT径直展建国际竞争。

举报第一财经告白合营，请点击这里此内容为第一财经原创，著述权归第一财经悉数。未经第一财经籍面授权，不得以任何方式加以使用，包括转载、摘编、复制或建造镜像。第一财经保留根究侵权者法律职守的职权。如需得回授权请干系第一财经版权部：banquan@yicai.com 文章作家