阿里千问APP公测：9.9和9.11谁大？AI先“翻车”后“纠错”

“9.11和9.9，究竟谁更大？”——这道看似简单的小学数学题，却曾难倒了一众海内外的ai大模型，成为了检验大模型常识与逻辑推理能力的一块“试金石”。

今日，记者在测试阿里巴巴最新公测的“千问”APP时，意外发现，此前曾答对该问题的千问，这次竟也“翻车”了。

当记者提问：“数字9.9和9.11谁大？”时，千问APP给出的第一反应竟是：“9.11更大”。

然而，有趣的是，在随后的详细解析中，千问又通过正确的逻辑拆解，得出了“9.9大于9.11”的结论。

面对记者关于“结论与过程矛盾”的追问，千问坦诚地承认了自己的错误。它解释称，这是由于“9.11”的三位数形式引发了潜意识的数字长度错觉，导致其在处理问题时出现了阶段性的认知偏差和笔误。

Lemonaid

AI音乐生成工具，在音乐领域掀起人工智能革命

下载

随后，当记者再次提问同一问题时，千问已迅速完成了“自我纠错”，给出了正确的答案。

事实上，在“9.11和9.9谁大”这个问题上“翻车”的，远不止千问一家。

此前，包括ChatGPT-4o、谷歌Gemini等在内的全球顶级大模型，都曾在此题上折戟。技术专家指出，大模型本质上是基于统计相关性的语言模型，这使得它们在处理需要严格规则推理的常识性问题时，往往会显得“力不从心”。

尽管在常识性问题上偶尔会出现失误，但中国大模型在全球范围内的竞争力已不容小觑。截至目前，阿里巴巴的Qwen系列模型，全球下载量已突破6亿次。

今日，阿里巴巴正式宣布了“千问”项目，并计划将其打造为集地图、外卖、办公、购物等各类生活场景于一体的超级AI应用。这也标志着，阿里巴巴正借力Qwen模型的海外影响力，正式向ChatGPT发起了“AI时代的未来之战”。

> 产业 > 科技 >