首页 财经 理财 产业 商业 证券 消费 图片 视频 全国

科技

旗下栏目: 科技 汽车 房产 工农

阿里千问APP公测:9.9和9.11谁大?AI先“翻车”后“纠错”

来源: 作者:P粉602998670 人气: 发布时间:2025-11-18
摘要:“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的AI大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。 今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车

“9.11和9.9,究竟谁更大?”——这道看似简单的小学数学题,却曾难倒了一众海内外的ai大模型,成为了检验大模型常识与逻辑推理能力的一块“试金石”。

今日,记者在测试阿里巴巴最新公测的“千问”APP时,意外发现,此前曾答对该问题的千问,这次竟也“翻车”了。

先答错,再自我纠错

当记者提问:“数字9.9和9.11谁大?”时,千问APP给出的第一反应竟是:“9.11更大”。

然而,有趣的是,在随后的详细解析中,千问又通过正确的逻辑拆解,得出了“9.9大于9.11”的结论。

面对记者关于“结论与过程矛盾”的追问,千问坦诚地承认了自己的错误。它解释称,这是由于“9.11”的三位数形式引发了潜意识的数字长度错觉,导致其在处理问题时出现了阶段性的认知偏差和笔误。

Lemonaid

AI音乐生成工具,在音乐领域掀起人工智能革命

下载

随后,当记者再次提问同一问题时,千问已迅速完成了“自我纠错”,给出了正确的答案。

AI大模型的“通病”:擅长统计,弱于规则

事实上,在“9.11和9.9谁大”这个问题上“翻车”的,远不止千问一家。

此前,包括ChatGPT-4o、谷歌Gemini等在内的全球顶级大模型,都曾在此题上折戟。技术专家指出,大模型本质上是基于统计相关性的语言模型,这使得它们在处理需要严格规则推理的常识性问题时,往往会显得“力不从心”。

阿里千问:借力Qwen模型,进军全球AI to C市场

尽管在常识性问题上偶尔会出现失误,但中国大模型在全球范围内的竞争力已不容小觑。截至目前,阿里巴巴的Qwen系列模型,全球下载量已突破6亿次。

今日,阿里巴巴正式宣布了“千问”项目,并计划将其打造为集地图、外卖、办公、购物等各类生活场景于一体的超级AI应用。这也标志着,阿里巴巴正借力Qwen模型的海外影响力,正式向ChatGPT发起了“AI时代的未来之战”。

责任编辑:P粉602998670

最火资讯

首页 | 财经 | 理财 | 产业 | 商业 | 证券 | 消费 | 图片 | 视频 | 全国

Copyright 2025 九掌金融版权所有  技术支持:政产学研(海南)投资有限公司 备案号:琼ICP备2025065810号-1

电脑版 | 移动版