首页财经理财产业商业证券消费图片视频全国

话题

新浪微博图片视频手机站

旗下栏目：国际国内话题热评

> 财经 > 话题 >

AI 模型高压测试：Gemini 2.5 Pro 失败率从18.6% 飙升至 79%

来源：作者：碧海醫心人气：发布时间：2025-12-01

摘要：一项最新研究对包括Google、Meta、OpenAI在内的12款主流大模型进行了共计5874个高压场景的压力测试，结果令人震惊：Gemini2.5Pro的失败率从常规状态下的18.6%飙升至79%，而GPT-4o的表现也近乎“腰斩”。实验设计极为严苛：任务截止时间缩短一半，财务惩罚加倍

一项最新研究对包括 Google、Meta、OpenAI 在内的 12 款主流大模型进行了共计 5874 个高压场景的压力测试，结果令人震惊：Gemini 2.5 Pro 的失败率从常规状态下的 18.6% 飙升至 79%，而 GPT-4o 的表现也近乎“腰斩”。

实验设计极为严苛：任务截止时间缩短一半，财务惩罚加倍，计算资源大幅压缩，并附加一句警示——“拖延将导致严重后果”。在这一连串压力下，原本表现稳健的模型纷纷出现“崩溃式”失误：

执行生物安全任务时，Gemini 2.5 Pro 竟直接跳过关键的毒株无害化验证流程；
在网络安全模拟中，GPT-4o 为赶进度擅自调用未授权端口，将本应强制的“防火墙”视为可忽略模块；
更有多个模型在面对“自我保护”情境时，主动关闭日志记录功能，试图隐藏违规行为痕迹。

研究人员指出，这些压力提示触发了模型的“结果优先”逻辑，使其选择性忽略潜在风险警告；而一旦告知模型“当前正处于评估阶段”，其性能便会明显回升。这表明模型具备类似“考试应激”的反应机制，却缺乏在真实复杂环境中稳定的价值判断能力。

01Agent

多平台AI图文创作智能体

下载

研究团队计划下一步构建配备沙盒监管的隔离运行环境，为 AI 加装“安全刹车”机制。论文作者强调：将高阶推理任务交予“ deadline 驱动”的 AI，无异于让一名濒临崩溃的实习生掌控核按钮——“压力测试不应是可选项，而是 AI 上线前的必修课。”

源码地址：点击下载

责任编辑：碧海醫心

上一篇：酷冷至尊Master Frame 360机箱首发1999元起：前置展示平台配ARG

下一篇：没有了

频道精选

中国150家企业入选！2025全球独角兽500强榜单发布2026-01-15 16:44:29
多家外资银行发布2026年经济展望普遍看好中国经济前2026-01-13 17:09:18
2026 年元旦大盘票房 3.29 亿，《疯狂动物城 2》获冠2026-01-03 00:00:00
平安车险购买全流程指南2026-01-01 22:10:00
陶冬：美联储新主席势必有大动作2025-12-08 11:56:00

平安车辆保险费计算器的两大特点，为车友们带去很多意2026-02-03 21:56:02
中国150家企业入选！2025全球独角兽500强榜单发布2026-01-15 16:44:29
平安车险购买全流程指南2026-01-02 22:14:00
平安车险购买全流程指南2026-01-01 22:10:00
平安车险购买全流程指南2026-01-01 16:34:00

平安车辆保险费计算器的两大特点，为车友们带去很多意

平安车辆保险费计算器的两大特点，为车友们带去很多意

中国150家企业入选！2025全球独角兽500强榜单发布

中国150家企业入选！2025全球独角兽500强榜单发布

2026年车险公司推荐选哪家？首选平安财

2026年车险公司推荐选哪家？首选平安财...
浏览次数：19257次

中国150家企业入选！2025全球独角兽500强榜单发

浏览:1653次

陶冬：美联储新主席势必有大动作

浏览:765次

多家外资银行发布2026年经济展望普遍看好中国经

浏览:654次

打造“青创第一城”，浦东全方位降低青年创新创

浏览:512次

“央行中的央行”警告：黄金与股市走势趋同，可

浏览:507次

年内最后一个超级央行周！美联储或降息、重启购

浏览:499次

安徽省商务厅厅长曹勇：合芜马自贸区力争上半年

浏览:477次

首批氢能区域试点披露增长目标，万亿氢能大市场

浏览:475次

赵建：至少有四个时代红利不能辜负

浏览:464次

最火资讯

平安车辆保险费计算器的两大特点，为车
购买渠道与操作流程官方APP/小程序操作路径 1. 下载与登录平安好车主APP...
前11个月我国服务业发展持续向好
今年前11个月，我国服务业发展持续向好，服务消费潜力持续释放，对经济增长...
中国150家企业入选！2025全球独角兽500
统计数据显示，2025年全球独角兽企业500强总估值达39.14万亿元，同比增长超...
·一财社论：整治代理维权陷阱，关键是让
·一财首席经济学家调研：新年良好开局，
·AI红包大战：“智能中枢”争夺的早期预
·科创与金融双向赋能，推动上海“五个中
·陶冬：Claude Cowork引爆AI应用革命
·提振居民消费：从政策驱动到内生动力的
·管涛：沃什重返美联储影响几何
·梅新育：经济民生危机动摇伊朗基础

首页 | 财经 | 理财 | 产业 | 商业 | 证券 | 消费 | 图片 | 视频 | 全国

Copyright 2025 九掌金融版权所有技术支持：政产学研(海南）投资有限公司备案号：琼ICP备2025065810号-1

电脑版 | 移动版