首页 财经 理财 产业 商业 证券 消费 图片 视频 全国

科技

旗下栏目: 科技 汽车 房产 工农

通义实验室开源 GUI 智能体基座模型:MAI-UI

来源: 作者:霞舞 人气: 发布时间:2025-12-29
摘要:阿里通义实验室多模态交互团队正式开源全系列GUI智能体基础模型——MAI-UI,首次在统一架构中原生融合用户界面交互、MCP工具调用与端云协同三大核心能力,依托自主演进的数据构建管线及大规模在线强化学习技术实现深度协同优化(当前已开放2B与8B两个规模版本

阿里通义实验室多模态交互团队正式开源全系列 gui 智能体基础模型——mai-ui,首次在统一架构中原生融合用户界面交互、mcp 工具调用与端云协同三大核心能力,依托自主演进的数据构建管线及大规模在线强化学习技术实现深度协同优化(当前已开放 2b 与 8b 两个规模版本)。

MAI-UI 的设计目标是打造一款真正理解并可执行复杂自然语言指令、在图形用户界面(GUI)环境中自主完成端到端任务的智能代理。它聚焦攻克现实世界中的关键难题:跨应用无缝协作、模糊/不完整语义解析、动态人机交互反馈,以及多阶段长流程任务的精准编排与容错执行。

相较于传统 AndroidWorld 测试基准,全新 MobileWorld 评测体系具备三大显著升级:难度更高、场景更实、操作更贴近真实手机使用习惯:

平均任务步长达 27.8 步(约为 AndroidWorld 的两倍)
60% 的任务需跨越多个 App 协同完成(涵盖电商比价、出行订票、日程管理等复合型场景)
首次设立两类前沿挑战任务:

  • 交互式模糊指令任务:用户输入存在歧义或信息缺失时,模型需主动发起澄清提问,杜绝无依据臆测与幻觉输出;
  • MCP-GUI 融合任务:同步调度外部工具接口(如 GitHub、Arxiv 等)与本地 GUI 操作,推动移动端智能体迈向工业级生产力水平。

目前主流 SOTA 方法整体成功率仅为 51.7%,而端到端黑盒模型表现更弱,最高仅达 20.9%;面对 MobileWorld 新增的高阶挑战任务,多数现有 Agent 的准确率已趋近于零!

如此AI员工

国内首个全链路营销获客AI Agent

下载

相关资源直达链接:
?GitHub(MAI-UI):https://www.php.cn/link/3367366e0bff001c5cfb5aedd10d8e31
?Arxiv(MAI-UI 论文):https://www.php.cn/link/ebbd64681b7ba2379b3b4fe1ff1a2539
?GitHub(MobileWorld 评测框架):https://www.php.cn/link/e5337b6705bcd3099129719cee0d46e4
?Arxiv(MobileWorld 技术报告):https://www.php.cn/link/1049295f8ee6129ad4d8d84afac6f05f

源码获取地址:点击下载

责任编辑:霞舞

上一篇:GLM-4.7 登顶 Artificial Analysis 全球开源榜首

下一篇:没有了

首页 | 财经 | 理财 | 产业 | 商业 | 证券 | 消费 | 图片 | 视频 | 全国

Copyright 2025 九掌金融版权所有  技术支持:政产学研(海南)投资有限公司 备案号:琼ICP备2025065810号-1

电脑版 | 移动版