|
阿里通义实验室多模态交互团队正式开源全系列 gui 智能体基础模型——mai-ui,首次在统一架构中原生融合用户界面交互、mcp 工具调用与端云协同三大核心能力,依托自主演进的数据构建管线及大规模在线强化学习技术实现深度协同优化(当前已开放 2b 与 8b 两个规模版本)。 MAI-UI 的设计目标是打造一款真正理解并可执行复杂自然语言指令、在图形用户界面(GUI)环境中自主完成端到端任务的智能代理。它聚焦攻克现实世界中的关键难题:跨应用无缝协作、模糊/不完整语义解析、动态人机交互反馈,以及多阶段长流程任务的精准编排与容错执行。
相较于传统 AndroidWorld 测试基准,全新 MobileWorld 评测体系具备三大显著升级:难度更高、场景更实、操作更贴近真实手机使用习惯: 平均任务步长达 27.8 步(约为 AndroidWorld 的两倍)
目前主流 SOTA 方法整体成功率仅为 51.7%,而端到端黑盒模型表现更弱,最高仅达 20.9%;面对 MobileWorld 新增的高阶挑战任务,多数现有 Agent 的准确率已趋近于零! 如此AI员工 国内首个全链路营销获客AI Agent 下载
相关资源直达链接: 源码获取地址:点击下载 |


如此AI员工 















