研究团队发布通用智能体 Lumine,并开源其训练方法。该模型在《原神》中以人类类似的方式感知、思考和操作键鼠,基于视觉语言模型端到端统一“看、想、动”,从 5Hz 像素输入生成 30Hz 操作指令。它可执行长达数小时的复杂任务,完成了约 5 小时的蒙德主线全流程,达到人类水平效率。尽管推理能力仅在第一幕内容上训练,仍可自主推进全部剧情,并能执行收集、战斗、解谜、与 NPC 对话及 2D 界面操作等多种任务。训练数据包括 1731 小时人类游玩、200 小时指令跟随和 15 小时推理数据。
更令人印象深刻的是,Lumine 展现出强大的跨游戏泛化能力,无需微调即可在《崩坏:星穹铁道》中用约 7 小时通关黑塔太空站章节,并在《鸣潮》中完成约 100 分钟主线内容。论文称,这是首个在复杂 3D 开放世界中可执行数小时任务的开放通用智能体,为在开放式环境中构建通用代理迈出实质一步。
Lumine 官方 | arXiv
🍀在花频道 🍵茶馆 📮投稿新鲜事