王者荣耀AI突破:TiG框架助AI掌握高阶战略思维
腾讯研究团队于2025年9月推出TiG(Think in Games)框架,以《王者荣耀》为训练环境,成功填补了大语言模型(LLM)在战略推理与实时决策间的能力差距。该框架通过40种预定义宏观动作(如“推上路”、“夺龙”)将游戏状态转化为语言建模任务,采用监督学习(SFT)与强化学习(GRPO)两阶段训练法,使Qwen3-14B模型在游戏决策中达到90.91%的准确率,超越参数量更大的DeepSeek-R1(86.67%),并保留原有文本理解与数学推理能力。 TiG框架旨在弥合AI模型的功能鸿沟。目前,以游戏为取向的AI能正常游玩但无法理解决策,而语言模型虽然可以推理策略,但难以执行操作。TiG框架让模型在游戏中同步思考、行动。 研究团队以《王者荣耀》为训练范本,定义了40种宏观行动,如推上路、击杀暴君、守家等,并要求AI模型在每个场景下选择最佳策略并解释原因。 训练分为两个阶段:首先在监督学习中学习策略机制,随后通过奖励机制进行强化学习,正确行动得1分,错误行动得0分。 团队测试了多种语言模型,包括Qwen2.5(7B、14B、32B)、Qwen3-14B模型,并使用DeepSeek-R1大模型作为对照组。他们从DeepSeek-R1中提取高质量训练数据,并使用群体相对策略优化(GRPO)技术比较不同策略的优劣。 经过TiG框架训练的模型不仅能制定行动计划,还能解释原因。例如,AI会指出某个防御塔防守薄弱,是理想的进攻目标,但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。 最终测试结果显示,Qwen3-14B模型的决策准确率达到90.91%,超越DeepSeek-R1的86.67%。Qwen2.5-32B和Qwen2.5-14B模型的准确率也分别从66.67%和53.25%提升至86.84%和83.12%。
