大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

TAG标签| 网站地图| 收藏本站

返回首页

最后编辑时间：2024-02-13 08:04:45 来源：未知作者：未知阅读量：未知

　　利用从对战中即时获得的文字反馈作为一种新的“奖励”输入，不需要训练就可以在线迭代完善和调整 PokéLLMon 的决策生成策略。

　　比如 PokéLLMon 反复使用相同的攻击招式，但由于对方宝可梦具有“干燥皮肤”的能力，对其没有任何效果。

　　通过检索外部知识源作为额外输入，融入到状态描述中。比如检索类型关系、招式数据，模拟人类查询宝可梦图鉴，来减少未知知识导致的“幻觉”问题。

　　比如面对犀牛进化形态的地面攻击，PokéLLMon 未选择更换宝可梦，而是施展“电磁飘浮”，该技能在五回合内成功抵御地面攻击，使犀牛的“地震”技能无效。

　　研究人员发现，当 PokéLLMon 面对强大对手时，思维链（CoT）的推理方式会导致它因“恐慌”而频繁更换道具或宝可梦。

　　值得一提的是，研究人员所用的模型自主和人类作战的宝可梦对战环境，基于 Pokemon Showdown 和 poke-env 实现，目前已开源。

　　为了测试 PokéLLMon 的对战能力，研究人员用它分别与随机天梯赛玩家和一名拥有15 年经验的专业玩家对战。

　　结果，PokéLLMon 与天梯随机玩家的胜率为 48.57%，与专业玩家的邀请对战胜率为 56%。

　　总的来说，PokéLLMon 的优势在于：能准确选择有效招式，统一使用一个宝可梦击倒全部对手；展现出类人的消耗战略，使对手中毒后再拖延回血。

　　不过研究人员也指出了 PokéLLMon 的不足之处，面对玩家的消耗战略 (拖延回血) 很难应对：

　　论文一作胡思昊，现为佐治亚理工学院计算机科学博士生，本科毕业于浙江大学，曾在新加坡国立大学担任研究助理。

　　导师刘玲，现为佐治亚理工学院计算机系教授。1982 年毕业于中国人民大学，1993 年于荷兰蒂尔堡大学获博士学位。

　　刘教授主导分布式数据密集系统实验室（DiSL）的研究工作，专注于大数据系统及其分析的多个方面，如性能、安全和隐私等。

　　广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

　　消息称微软正试图收购《幻兽帕鲁》开发商 Pocketpair，以迎战任天堂《宝可梦》系列游戏

(责任编辑：管理)

随机内容