大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了
利用从对战中即时获得的文字反馈作为一种新的“奖励”输入,不需要训练就可以在线迭代完善和调整 PokéLLMon 的决策生成策略。
比如 PokéLLMon 反复使用相同的攻击招式,但由于对方宝可梦具有“干燥皮肤”的能力,对其没有任何效果。
通过检索外部知识源作为额外输入,融入到状态描述中。比如检索类型关系、招式数据,模拟人类查询宝可梦图鉴,来减少未知知识导致的“幻觉”问题。
比如面对犀牛进化形态的地面攻击,PokéLLMon 未选择更换宝可梦,而是施展“电磁飘浮”,该技能在五回合内成功抵御地面攻击,使犀牛的“地震”技能无效。
研究人员发现,当 PokéLLMon 面对强大对手时,思维链(CoT)的推理方式会导致它因“恐慌”而频繁更换道具或宝可梦。
值得一提的是,研究人员所用的模型自主和人类作战的宝可梦对战环境,基于 Pokemon Showdown 和 poke-env 实现,目前已开源。
为了测试 PokéLLMon 的对战能力,研究人员用它分别与随机天梯赛玩家和一名拥有15 年经验的专业玩家对战。
结果,PokéLLMon 与天梯随机玩家的胜率为 48.57%,与专业玩家的邀请对战胜率为 56%。
总的来说,PokéLLMon 的优势在于:能准确选择有效招式,统一使用一个宝可梦击倒全部对手;展现出类人的消耗战略,使对手中毒后再拖延回血。
不过研究人员也指出了 PokéLLMon 的不足之处,面对玩家的消耗战略 (拖延回血) 很难应对:
论文一作胡思昊,现为佐治亚理工学院计算机科学博士生,本科毕业于浙江大学,曾在新加坡国立大学担任研究助理。
导师刘玲,现为佐治亚理工学院计算机系教授。1982 年毕业于中国人民大学,1993 年于荷兰蒂尔堡大学获博士学位。
刘教授主导分布式数据密集系统实验室(DiSL)的研究工作,专注于大数据系统及其分析的多个方面,如性能、安全和隐私等。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
消息称微软正试图收购《幻兽帕鲁》开发商 Pocketpair,以迎战任天堂《宝可梦》系列游戏
(责任编辑:管理)
- ·为什么O型人认为自己的血型最稀有?真实的
- ·美国政府不能假装看不见疫情
- ·细(xì)倪(ní)遏(è)泛(fàn)的底层逻辑是
- ·浮沉洛杉矶是真实还是虚假消息?
- ·N盛景微收盘涨5440%首日换手率7202%
- ·勤勤恳恳(qín qín kěn kěn)这件事可以
- ·亚足联列亚洲杯值得关注的年轻球员:久保建
- ·A股三大指数收涨:创业板指涨逾1%光伏板块
- ·二十大以来首个正部级落马!任上被查两天前
- ·大地游龙传这件事可以这样理解吗?
- ·有关达濠三脚虎背后的真相是什么?
- ·遮人耳目(zhē rén ěr mù)究竟怎么回事?
- ·大风蓝色预警:东海台湾海峡南海等部分海域
- ·露营旅游休闲市场却迎来阵阵春风
- ·《W-两个世界》剧中疑问全解析网友的脑洞比
- ·2006年湖南一母亲和儿子乱伦26年儿子为摆脱
- ·出卖我程响是传言还是实锤?
- ·参加人每年缴纳个人养老金额度上限为12000
- ·“学术话语权”、“审美权”和“定价权”(
- ·哈飞路宝多少钱为什么上热搜?
- ·线)_股票价格_行情_走势图—东方财富网
- ·打好决胜小康三大攻坚战
- ·海南特种“菌”
- ·“户-村-企”联动“小李子”做成“大产业”
- ·关于白水洋在哪里为什么会上热搜?
- ·有关海底捞月(hǎi dǐ lāo yuè)发生了什
- ·窿(lónɡ)汕(shàn)兵(bīnɡ)这件事可以
- ·欧预赛:意大利0-0乌克兰补时阶段逃点球队
- ·今年我国秋粮种植面积比去年稳中有增大部地
- ·至今还在小范围内活跃