AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:24:12 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

1年又卖500万份！《博德之门3》全球销量目前已突破2000万份

男子通宵包夜打游戏后倒地猝死家属起诉电竞馆及老板索赔157万

今日开练！健身教练分享与Zeka、Gumayusi健身房合照

LOL测试服今日改动：蛇女移速降低，莎弥拉Q技能暴击伤害提升

Faker那张图可能成真92岁老太《铁拳8》电竞比赛夺冠

wayward：Ale真说能打爆80%现役上路吗他确实有说这种话的资本

ON带着Viper看BLG奖杯Bin：这地方我们一般都不来看一次就够了

游戏中把玩世界级名媛金卡戴珊正式登陆《堡垒之夜》的战场

很难绷得住Letme直播看Bin哥AI视频直接笑嘻了

中单BuLLDoG分享LNG聚餐美食：好好吃

12月17日NBA杯冠军赛马刺尼克斯全场录像

12月16日NBA常规赛灰熊快船全场录像

12月15日CBA常规赛青岛四川全场录像

12月15日CBA常规赛辽宁广厦全场录像

12月15日CBA常规赛北京新疆全场录像

12月15日NBA常规赛鹈鹕公牛全场录像

12月14日NBA杯半决赛马刺雷霆全场录像

12月13日NBA常规赛森林狼勇士全场录像

12月13日NBA常规赛爵士灰熊全场录像

12月12日CBA常规赛揭幕战广厦山西全场录像

相关集锦

杨瀚森28分钟10中5砍14分6板吕佩尔10中1混音不敌国王

尼克斯末节一波流逆转马刺夺冠！布伦森25+8文班替补18+6

深圳击败吉林王浩然21分史密斯30+7姜伟泽14分

快船18分负灰熊近10战9负！JJJ31分奇兵斯潘塞27+6三分10中7

掘金险胜火箭约基奇三双&6犯KD25+7+5帽申京三双&失绝平

爵士加时胜独行侠乔治37+6马卡33+16弗拉格生涯新高42+7

猛龙末节逆转热火英格拉姆28+5阿德巴约20+10鲍威尔20分

活塞复仇绿军取4连胜康宁汉姆32+10布朗34+8+7怀特28+6

混音116110斯托克顿国王杨瀚森11中8砍18+10+4库克36分

库里12记三分空砍48分开拓者两人35分三杀勇士杨瀚森未登场

热门TAG