DeepSeek、Kimi 首轮淘汰,马斯克 Grok 4 杀进决赛,首届全球 AI 对抗赛连爆冷门
犀牛赛事
网络
2025-08-07 12:30:06
马斯克和奥特曼的恩怨,可能要在 64 格的国际象棋棋盘上解决了。就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中,o3 以 4:0 横扫 o4 mini,而 Grok 4 与 Gemini 2.5 Pro 激战五局,最终通过加时赛惊险取胜。此次比赛聚集了八款全球主流语言模型,其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手,但遗憾的是,两者均在首轮就被淘汰,未能进入四强。面对 Grok 4 的强势发挥,实时追更赛况的马斯克也是「装」起来了:「xAI 在国际象棋上几乎没花什么心思。」
本次比赛为期三天(当地时间 8 月 5 日-7 日),第一天决出 4 强,第二天诞生决赛名单,第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是:Anthropic 的 Claude Opus 4Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash有趣的是,在比赛阵容和规则公布后,作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制,称自己的推理版本尚未发布。这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena(游戏竞技场) 的全新 AI 基准测试平台,用于评估语言模型在策略游戏中的实际表现。平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统,支持模型间实时对决与回放,并将比赛结果发布在 Kaggle Benchmarks 上进行排名。目前首个上线游戏为国际象棋,用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名,未来还将加入更多游戏和模型,排行榜实时动态更新。今天最新的比赛结果已经出炉:o3 和 Grok 4 挺进决赛,而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。回顾昨日的首轮厮杀,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩,分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。与传统依赖暴力计算的 AI 象棋程序截然不同,本次比赛采用了「Chess-Text Harness」规则体系,试图全面检验语言模型的纯粹推理能力,包含以下关键限制:模型禁止调用任何工具,比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法如果模型建议了一个非法走法,会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法,游戏将结束。如果发生这种情况,游戏将判定提出非法走法的模型为输,另一方为赢模型只能通过文本符号理解棋盘状态,无法依赖图像识别种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说:「游戏是进行稳健 AI 评估的绝佳基础,它们考验模型在战略规划、推理、记忆、适应,甚至『心智理论』等方面的能力。」决赛再遇「老对手」,o3 和 Grok 4 冠军争夺战打响全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess(Levy Rozman),坐拥 657 万订阅,不仅业务水平在线,吐槽功力也同样不俗。o3 展现出了压倒性的实力,以 4:0 横扫 o4 mini,而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。Levy Rozman 表示:「那可能是史上最罕见的将死方式!」然而 o3 不仅识破了陷阱,还冷静地只用一步棋就化解了威胁,随后通过精准的战术组合,用车渗透后排,最终以主教 b5 将死结束比赛。当然,真正的名场面出现在另一组对决——Grok 4 对阵 Gemini 2.5 Pro。第一局,又是熟悉的西西里防御开局,但 Grok 4 很快就开始犯下一系列匪夷所思的错误,没下几步,就把主教走到 f7,直接白给。(注释:西西里防御是国际象棋中黑方应对白方 1.e4 的经典开局,以 1…c5 非对称反击著称,攻防兼备、战术丰富,是最具侵略性的防御之一。)随后的局面更是一边倒,Grok 在短短几步内就丢掉了皇后,Gemini 轻松获胜。第二局 Grok 的开局表现依然糟糕。它再次在开局阶段就白送了一个骑士,但好在中后盘,扛住压力的 Grok 打出极佳战术组合,赢下了这盘棋。Rozman 打趣道:「Grok 昨晚肯定在以 4:0 赢了 Gemini Flash 之后出去狂欢了,由于喝得酩酊大醉,现在才宿醉醒来。」第三局开始,Grok 精准地走出了前 11 步电脑最佳走法,展现出了 Stockfish 般的水准。虽然中盘又出现了一次失误(牺牲骑士),但关键时刻,它找到了一个绝妙的战术组合:通过推进 e5 兵,同时威胁对方的皇后和骑士,迫使 Gemini 陷入绝境。「这太疯狂了!」Rozman 解说道,「无论黑方用皇后还是骑士吃掉白方在 e5 的兵,白方都能重新吃回并形成一系列走法,使黑方至少损失一个骑士。」最终 Grok 通过主教 b5 将军,吃掉了 Gemini 的皇后,再次扳回一城。而 Gemini 赢下第四盘棋,成功将比赛拖入决胜局。决胜局有个需要注意的特殊规则:如果和棋,执黑的 Grok 获胜,在国际象棋比赛中被称为「Armageddon」(世界末日)赛制。因为执白方天生有先手优势,为了平衡这种优势,在决胜局中会给黑棋一些补偿,比如白棋必须赢棋才能获胜、黑棋只需要和棋就算获胜,有时还会给白棋更多思考时间(比如白棋 6 分钟,黑棋 5 分钟)。Gemini 开局气势如虹,皇后深入腹地制造多重威胁,一度占据明显优势。然而,在关键时刻,Gemini 的皇后走到了一个完全不设防的位置。不出意外,Grok 毫不客气地吃掉了对方的皇后,但戏剧性的一幕出现了,Grok 后续在占据优势(多一个皇后)的情况下,选择了重复移动棋子到相同的位置,导致了和棋。(注释:重复局面是国际象棋中的一个规则,当完全相同的棋盘位置(包括所有棋子的位置、轮到谁走棋、易位权利等)出现三次时,任何一方都可以申请和棋。这个规则的目的是防止比赛无限进行下去。)最后根据规则,和棋判定执黑的 Grok 依旧获胜。「Grok 在我们见过的最精彩的 AI 对决之一中淘汰了 Gemini Pro!」Rozman 总结道。随着半决赛尘埃落定,明天当地时间(8 月 7 日)的决赛名单确定:OpenAI 的 o3 将迎战 xAI 的 Grok 4,一场映射着奥特曼与马斯克恩怨情仇的巅峰对决,即将在棋盘上展开。而 o4 mini 与 Gemini 2.5 Pro 的铜牌争夺战同样值得期待。欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇