DeepSeek、Kimi 首轮淘汰，马斯克 Grok 4 杀进决赛，首届全球 AI 对抗赛连爆冷门

犀牛赛事网络 2025-08-07 12:30:06

马斯克和奥特曼的恩怨，可能要在 64 格的国际象棋棋盘上解决了。

就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中，o3 以 4:0 横扫 o4 mini，而 Grok 4 与 Gemini 2.5 Pro 激战五局，最终通过加时赛惊险取胜。

此次比赛聚集了八款全球主流语言模型，其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手，但遗憾的是，两者均在首轮就被淘汰，未能进入四强。

面对 Grok 4 的强势发挥，实时追更赛况的马斯克也是「装」起来了：「xAI 在国际象棋上几乎没花什么心思。」

八大 AI 模型齐聚棋盘，上演棋王争霸赛

本次比赛为期三天（当地时间 8 月 5 日-7 日），第一天决出 4 强，第二天诞生决赛名单，第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是：

Anthropic 的 Claude Opus 4

DeepSeek 的 DeepSeek-R1

Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash

月之暗面的 Kimi k2

OpenAI 的 o3 和 o4-mini

xAI 的 Grok 4

有趣的是，在比赛阵容和规则公布后，作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制，称自己的推理版本尚未发布。

这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena（游戏竞技场）的全新 AI 基准测试平台，用于评估语言模型在策略游戏中的实际表现。

平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统，支持模型间实时对决与回放，并将比赛结果发布在 Kaggle Benchmarks 上进行排名。

目前首个上线游戏为国际象棋，用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名，未来还将加入更多游戏和模型，排行榜实时动态更新。

今天最新的比赛结果已经出炉：o3 和 Grok 4 挺进决赛，而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。

回顾昨日的首轮厮杀，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩，分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。

与传统依赖暴力计算的 AI 象棋程序截然不同，本次比赛采用了「Chess-Text Harness」规则体系，试图全面检验语言模型的纯粹推理能力，包含以下关键限制：

模型禁止调用任何工具，比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法

系统不会提供可能的合法走法列表，模型必须自己判断

如果模型建议了一个非法走法，会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法，游戏将结束。如果发生这种情况，游戏将判定提出非法走法的模型为输，另一方为赢

每步走法有 60 分钟的超时限制

模型只能通过文本符号理解棋盘状态，无法依赖图像识别

种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说：「游戏是进行稳健 AI 评估的绝佳基础，它们考验模型在战略规划、推理、记忆、适应，甚至『心智理论』等方面的能力。」

决赛再遇「老对手」，o3 和 Grok 4 冠军争夺战打响

让我们来回顾今天的比赛过程。

全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess（Levy Rozman），坐拥 657 万订阅，不仅业务水平在线，吐槽功力也同样不俗。

OpenAI 的两个模型之间的对决毫无悬念。

o3 展现出了压倒性的实力，以 4:0 横扫 o4 mini，而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。

Levy Rozman 表示：「那可能是史上最罕见的将死方式！」

然而 o3 不仅识破了陷阱，还冷静地只用一步棋就化解了威胁，随后通过精准的战术组合，用车渗透后排，最终以主教 b5 将死结束比赛。

当然，真正的名场面出现在另一组对决——Grok 4 对阵 Gemini 2.5 Pro。

第一局，又是熟悉的西西里防御开局，但 Grok 4 很快就开始犯下一系列匪夷所思的错误，没下几步，就把主教走到 f7，直接白给。

（注释：西西里防御是国际象棋中黑方应对白方 1.e4 的经典开局，以 1…c5 非对称反击著称，攻防兼备、战术丰富，是最具侵略性的防御之一。）

随后的局面更是一边倒，Grok 在短短几步内就丢掉了皇后，Gemini 轻松获胜。

第二局 Grok 的开局表现依然糟糕。它再次在开局阶段就白送了一个骑士，但好在中后盘，扛住压力的 Grok 打出极佳战术组合，赢下了这盘棋。

Rozman 打趣道：「Grok 昨晚肯定在以 4:0 赢了 Gemini Flash 之后出去狂欢了，由于喝得酩酊大醉，现在才宿醉醒来。」

第三局开始，Grok 精准地走出了前 11 步电脑最佳走法，展现出了 Stockfish 般的水准。

虽然中盘又出现了一次失误（牺牲骑士），但关键时刻，它找到了一个绝妙的战术组合：通过推进 e5 兵，同时威胁对方的皇后和骑士，迫使 Gemini 陷入绝境。

「这太疯狂了！」Rozman 解说道，「无论黑方用皇后还是骑士吃掉白方在 e5 的兵，白方都能重新吃回并形成一系列走法，使黑方至少损失一个骑士。」

最终 Grok 通过主教 b5 将军，吃掉了 Gemini 的皇后，再次扳回一城。而 Gemini 赢下第四盘棋，成功将比赛拖入决胜局。

翘首以待，终于我们迎来了决赛局。

决胜局有个需要注意的特殊规则：如果和棋，执黑的 Grok 获胜，在国际象棋比赛中被称为「Armageddon」（世界末日）赛制。

因为执白方天生有先手优势，为了平衡这种优势，在决胜局中会给黑棋一些补偿，比如白棋必须赢棋才能获胜、黑棋只需要和棋就算获胜，有时还会给白棋更多思考时间（比如白棋 6 分钟，黑棋 5 分钟）。

Gemini 开局气势如虹，皇后深入腹地制造多重威胁，一度占据明显优势。然而，在关键时刻，Gemini 的皇后走到了一个完全不设防的位置。

不出意外，Grok 毫不客气地吃掉了对方的皇后，但戏剧性的一幕出现了，Grok 后续在占据优势（多一个皇后）的情况下，选择了重复移动棋子到相同的位置，导致了和棋。

（注释：重复局面是国际象棋中的一个规则，当完全相同的棋盘位置（包括所有棋子的位置、轮到谁走棋、易位权利等）出现三次时，任何一方都可以申请和棋。这个规则的目的是防止比赛无限进行下去。）

最后根据规则，和棋判定执黑的 Grok 依旧获胜。「Grok 在我们见过的最精彩的 AI 对决之一中淘汰了 Gemini Pro！」Rozman 总结道。

随着半决赛尘埃落定，明天当地时间（8 月 7 日）的决赛名单确定：OpenAI 的 o3 将迎战 xAI 的 Grok 4，一场映射着奥特曼与马斯克恩怨情仇的巅峰对决，即将在棋盘上展开。

而 o4 mini 与 Gemini 2.5 Pro 的铜牌争夺战同样值得期待。

欢迎加入 APPSO AI 社群，一起畅聊 AI 产品，获取#AI有用功，解锁更多 AI 新知👇

本文地址： https://xiniuss.com/news/dj/18349.html

上一篇：一条小团团自称被网友判了8年，复播后直播间人数飙升1w人，礼物不间断，网友直呼：这就是游戏一姐的魅力吧！

下一篇： LPL第三赛段：BLG打破心魔，IG晋升联赛第三！JDG两大神人诞生