产品
高出o1
ARC Prize,曾在客岁底 OpenAI 12 天连发的最后一天赚尽了眼球,其宣布曾经 5 年的基准 ARC-AGI 初次迎来了得分到达精良品级的挑衅者:o3 系列模子。参阅呆板之心报道《刚,OpenAI 放出最后年夜惊喜 o3,高盘算形式每义务破费数千美元》。自那当前曾经从前了两个多月,AI 范畴早曾经迎来了宏大的转变,此中尤其值得说起的就是 DeepSeek-R1 模子。凭仗开源跟低本钱等上风,这款机能强盛的推理模子不只曾经成为海内 AI 或云效劳商的标配,还正被集成到越来越多的利用跟效劳中,乃至本来良多底本与 AI 不直接关系的利用也以接入 DeepSeek 为卖点停止宣扬。那么,DeepSeek-R1 的 ARC-AGI 成就怎样呢?依据 ARC Prize 宣布的讲演,R1 在 ARC-AGI-1 上的表示还赶不上 OpenAI 的 o1 系列模子,更别说 o3 系列了。但 DeepSeek-R1 也有本人的特有上风:本钱低。上周六,ARC Prize 又宣布了一个新的基准,这一次 DeepSeek-R1 不只超越了 o1-mini,与 o3-mini 的差距也十分小。这个新基准名为 SnakeBench,是一个 1v1 的抗衡性基准。其思绪很简略:将两个 LLM 放在一同停止贪吃蛇竞赛。如下展现了一局 o3-mini 与 DeepSeek-R1 的抗衡。官方网站:https://snakebench.com名目地点:https://github.com/gkamradt/SnakeBenchSnakeBench:缘起ARC Prize 的推文表现,SnakeBench 的计划灵感来自有名 AI 研讨迷信家 Andrej Karpathy 的一条推文,此中波及到了让 AI 智能体在游戏中停止抗衡以停止评价的思绪。(这条推文还波及到另一个应用游戏来评价 LLM 的基准 TextArena,感兴致的读者可拜访:https://www.textarena.ai )ARC Prize 表现,应用游戏作为评价情况能够测验 LLM 的多种才能,包含:及时决议多重目的空间推理静态情况模子的表示ARC Prize 讲演说他们现在曾经应用 50 个 LLM 停止了统共 2800 场竞赛,为这些模子的「贪吃蛇及时战略跟空间推理」才能排了个座次。详细进程是怎么的呢?起首,以文本格局供给两个 LLM 比赛的棋盘,此中会经由过程提醒词明白阐明所用的 XY 坐标系。因而须要明白,这里供给的并非真正的 2D 表现 —— 这种信息转译可能会丧失某些空间推理信息。上面展现了一个提醒词示例:在游戏停止时,起首随机初始化每条蛇。而后请求两条蛇(LLM)同时抉择下一步举措。当一条蛇撞到墙、撞到本人或撞到另一条蛇时,游戏停止。之后,依据游戏成果盘算每条蛇的 Elo 评分。以下为完全榜单:据先容,团体来说,Big Llama、o1、o3、Sonnet 3.5 跟 DeepSeek 的表示最好,而别的 LLM 老是会撞墙。上面展现了多少局后果最好的竞赛:ARC Prize 官网还具体列出了这四局竞赛的完全概况,上面展现了此中第二局(DeepSeek-R1 vs o3-mini)的概况。在这里,不只能够看到 LLM 每一步的抉择,并且还能看到 LLM 为每一步抉择给出的来由。固然,对 DeepSeek-R1 模子,咱们还能够明白地看到其完全的思考进程。Dry Merge CTO Sam Brashears 还留神到了一个十分风趣的回合。此时,o3-mini 跟 DeepSeek 同时与一个苹果相邻,而它们居然同时以为对方不会冒险吃这个苹果,于是决议本人去吃,成果招致双双毙命。此时,DeepSeek 想的是:「假如我向右挪动到 (8,7) ,同时假如蛇 1 也向左挪动,则有与蛇 1 相撞的危险。然而,为了保障分数,吃到苹果优先于躲避危险。」而此时 o3-mini 也有相似的主意:「只管咱们的敌蛇(蛇 2)的头位于 (7,7) 处,也有可能想吃这个苹果,但不激烈的迹象标明它会冒险用本人更长的身材与我正面碰撞。因而,吃到苹果的直接利益年夜于危险。」以下是 ARC Prize 总裁 Greg Kamradt 总结的多少点要害发明:推理模子盘踞主导:o3-mini 跟 DeepSeek 博得了 78% 的竞赛。LLM 常常曲解以文本格局供给的棋盘规划。这会招致模子过错地定位蛇头的地位,或许招致蛇撞到本人的尾巴。较高档的模子(包含 GPT-3.5 Turbo 跟 Haiku)表示欠安,而只有 GPT-4、Gemini 2.0 跟 o3-mini 表示出充足的战略游戏推理才能。这阐明基础的空间推理依然是 LLM 面对的宏大挑衅。年夜少数模子都无奈跟踪本人的地位,而且会犯显明的过错。高低文很要害。为了让 LLM 做出准确抉择,须要让其加载大批信息,包含棋盘地位、苹果地位、别的蛇的地位等。风趣的是,这种 LLM 抗衡竞技显然很轻易复现,CoreView 结合开创人兼 CTO Ivan Fioravanti 便基于 Ollama 让 deepseek-r1:32b 与 qwen2.5-coder:32b 停止了贪吃蛇竞赛。别的也有效户分享了本人让存在视觉才能的 LLM 玩贪吃蛇的阅历,不外差别于 SnakeBench 的成果,反却是 Gemini 表示最好。https://x.com/arcprize/status/1890464921604719103https://x.com/GregKamradt/status/1890466144533749866
上一篇:独家:他升任挪动某省公司副总司理数月 从本省 下一篇:没有了