马斯克用20万卡集群 做出了比DeepSeek还强的模子
2025-02-19 08:36
往年才刚从前两个月, AI 模子竞技场的炽热水平,堪频年底冲事迹。就在明天半夜,马斯克预报的谁人号称 “ 地球上最聪慧的人工智能 ” Grok 3 ,终于来了。宣布会仍是马斯克惯有的作风,说好的十二点定时开端,成果仍是晾了各人快二非常钟。一个小时的直播,马斯克携 xAI 天团( 四团体里就有两位华人 ),从各个方面先容了 Grok 3 毕竟有多凶猛。一看纸面数据,又是吊打诸如谷歌、 OpenAI 跟 DeepSeek 等一众明星公司的招牌模子。横竖直播刚一停止, X 上就不淡定了,有人曾经提前休会上了 Grok 3 , Andrej Karpathy 说它的推理才能跟 o1-pro 差未几,并且还要略优于 DeepSeek R1 跟 Gemini 的推理模子。另有老哥用 AI 天生了一个奥特曼看到 Grok 3 宣布后的视频。。。海内外对于 Grok 3 的报道也是满天飞, “ 首个冲破 1400 分(模子在 Imarena.ai 竞技场的得分 )的模子 ” “ 首个十万卡集群练习出来的模子 ” 。。。种种 title 看着就唬人。而世超在第一时光,也不雅看了这场宣布会,不克不及说炸裂,但至少从直播内容来看, Grok 3 确切又一次连续了AI 范畴鼎力出奇观的神话。现在, Grok 3 只对局部 X 的 Premium+ 会员开放,以是咱就简略从宣布会的内容给年夜伙儿先容,这个 Grok 3 毕竟是啥程度。一下去,就拿 Grok 跟 GPT 的模子迭代速率停止了对照。图上明显标着 Others ,但 GPT 是卷卷有爷名,针对性很强。而在模子机能方面, Grok 3 此次也是铁了心要跟其余模子争个高下。须要留神,依据官方的先容,此次的 Grok 3 现实上是一个模子家属,大抵能够分为非推理模子跟推理模子两种。咱先来看非推理模子,也就是 Grok 3 跟 Grok 3 mini 。仍是熟习的 Benchmark 基准测试, xAI 拉来了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 另有 GPT-4o 四个模子,跟自家孩子停止对照。在 AIME ’ 24 数学比赛、 GPQA ( 研讨生程度迷信常识问答才能的基准测试 )跟代码三项测试中, Grok 3 的成就肉眼可见超过了其余模子一年夜截。Grok 3 mini 的程度固然跟其余模子年夜差不差,但直播中也提到了, mini 版本能够经由过程就义必定水平的正确性,来调换更疾速度的答复。别的,在 Chatbot Arena 的盲测中, Grok 3 代号叫 “ 巧克力 ” 的晚期版本也登上了榜一,分数更是前所未有破了 1400 分。详细来看,巧克力在团体作风把持、编码、数学另有创意写作等多个方面,全都拿了第一。重要巧克力还只是晚期版本的 Grok 3 ,明天的最新版 Grok 3 机能或者还会更强。。。再来看 Grok 3 的推理模子。推理模子各人应当不生疏,究竟 OpenAI 的 o1 系列、 o3 mini 另有 DeepSeek R1 ,都曾经杀红眼了,头脑链也不是什么新颖玩意儿。当初各家上新的模子里,假如不是推理模子,可能都欠好意思拿出来。以是此次, Grok 3 Reasoning Beta 跟 Grok 3 mini Reasoning 也代表 xAI 出战了。同样仍是纸面气力,名义一看仍是吊打的姿势。但有个须要留神的处所,这个测试中,加了 Test-Time Compute 。简略懂得就是给了模子更多的时光去思考,统一个横坐标上色彩浅一点的局部,就是加时赛的成就。能够看到,假如不算上加时赛, Grok 3 两个推理模子跟其余模子的差距,并不那么年夜。一旦加了时长,这差距立刻就表现出来了。换句话说, Grok 3 的推理模子思考的时光越久,表示越好。在现场,马斯克他们还展现了 Grok 3 推理模子,在 2025 年 AIME 数学比赛上的测试成果。说切实的,假如不算上 Test-Time Compute ,似乎仍是 o3-mini ( high )的推理才能更强。。。为了证实本人不是说说罢了,马斯克他们在现场直接停止了后果演示。让 Grok 3 天生 3D 动画代码,能够看到模子一步步的思考进程。但他们也提到,这个思考进程是被含混处置过的,来由跟奥特曼的差未几,都说是为了避免模子被剽窃。别的,现场还让 Grok 3 天生一个,联合了俄罗斯方块跟宝石迷阵两种游戏规矩的新游戏。这很难不让人遐想到,马斯克昨天实锤了 xAI 要建立一家 AI 游戏任务室的事件,假如 Grok 3 的游戏制造才能,真的跟现场演示的一样乃至更强,这对全部游戏圈的影响都将是宏大的。并且依据马斯克的说法, Grok 3 在将来的两到三年内,还可能参加到特斯拉的出产另有火箭发射的进程傍边。最后,就是基于 Grok 3 构建的 Agent , Deepsearch 。这玩意儿实在就是个智能搜寻引擎,有点像 Perplexity 的 Deep Research 跟 OpenAI 的 Deep Research 。当你问 Grok 3 下一次星舰发射是啥时间,右边会表现一个总体的进度条,左边则是展现阅读了哪些网页、对哪些信源停止了验证。。。最后得出了下一次发射的时光,是 2 月 24 日。固然了,此次 Grok 3 之以是看上去如斯强盛,抛不开马斯克老早就在念叨的,只花了 122 天就搭建起来的 10 万卡集群。在此之后,他们又花了 92 天扩大到了 20 万卡集群,一招鼎力出奇观,在不到一年的时光里,供出了 Grok 3 。这段时光各人都在争辩的技巧道路成绩,但 Grok 3 的呈现仿佛再一次证实了,算力的相对力气。就是,把 20 万卡供出来的 Grok 3 跟 DeepSeek 的模子放在一同比拟,几多有点锐意了。。。除此之外,马斯克在前多少天的迪拜峰会上也提到, Grok 3 经由了分解数据的练习,可能经由过程检讨、验证信息来反思本人的过错。总而言之,此次的 Grok 3 确实算是拿出了点真家伙。不外世超也留神到,在 Grok3 领先休会的用户分享傍边,有不少跟宣扬不符的现实测试案例。就比方这位老哥用统一组 prompt 测试了 Grok 3 、 o3 mini 另有 Claude 3.5 Sonnet ,成果 Grok 3 翻得有点彻底。。。在别的一组测试中, o3 mini 的表示也要优于 Grok 3 跟 DeepSeek R1 。另有缩小镜选手,直接指出了宣布调演示的案例里,有显明过错。固然世超此次没能现实上手测试,但从外部的一些实测案例来看, Grok 3 仿佛也不营销的这么神。并且此次 Grok 3 上线后,良多人的留神力都放在了模子能否开源上。依据马斯克的说法, xAI 个别是新模子宣布后再开源旧模子,也就是说,就算开源也是老版的 Grok 2 。看样子,来自开源营垒的压力仍是不敷年夜,马斯克想狙的仍是老敌手奥特曼。就是不晓得,曾经在 X 上预报了的 GPT 4.5 ,能不克不及打一场翻身仗了,各人就等着看吧。
相关推荐