寰球华东说念主决战AI之巅!马斯克Grok 3险胜DeepSeek

作家|陈骏达 程茜裁剪|心缘
智东西2月18日报说念,刚刚,基于20万块的GPU集群熟练,马斯克口中地球上最灵巧的AI Grok-3终于亮相!
这次直播伊隆·马斯克(Elon Musk)主要认真听,两位华东说念主说合员坐在C位撑场,分裂是曾赴任于谷歌的研发小组N2Formal的吴宇怀(Yuhuai “Tony” Wu),以及多伦多大学盘算推算机科学助理熟练Jimmy Ba,他是“深度学习三巨头之一”、图灵奖得主辛顿的学生,曾在Meta担任说合员。
▲Jimmy Ba(左二)、吴宇怀(左三)、伊隆·马斯克(最右)
这次,xAI发布了Grok-3、Grok-3 mini,两个推理模子Grok-3 Reasoning和Grok-3 mini Reasoning,首个AI智能体DeepSearch。Grok-3在基准测试中打败了Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。酬酢平台X的Premium Plus订阅用户在Grok的期骗步伐和网页端不错体验推理、编程,以及DeepSearch的搜索智力。
此外,xAI还开启了单独的会员订阅运筹帷幄SuperGrok,SuperGrok的价钱为每月30好意思元(折合约218东说念主民币)或每年300好意思元(折合约2184东说念主民币),可解锁额外的推理、DeepSearch查询,以及无穷的图像生告捷能。
OpenAI集合创举东说念主、前特斯拉AI总监、知名盘算推算机科学家李飞飞的爱徒安德烈·卡帕西(Andrej Karpathy)在推特发文评价Grok-3:“Grok-3+Thinking嗅觉与OpenAI最弘大的模子o1-pro(每月200 好意思元)相配,略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。”
▲AI大神卡帕西评价Grok-3的部分截图(图源:X,经谷歌翻译为华文)
万众期待的语音功能这次并未展示,马斯克自大,最快一周后Grok将获取“语音情势”。几周后,xAI将在企业API中提供Grok-3模子与DeepSearch功能。几个月后,xAI将开源Grok-2。
直播终末放出了Grok用马斯克声息对话的彩蛋~
一、Grok-3现场念念考卡壳,水平与本科毕业生相配,2年内要上火箭现场演示步伐中,Grok被考验了两个任务,一是现场联想了一条来往地球与火星间的合理旅途,并用动画呈现,二是联想一款一样俄罗斯方块的消消乐游戏。在演示中Grok“念念考卡壳”,因为自大“Thinking Hard”后很长一段技术莫得反应,恭候几秒后演示东说念主员关闭了页面开启下一话题。
之后演示东说念主员又回到念念考页面,分析了Grok的生成抑制。
最初是其现场联想的一条来往地球与火星间的合理旅途。教导词是“制作从地球降落在火星,然后鄙人一个辐照窗口复返地球的辐照动画三维图表并生成代码”。不外,测试东说念主员在Grok-3 mini惩办问题的历程中打断了它,并切换到了智力更弘大的满血版Grok-3。
114秒后,Grok-3惩办了这一问题,具有航空航天教会的马斯克现场评价说念,Grok给出的惩办有筹划基本正确,他还煞有介事声称,2年内Grok将会接入SpaceX的火箭。在场的职工立时嘲谑,说马斯克“预言什么皆是两年内”。
在联想一款一样俄罗斯方块的消消乐游戏时,Grok生成的代码在复制后即可运行。其教导词是“制作一个联接了俄罗斯方块和坚持的游戏,代码可能很长,将其输出为一个文献,让它变得绝顶棒”。终末游戏的运行机制比拟合理。马斯克同期秘书,xAI将缔造一个游戏使命室,使用AI进行游戏的蛊卦使命。
Agent智力当今还是是各家大模子企业皆在押注的倡导,xAI也不例外。他们给模子配备了更多的器具,本次Grok-3还是具有Deep Search功能,xAI称其为低级Agent智力。
演示中,测试东说念主员开启DeepSearch功能,让Grok-3料想SpaceX下一次火箭辐照的技术。回答问题时,Grok-3既会给出念念维链本色的转头,也会将齐全念念维链提供给用户。它的搜索范围十分无为,从X平台上的本色到百科网站,再到好意思国政府的有关文献。
进行DeepSearch时,Grok-3还会充分商量用户问题背后的意图、需乞降倡导,也会对信息起首进行交叉熟练,从而给出更为准确的回答。
还是有抢先体验的用户在X发布了100%由Grok-3生成的游戏,用户只需要告诉它我想要什么,并将代码放在正确的位置,就不错得到一个齐全的游戏。
在里面,说合东说念主员发现Grok还是不错惩办很多复杂的工程问题,检朴广宽技术,水平粗陋相配于又名本科毕业生。而17个月前,Grok还很难惩办高中数知识题。
二、20万块GPU力大砖飞,性能打败o3-mini high、DeepSeek-R1直播演示中提到,Grok-3所波及的熟练量是Grok 2的10倍,这皆树立在xAI孟菲斯的AI超等盘算推算机集群之上。该集群建造的第一阶段,xAI在122天内建成了领有10万块NVIDIA H100 GPU的超等盘算推算集群,第二阶段拓展到20万块GPU集群仅用了92天。
基准测试抑制自大,Grok-3在评估模子在数知识题样本上性能的AIME和使用博士水平的物理、生物学和化知识题测试模子GPQA、LCB Oct-Feb中打败Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。
Grok-3的早期版块在Chatbot Arena中获取1400分,排行第一。Chatbot Arena是一项众包测试,让不同的AI模子互相竞争,并让用户对他们心爱的回答进行投票。Grok-3亦然有史以来第一个冲破1400分的模子。
xAI发布的推理模子早期版块Grok-3 Reasoning Beta,在最新的数学基准测试AIME 2025中达到93分,在GPQA上达到85分,这卓越了o3-mini的最好版块o3-mini high以及DeepSeek-R1。
此外,用户还不错大开“Big Brain”情势让Grok进行额外、更仔细的推理。xAI将该情势描写为最相宜数学、科学和代码有关问题的功能。马斯克还提到,他们隐敝了一些推理历程,以防护蒸馏。
关于开源,几个月后xAI将开源Grok-2。马斯克说:“咱们的方法是当下一个版块十足发布时,将开源Grok的上一个版块,也即是当Grok-3隆重健硕时,咱们将开源Grok-2。”
xAI合计预熟练模子远远不够,委果的AI需要具备反念念、第一性旨趣熟练等智力。他们通过强化学习让Grok-3学会了上述智力,竣事了熟练和推理时的两种Scaling Law。
Grok团队成员还自大,Grok-3的语音交互功能是通过原生语音交互模子竣事的,模子将概况平直意会用户语音,然青年景对应的语音回应,是一个端到端的历程,无需语音转翰墨、翰墨转语音动作中间步伐。
马斯克称,改日他们将会进一步加大数据中心的建筑力度,xAI的下一个盘算推算集群会成为宇宙上最弘大的集群,能耗达到1.2GW,相配于数十万户家庭1年的用电量。
三、基于合成数据熟练,运筹帷幄筹集约100亿好意思元资金值得一提的是,这次直播马斯克又老牛破车,推迟18分钟驱动,但终末X上xAI官方账号中的直播不雅看东说念主数还是卓越286万东说念主次。刚下直播马斯克就马不断蹄转发、点赞科技播客顶流Lex Fridman、AI大神卡帕西等对Grok-3的惊奇。
在Grok-3发布之前,马斯克就按耐不住在X上让Grok-3秀手段。
他让Grok仿照电影《指环王》中“限制之诗”作念了工程师版诗歌:“以lor’s ring诗句的作风先容限制的发祥,指派工程师进行高档大模子搜索、代理、挂念、幽默的使命,使其接近原作”。
Grok生成的诗歌终末还有对私著名词的正式,与原著怎么对应等。
法新社此前报说念,Grok-3是在合成数据上采纳熟练的,况且能通过检讨数据来响应它所犯的失误以达到逻辑一致性。
融资方面,上周,据媒体征引音尘东说念主士报说念,xAI还正在运筹帷幄潜在投资者,运筹帷幄筹集约100亿好意思元资金,此轮融资可能使该公司估值达到约750亿好意思元。客岁12月,xAI秘书完成C轮融资,筹集了60亿好意思元。xAI总融资额还是达到120亿好意思元(约合东说念主民币876亿元)。
结语:马斯克接续押注大算力AI本次发布的Grok 3无论是在熟练集群界限、用电量上皆是首屈一指的,这也在一定进度上挪动为了Grok 3在多个基准测试上的SOTA发达。把柄马斯克在采访中的言论,改日xAI可能还会接续押注大算力AI这条发展旅途。
不外,也有外洋网友机敏的评价说念,自DeepSeek-R1之后,咱们只应试虑恶果更高的逾越,而不单是那些界限更大、且比竞争敌手耗能更多的逾越。