寰球华东说念主决战AI之巅！马斯克Grok 3险胜DeepSeek

发布日期：2025-03-28 15:46 点击次数：198

作家｜陈骏达程茜裁剪｜心缘

智东西2月18日报说念，刚刚，基于20万块的GPU集群熟练，马斯克口中地球上最灵巧的AI Grok-3终于亮相！

这次直播伊隆·马斯克（Elon Musk）主要认真听，两位华东说念主说合员坐在C位撑场，分裂是曾赴任于谷歌的研发小组N2Formal的吴宇怀（Yuhuai “Tony” Wu），以及多伦多大学盘算推算机科学助理熟练Jimmy Ba，他是“深度学习三巨头之一”、图灵奖得主辛顿的学生，曾在Meta担任说合员。

▲Jimmy Ba（左二）、吴宇怀（左三）、伊隆·马斯克（最右）

这次，xAI发布了Grok-3、Grok-3 mini，两个推理模子Grok-3 Reasoning和Grok-3 mini Reasoning，首个AI智能体DeepSearch。Grok-3在基准测试中打败了Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。酬酢平台X的Premium Plus订阅用户在Grok的期骗步伐和网页端不错体验推理、编程，以及DeepSearch的搜索智力。

此外，xAI还开启了单独的会员订阅运筹帷幄SuperGrok，SuperGrok的价钱为每月30好意思元（折合约218东说念主民币）或每年300好意思元（折合约2184东说念主民币），可解锁额外的推理、DeepSearch查询，以及无穷的图像生告捷能。

OpenAI集合创举东说念主、前特斯拉AI总监、知名盘算推算机科学家李飞飞的爱徒安德烈·卡帕西（Andrej Karpathy）在推特发文评价Grok-3：“Grok-3+Thinking嗅觉与OpenAI最弘大的模子o1-pro（每月200 好意思元）相配，略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。”

▲AI大神卡帕西评价Grok-3的部分截图（图源：X，经谷歌翻译为华文）

万众期待的语音功能这次并未展示，马斯克自大，最快一周后Grok将获取“语音情势”。几周后，xAI将在企业API中提供Grok-3模子与DeepSearch功能。几个月后，xAI将开源Grok-2。

直播终末放出了Grok用马斯克声息对话的彩蛋～

一、Grok-3现场念念考卡壳，水平与本科毕业生相配，2年内要上火箭

现场演示步伐中，Grok被考验了两个任务，一是现场联想了一条来往地球与火星间的合理旅途，并用动画呈现，二是联想一款一样俄罗斯方块的消消乐游戏。在演示中Grok“念念考卡壳”，因为自大“Thinking Hard”后很长一段技术莫得反应，恭候几秒后演示东说念主员关闭了页面开启下一话题。

之后演示东说念主员又回到念念考页面，分析了Grok的生成抑制。

最初是其现场联想的一条来往地球与火星间的合理旅途。教导词是“制作从地球降落在火星，然后鄙人一个辐照窗口复返地球的辐照动画三维图表并生成代码”。不外，测试东说念主员在Grok-3 mini惩办问题的历程中打断了它，并切换到了智力更弘大的满血版Grok-3。

114秒后，Grok-3惩办了这一问题，具有航空航天教会的马斯克现场评价说念，Grok给出的惩办有筹划基本正确，他还煞有介事声称，2年内Grok将会接入SpaceX的火箭。在场的职工立时嘲谑，说马斯克“预言什么皆是两年内”。

在联想一款一样俄罗斯方块的消消乐游戏时，Grok生成的代码在复制后即可运行。其教导词是“制作一个联接了俄罗斯方块和坚持的游戏，代码可能很长，将其输出为一个文献，让它变得绝顶棒”。终末游戏的运行机制比拟合理。马斯克同期秘书，xAI将缔造一个游戏使命室，使用AI进行游戏的蛊卦使命。

Agent智力当今还是是各家大模子企业皆在押注的倡导，xAI也不例外。他们给模子配备了更多的器具，本次Grok-3还是具有Deep Search功能，xAI称其为低级Agent智力。

演示中，测试东说念主员开启DeepSearch功能，让Grok-3料想SpaceX下一次火箭辐照的技术。回答问题时，Grok-3既会给出念念维链本色的转头，也会将齐全念念维链提供给用户。它的搜索范围十分无为，从X平台上的本色到百科网站，再到好意思国政府的有关文献。

进行DeepSearch时，Grok-3还会充分商量用户问题背后的意图、需乞降倡导，也会对信息起首进行交叉熟练，从而给出更为准确的回答。

还是有抢先体验的用户在X发布了100%由Grok-3生成的游戏，用户只需要告诉它我想要什么，并将代码放在正确的位置，就不错得到一个齐全的游戏。

在里面，说合东说念主员发现Grok还是不错惩办很多复杂的工程问题，检朴广宽技术，水平粗陋相配于又名本科毕业生。而17个月前，Grok还很难惩办高中数知识题。

二、20万块GPU力大砖飞，性能打败o3-mini high、DeepSeek-R1

直播演示中提到，Grok-3所波及的熟练量是Grok 2的10倍，这皆树立在xAI孟菲斯的AI超等盘算推算机集群之上。该集群建造的第一阶段，xAI在122天内建成了领有10万块NVIDIA H100 GPU的超等盘算推算集群，第二阶段拓展到20万块GPU集群仅用了92天。

基准测试抑制自大，Grok-3在评估模子在数知识题样本上性能的AIME和使用博士水平的物理、生物学和化知识题测试模子GPQA、LCB Oct-Feb中打败Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。

Grok-3的早期版块在Chatbot Arena中获取1400分，排行第一。Chatbot Arena是一项众包测试，让不同的AI模子互相竞争，并让用户对他们心爱的回答进行投票。Grok-3亦然有史以来第一个冲破1400分的模子。

xAI发布的推理模子早期版块Grok-3 Reasoning Beta，在最新的数学基准测试AIME 2025中达到93分，在GPQA上达到85分，这卓越了o3-mini的最好版块o3-mini high以及DeepSeek-R1。

此外，用户还不错大开“Big Brain”情势让Grok进行额外、更仔细的推理。xAI将该情势描写为最相宜数学、科学和代码有关问题的功能。马斯克还提到，他们隐敝了一些推理历程，以防护蒸馏。

关于开源，几个月后xAI将开源Grok-2。马斯克说：“咱们的方法是当下一个版块十足发布时，将开源Grok的上一个版块，也即是当Grok-3隆重健硕时，咱们将开源Grok-2。”

xAI合计预熟练模子远远不够，委果的AI需要具备反念念、第一性旨趣熟练等智力。他们通过强化学习让Grok-3学会了上述智力，竣事了熟练和推理时的两种Scaling Law。

Grok团队成员还自大，Grok-3的语音交互功能是通过原生语音交互模子竣事的，模子将概况平直意会用户语音，然青年景对应的语音回应，是一个端到端的历程，无需语音转翰墨、翰墨转语音动作中间步伐。

马斯克称，改日他们将会进一步加大数据中心的建筑力度，xAI的下一个盘算推算集群会成为宇宙上最弘大的集群，能耗达到1.2GW，相配于数十万户家庭1年的用电量。

三、基于合成数据熟练，运筹帷幄筹集约100亿好意思元资金

值得一提的是，这次直播马斯克又老牛破车，推迟18分钟驱动，但终末X上xAI官方账号中的直播不雅看东说念主数还是卓越286万东说念主次。刚下直播马斯克就马不断蹄转发、点赞科技播客顶流Lex Fridman、AI大神卡帕西等对Grok-3的惊奇。

在Grok-3发布之前，马斯克就按耐不住在X上让Grok-3秀手段。

他让Grok仿照电影《指环王》中“限制之诗”作念了工程师版诗歌：“以lor’s ring诗句的作风先容限制的发祥，指派工程师进行高档大模子搜索、代理、挂念、幽默的使命，使其接近原作”。

Grok生成的诗歌终末还有对私著名词的正式，与原著怎么对应等。

法新社此前报说念，Grok-3是在合成数据上采纳熟练的，况且能通过检讨数据来响应它所犯的失误以达到逻辑一致性。

融资方面，上周，据媒体征引音尘东说念主士报说念，xAI还正在运筹帷幄潜在投资者，运筹帷幄筹集约100亿好意思元资金，此轮融资可能使该公司估值达到约750亿好意思元。客岁12月，xAI秘书完成C轮融资，筹集了60亿好意思元。xAI总融资额还是达到120亿好意思元（约合东说念主民币876亿元）。

结语：马斯克接续押注大算力AI

本次发布的Grok 3无论是在熟练集群界限、用电量上皆是首屈一指的，这也在一定进度上挪动为了Grok 3在多个基准测试上的SOTA发达。把柄马斯克在采访中的言论，改日xAI可能还会接续押注大算力AI这条发展旅途。

不外，也有外洋网友机敏的评价说念，自DeepSeek-R1之后，咱们只应试虑恶果更高的逾越，而不单是那些界限更大、且比竞争敌手耗能更多的逾越。

上一篇：刚刚，马斯克发布“地表最强”AI，Grok 3豪恣狙击OpenAI，后院却起火了

下一篇：抖音集团副总裁李亮：网友“花6万买账号”不属实，已封号

智能设备

寰球华东说念主决战AI之巅！马斯克Grok 3险胜DeepSeek