“AI版拼多多”又动手了！DeepSeek放出超重磅全新模子R1：对标o1, 实测超出瞎想的好，今天可用

发布日期：2024-12-18 05:57 点击次数：125

DeepSeek放大招！DeepSeek-R1-Lite-Preview 荡漾登场！推理才略超强，莫得黑盒，及时展示推联想考历程，径直叫板OpenAI的o1-preview！

径直看性能

DeepSeek-R1-Lite 预览版模子在好意思国数学竞赛（AMC）中难度等第最高的 AIME 以及全球顶级编程竞赛（codeforces）等泰斗评测中，大幅超过了 GPT4o，致使o1-preview 等驰名模子

在六个不同基准测试（AIME 2024、MATH、GPQA Diamond、Codeforces、LiveCodeBench、ZebraLogic）中的施展

AIME 2024 ：pass@1，模子第一次尝试就给出正确谜底的百分比

deepseeker-r1-lite-preview 的施展最好，达到 52.5%。o1-preview 紧随后来，为 44.6%

MATH ：accuracy，模子在数学推理题上的正确率

deepseeker-r1-lite-preview 仍是向上，正确率为 91.6%。o1-preview 紧随后来（85.5%），与其他模子拉开较大差距

GPQA Diamond：pass@1，模子在高难度问题上的首答正确率

o1-preview 向上，达到 73.3%，deepseeker-r1-lite-preview 紧随后来，为 58.5%

Codeforces：rating，模子在编程挑战赛中的分数

deepseeker-r1-lite-preview 向上，分数为1450 , o1得分1428

LiveCodeBench：accuracy，编程任务的正确率（2024年8月至11月）

o1-preview 小幅向上，正确率为 53.6%。deepseeker-r1-lite-preview 紧随后来，为 51.6%

ZebraLogic ：accuracy，评估逻辑推理任务的正确率

o1-preview 占据第一，为 71.4%，deepseeker-r1-lite-preview 紧随后来，为 56.6%

DeepSeek-R1-Lite-Preview推理缩放

更长的推理，更好的性能。跟着想维长度的加多，DeepSeek-R1-Lite-Preview 在 AIME 上的得分稳步晋升，这与OpenAI o1 冷落推理缩放法规是一致的，由此也不错确认推理缩放具有远大的后劲

DeepSeek-R1-Lite-Preview实测：

及时透明的想维历程！让你清澄莹爽地看到AI的想考历程，不再是黑盒！

我测试了几个经典问题:

9.11和9.8哪个大？

9.12和9.9哪个大？

单词 “strawberry”（草莓）有几个r?

单词'blueberrycherryberrycarbonpherry'?有几个r?

回应王人备是一次性正确，况兼及时的展示出了想考的历程

令我印象荒谬潜入，要是我没记错，这是我第一次在大模子上测试这些经典问题沿途一次性答对，全球不错我方去试试

开源模子和API行将推出！ DeepSeek-R1-Lite 现时仍处于迭代缔造阶段，仅援助网页使用，暂不援助 API 调用。DeepSeek-R1-Lite 所使用的亦然一个较小的基座模子，无法完全开释长想维链的后劲。郑再版 DeepSeek-R1 模子将完全开源，公开本领证明，部署API

各路网友都在向OpenAI喊话，赶快放出o1完好版，deepseek太强了，超出了瞎想

DeepSeek-R1-Lite-Preview现时就不错使用

现时就不错用，每天50个额度！???? http://chat.deepseek.com

临了说一句：赤忱以为deepseek太牛皮了，这是在别东说念主为止咱们情况下作念出来的，国产之光！

著述起原：AI寒武纪，原文标题：《突发！DeepSeek 放出超重磅全新模子R1：对标o1, 实测超出瞎想的好，今天可用》

风险请示及免责要求市集有风险，投资需严慎。本文不组成个东说念主投资建议，也未辩论到个别用户突出的投资贪图、财务景象或需要。用户应试虑本文中的任何宗旨、不雅点或论断是否相宜其特定景象。据此投资，包袱得志。

数据安全