菜鸟游戏网 - 游戏让生活变快乐!

首页| 热搜| 排行| 话题| 热点| 标签| 小游戏| H5游戏| 软件| 最新|

手机版 |

游戏资讯: 游戏资讯; 软件资讯; 软件教程; 游戏攻略; 游戏问答

手机游戏: 角色扮演; 动作闯关; 策略战棋; 射击枪战; 休闲养成; 赛车竞速; 卡牌回合; 音乐舞蹈; 儿童教育; 体育竞技; 街机游戏; 变态手游; 即将发布; 手机赚钱

专题合集: 二次元美女JK原神jk装; onnanoko游戏大全; 激战魔物娘全图鉴cg破解版下载合集; 风云游戏下载合集; 王蓝莓的幸福生活游戏合集; 叫我大掌柜游戏合集; 鸣沙客栈游戏合集; 熊猫餐厅游戏合集; 小说家模拟2游戏合集; 爸爸的面馆游戏合集; 异世轮回录游戏合集; 里世界危机游戏合集

热门推荐: 全民泡泡超人; 魔卡之耀; 飞羽青春; 螺旋圆舞曲2; 崩坏学园2; 代号蝶; 妙奇星球; 古代收租日记

特色专区: 我的起源; 龙珠最强之战; lol云顶之弈; 长安幻世绘; 英雄联盟手游; 龙族幻想; 跑跑卡丁车; QQ飞车

热门标签: 热门; 休闲益智; 剧情; 经营策略; 节奏; 竞速游戏; 休闲闯关; 体育; 恋爱养成; 校园; 动作闯关; 动作射击

您的位置 : 资讯 > 软件资讯 > 直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

来源：菜鸟下载 | 更新时间：2025-08-02

新智元报道编辑：编辑部 HNYZ【新智元导读】近日，斯坦福、UC伯克利等多机构联手发布了开

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

新智元报道

编辑：编辑部 HNYZ

【新智元导读】近日，斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B，性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

32B推理模型，仅用1/8数据，与同尺寸DeepSeek-R1打成平手！

就在刚刚，来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B，并同时开源了高达114k的训练数据。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

项目主页：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现：采用经DeepSeek-R1验证标注（基于R1蒸馏）的大规模优质数据集，便可训练出SOTA的推理模型。

具体方法，就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的OpenThinker-32B，在数学、代码和科学等多个基准测试中，OpenThinker-32B性能直接碾压了李飞飞团队s1和s1.1模型，直逼R1-Distill-32B。

值得一提的是，相比于使用了800k数据（包含600k个推理样本）的R1-Distill，OpenThinker-32B仅用了114k数据，就能拿下几乎同等的优异成绩。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

结果均通过开源评估框架Evalchemy计算得出

除此之外，OpenThinker-32还把模型权重、数据集、数据生成代码、训练代码上，全部都给公开了！

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

数据策展

研究人员使用了与之前训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B。

他们利用DeepSeek-R1模型，收集了精心挑选的17.3万个问题的推理过程和解答尝试。然后将这些原始数据作为OpenThoughts-Unverfied-173k数据集公开发布。

整个流程的最后一步是，如果推理过程未能通过验证，就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示，这些内容可以来自不同的领域和平台，如BAAI/TACO、DeepMind、Python提交等，涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块——DeepSeek-R1，在这里对数据进行分析与处理。这些问题会被分成三个方面，分别是：科学类问题、数学与谜题和代码。

有些结果不需要验证，可能是简单的分析或直接输出。对于一些需要深入验证的内容，利用大语言模型（LLM）采用与GT（Ground Truth）对比的方式进行评判。如果是代码，执行代码并进行单元测试，确保代码的正确性和有效性。

最后能将不同方向的结果结合起来，生成开放的思考和更为综合的解决方案。

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

研究团队更新了最终的OpenThoughts-114k数据集，加入了一个名为「metadata」的配置，其中包含了一些用于数据集构建的额外列：

problemground_truth_solutiontest_cases (code only)starter_code (code only)DeepSeek_reasoningDeepSeek_solutiondomainsource

这些额外的元数据将使得这个数据集更容易用于新的场景，例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易，仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

代码语言：javascript代码运行次数：0运行复制

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

登录后复制

菜鸟下载发布此文仅为传递信息，不代表菜鸟下载认同其观点或证实其描述。

展开

智夺军旗

类型：策略战棋运营状态：公测语言：简体中文

策略益智 AI

前往下载

相关文章

更多>>

热门合集

更多>>

热门游戏

更多>>

作妖计

手机游戏 |

2021-01-19

下载
赤月龙城

手机游戏 |

2020-12-16

下载
大天使之剑H5

手机游戏 |

2020-09-03

下载
三国全明星

手机游戏 |

2020-12-19

下载
丛林猎人

手机游戏 |

2020-10-09

下载

热点资讯

更多>>

热门排行

更多>>

热门攻略

更多>>

热门专区

更多>>

我的起源手游下载专区-我的起源礼包激活码攻略大全

我的起源

龙珠最强之战手游攻略-龙珠最强之战下载

龙珠最强之战

lol云顶之弈手机版下载-lol云顶之弈手游攻略

lol云顶之弈

长安幻世绘官网下载专区-长安幻世绘阵容搭配攻略

长安幻世绘

LOL手游官网合作专区-英雄联盟手游攻略视频

英雄联盟手游

手机扫描此二维码,

在手机上查看此页面

关于本站下载帮助版权声明网站地图

版权投诉请发邮件到 cn486com#outlook.com (把#改成@)，我们会尽快处理

Copyright © 2019-2020 菜鸟下载(www.cn486.com).All Reserved | 备案号：湘ICP备2023003002号-8

本站资源均收集整理于互联网，其著作权归原作者所有，如有侵犯你的版权，请来信告知，我们将及时下架删除相应资源