您的位置 首页 新闻

o3崛起,但推理模型离「撞墙」只剩一年?

  来源:新智元报道  编辑:英智  [新智元导读]OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飞猛进!但专家警告:最多一年,推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜?

o3崛起,但推理模型离「撞墙」只剩一年?

  来源:新智元报道

  编辑:英智

  [新智元导读]OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飞猛进!但专家警告:最多一年,推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜?

  最多一年,推理模型就会撞上训练算力的‘天花板’。

  OpenAI的o3这样的推理模型,诞生还不到一年,能力已经突飞猛进。OpenAI的研究人员非常乐观地认为,这种趋势会持续下去。

  但问题来了:推理模型到底还能进步到什么程度?

  Epoch AI是一个独立的AI研究团队,专注于对大模型的发展速度、发展轨迹以及可能产生的社会影响进行前瞻性研究。

  他们认为,推理模型确实还有进步空间,但想让OpenAI或者其他顶尖AI公司实现‘指数级大飞跃’,基本不太可能。

  按现在的节奏,每几个月计算能力翻10倍(就像o1到o3那样),估计最多一年就会撞墙。

  到2026年,扩展速度将会放缓,回落到每年4倍的增速水平,模型的升级速度也会跟着变慢。

o3崛起,但推理模型离「撞墙」只剩一年?

  如果类似o1到o3这样的规模提升持续下去,推理计算资源增长的可能轨迹

  研究的主要线索如下:

  •   o3的训练算力是o1的10倍,基本是指推理训练阶段,o3在o1发布4个月后就推出了。

  •   虽然不知道o1具体用了多少算力,但DeepSeek-R1可以用来参考。

  •   英伟达的Llama-Nemotron、微软的Phi-4-reasoning,也透露出一些训练细节。

  •   Anthropic CEO Dario Amodei也发表过相关看法。

  前沿推理模型得烧多少算力?

  OpenAI的o3和其他推理模型,都是从传统大语言模型发展而来的。

  最开始,模型会用海量人工标注数据进行‘预训练’;然后进入强化学习阶段,通过反馈优化模型解决难题的能力,这就是‘推理训练’。

  从历史上看,算力是AI发展的关键。

  所以得搞清楚:现在推理训练到底用了多少算力?还能增加多少,这又会怎么影响模型的能力?

  虽然推理模型在AI圈火得一塌糊涂,但推理模型的推理训练算力的公开信息却很少。

  从o1到o3:推理算力翻了十倍

  OpenAI发过一张图,对比o1和o3在AIME基准测试的表现,横轴是推理训练的算力。

  它表明,o3的训练算力是o1的10倍。

o3崛起,但推理模型离「撞墙」只剩一年?

  摘自OpenAI的o3直播发布会

  为啥说横轴不是总算力?

  因为o1早期版本的算力比o3少4个数量级,但AIME得分也有25%,要是算总算力,这个成绩就太离谱了。

  此外,如果横轴是总计算资源,就意味着OpenAI训练了许多预训练阶段高度不完整的o1版本。

  OpenAI研究员最近也透露,公司接下来打算重点发展强化学习,投入的计算资源会比训练初始模型时还要多。

  o3具体用了多少算力?目前没实锤,得从其他模型和业内人士的话里找线索。

  来自DeepSeek-R1的见解

  大部分AI公司都把训练细节捂得严严实实,但DeepSeek大方公开了R1的数据:

  DeepSeek-R1在强化学习阶段花了6×10²³次浮点运算(成本约100万美元),生成了2万亿个token,大约是基础模型DeepSeek-V3预训练成本的20%。

  这个数据虽然有误差,但仍然很有帮助,DeepSeek-R1和o1水平差不多,可作为基准。

  不过,由于各种原因,DeepSeek-R1的推理算力可能与o1不同。两个模型参数量、计算效率都不一样,所以结果仅供参考。

  其他推理模型的启示

  英伟达的Llama-Nemotron Ultra 253B和微软的Phi-4-reasoning也公开过数据:

  •   Llama-Nemotron Ultra:强化学习阶段用了14万小时H100算力(约1×10²³次浮点运算),不到基础模型预训练成本的1%。

  •   Phi-4-reasoning:推理阶段规模更小,生成4.6亿个token,计算成本不到1×10²⁰次浮点运算,算力消耗不到预训练的0.01%。

  这两个模型在基准测试中都取得了出色的成绩,Llama-Nemotron的成绩与DeepSeek-R1和o1相当。

  但它们在强化学习阶段之前都做了‘监督微调’,用了大量其他推理模型生成的高质量推理链示例,和o1、o3这种前沿模型的训练逻辑不太一样,参考价值有限。

  业内大佬怎么看?

  总体而言,这些信息对于了解o1或o3的训练算力规模帮助有限。

  有一点可以确定:像Phi-4这样的某些模型,推理训练计算资源(至少在强化学习阶段)可能相对较少。

  这并不意味着o3也是用同样少的计算资源进行训练的,但这确实表明,仅从一个推理模型在基准测试中表现良好,很难判断其推理算力的规模。

  此外,传统的监督微调在推理模型的开发中可能发挥着重要作用。由于训练方法多种多样,在没有公开训练细节的情况下,很难猜测推理模型的推理训练规模。

  Anthropic CEO Dario Amodei今年1月提到:

责任编辑:过博文

本文来自网络,不代表天火虎新闻网立场,转载请注明出处:/33912.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部