离谱大学生用50美元零花钱训练出媲美OpenAI的AI模型巨头的噩梦

离谱大学生用50美元零花钱训练出媲美OpenAI的AI模型巨头的噩梦-2

据上周五发布的一份新研究论文显示,斯坦福和华盛顿大学的 AI 研究人员 仅花费不到 50 美元的云计算费用就训练出了一个 AI "推理"模型。

这个名为 s1 的模型在数学和编程能力测试中,表现可媲美 OpenAI 的 o1 和 DeepSeek 的 R1 等顶尖推理模型。s1 模型及其训练所用的数据和代码已在 GitHub 上开源。

s1 团队表示,他们从一个现成的基础模型开始,然后通过蒸馏技术进行微调。蒸馏是通过学习另一个 AI 模型的答案来提取其"推理"能力的过程。

研究人员透露,s1 是从 Google 的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏而来。这与伯克利研究人员上月用约 450 美元创建 AI 推理模型时采用的是同样的方法。

对一些人来说,看到没有雄厚资金支持的研究人员仍能在 AI 领域开展创新令人振奋。但 s1 也引发了对 AI 模型商品化的深思。

如果有人能用零花钱就复制出一个价值数百万美元的模型,那么技术壁垒又在哪里?

不出所料,大型 AI 实验室对此并不满意。OpenAI 指控 DeepSeek 不当收集其 API 数据用于模型蒸馏。

s1 团队的目标是找到最简单的方法来实现强大的推理性能和"测试时扩展",即让 AI 模型在回答问题前有更多思考时间。这些都是 OpenAI 的 o1 的突破点,DeepSeek 等 AI 实验室一直在尝试通过各种技术来复制。

s1 论文表明,推理模型可以通过监督微调 (SFT) 和相对较小的数据集进行蒸馏。在 SFT 过程中,AI 模型被明确指示模仿数据集中的特定行为。

与 DeepSeek 训练 R1 时使用的大规模强化学习方法相比,SFT 的成本要低得多。

Google 通过其 AI Studio 平台免费开放 Gemini 2.0 Flash Thinking Experimental 的使用权限,但有每日使用限制。

不过,Google 的使用条款禁止对其模型进行逆向工程,以开发与公司自身 AI 产品竞争的服务。我们已就此联系 Google 征求意见。

s1 基于阿里巴巴旗下 Qwen 实验室的一个小型开源 AI 模型。为了训练 s1,研究人员精心准备了一个仅包含 1,000 个问题的数据集,每个问题都配有来自 Google Gemini 2.0 Flash Thinking Experimental 的答案及其背后的"思维"过程。

据研究人员介绍,使用 16 个 Nvidia H100 GPU 训练不到 30 分钟后,s1 在某些 AI 基准测试中就展现出强劲性能。项目参与者、斯坦福研究员 Niklas Muennighoff称,现在租用所需算力只需约 20 美元。

研究人员使用了一个巧妙的方法来让 s1 自查并延长"思考"时间:他们告诉它等待。论文显示,在 s1 推理过程中加入"wait"这个词,有助于模型得出更准确的答案。

2025 年,Meta、Google 和 Microsoft 计划在 AI 基础设施上投入数千亿美元,部分资金将用于训练下一代 AI 模型。

这样的投资规模对推动 AI 创新可能仍然必不可少。 虽然蒸馏已被证明是廉价复制 AI 模型能力的有效方法,但它并不能创造出比现有模型更优秀的新模型。

THE END
分享
二维码
< <上一篇
下一篇>>