OpenAI发布自GPT4以来最重磅的更新性能达到博士级

shadowrocket • 2026年1月25日 am9:57 • 小火箭, 小火箭下载, 小火箭节点

‍ OpenAI 宣布了其下一款重磅产品：代号为 Strawberry 的生成式 AI 模型，正式名称为 OpenAI o1。

准确来说，o1 是一个模型家族。周四，两个版本会在 ChatGPT 和 OpenAI API 中上线：o1-preview 和 o1-mini，后者是一款更小巧、专为代码生成优化的模型。

您需要订阅 ChatGPT Plus 或 Team 才能在 ChatGPT 客户端使用 o1。企业和教育用户将于下周初获得优先访问权限。

需要注意的是，o1 目前的聊天体验还比较基础。不同于其前身 GPT-4o，o1 目前无法浏览网页或处理文件分析功能。尽管它具备图像分析功能，但该功能暂时关闭，等待进一步测试。此外，o1 还有消息量限制；目前 o1-preview 每周限额 30 条，o1-mini 每周 50 条。

另一个不利因素是 o1 的价格非常昂贵。在 API 中，o1-preview 的输入Token收费为每百万 Token $15，输出Token为每百万 Token $60。这比 GPT-4o 的输入 Token 贵了 3 倍，输出 Token 贵了 4 倍。（ Token 是指原始数据单位；每百万 Token 约相当于 75 万个单词。）

OpenAI 表示计划向所有免费用户开放 o1-mini，但尚未确定具体日期。我们将继续跟进公司的发布进度。

推理能力链

OpenAI o1 之所以能避免许多生成式 AI 模型常见的推理陷阱，是因为它可以通过花更多时间全面思考问题，从而有效地自我检查。根据 OpenAI 的说法，o1 相较其他模型的最大特色在于它在回应问题之前能“思考”。

当 o1 获得更多时间进行“思考”时，它能够从整体上推理任务，提前规划并通过执行多个步骤来找到答案。这使得 o1 特别适合那些需要综合多个子任务结果的任务，例如识别律师邮箱中的特权邮件，或为产品营销策略提供头脑风暴。

OpenAI 研究科学家 Noam Brown 本周四在 X 上表示，o1 是通过强化学习训练的。他解释道，通过奖励正确答案、惩罚错误答案的方式，系统学会了在作答前通过一个私密的思维链进行“思考”。

Brown 还补充，OpenAI 使用了新的优化算法，并且训练数据集包含了大量“推理数据”和科学文献，专门为推理任务优化。“思考时间越长，[o1] 的表现就越好，”他说。

尽管我们还没有机会亲自测试 o1，但已有部分用户体验了它。Thomson Reuters 的副总裁 Pablo Arredondo 表示，在分析法律简报和解决 LSAT 逻辑题目时，o1 表现优于 OpenAI 之前的 GPT-4o 模型。

Arredondo 说：“我们发现它能进行更深入和全面的分析。我们的自动化测试也显示它在许多简单任务上的表现有所提升。”

根据 OpenAI 的说法，在国际数学奥林匹克竞赛（IMO）预选赛中，o1 正确解答了 83% 的问题，而 GPT-4o 仅解决了 13%。（尽管如此，考虑到 Google DeepMind 最近的 AI 系统在真正的 IMO 比赛中获得了银牌，o1 的表现并非顶尖。）OpenAI 还表示，在 Codeforces 编程挑战中，o1 的表现位居参赛者前 89%——优于 DeepMind 的旗舰编程系统 AlphaCode 2。

总体来说，OpenAI 认为 o1 在数据分析、科学研究和编程任务上有更好的表现。（GitHub 测试了 o1 并与其 AI 编程助手 GitHub Copilot 集成，报告称该模型在优化算法和应用程序代码方面表现突出。）此外，至少根据 OpenAI 的内部测试，o1 在多语言技能上优于 GPT-4o，特别是在阿拉伯语和韩语等语言方面。

尽管 o1 展现出许多优势，但它并不完美。

根据查询类型的不同，o1 的响应速度可能较慢。Arredondo 表示， o1 回答某些问题可能需要超过 10 秒的时间，系统会通过显示子任务的标签来表明其进展。

此外，o1 也会产生错误答案或出现“幻觉”（即生成虚构的事实）。Brown 承认，o1 在玩井字棋时会犯错。而 OpenAI 在技术论文中也指出，有反馈显示，o1 更容易出现幻觉问题，且相比 GPT-4o 更少承认自己不知道答案。

尽管如此，OpenAI 仍计划进一步提升 o1 的推理能力，未来可能会推出能够进行数小时、数天甚至数周推理的模型。

激烈竞争

值得注意的是，OpenAI 并不是唯一一家探索推理方法以提高模型准确性的公司。

Google DeepMind 研究人员最近发表的研究显示，通过给予 AI 模型更多的计算时间和指导，模型性能可以在无需其他调整的情况下显著提升。

目前，OpenAI 已决定不公开展示 o1 的完整推理链，部分原因是出于“竞争优势”。取而代之，公司选择展示“模型生成的推理链摘要”。

o1 的推出标志着 OpenAI 在 AI 推理能力方面迈出了重要一步。

‍

THE END

shadowrocket shadowrocket下载 shadowrocket网站小火箭小火箭下载小火箭节点科学上网

二维码

OpenAI正洽谈新一轮65亿美元融资估值或高达1500亿美元

< <上一篇

o1让AI正式进入L2推理者阶段但我们离AGI仍然遥远

下一篇>>

搜索内容

OpenAI发布自GPT4以来最重磅的更新性能达到博士级

取消回复

共有 0 条评论

节点推荐

标签

热门文章

OpenAI发布自GPT4以来最重磅的更新性能达到博士级

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

取消回复

共有 0 条评论

节点推荐

标签

热门文章