OpenAI发布自GPT4以来最重磅的更新性能达到博士级

OpenAI发布自GPT4以来最重磅的更新性能达到博士级-3

‍ OpenAI 宣布了其下一款重磅产品:代号为 Strawberry 的生成式 AI 模型,正式名称为 OpenAI o1。

准确来说,o1 是一个模型家族。周四,两个版本会在 ChatGPT 和 OpenAI API 中上线:o1-preview 和 o1-mini,后者是一款更小巧、专为代码生成优化的模型。

您需要订阅 ChatGPT Plus 或 Team 才能在 ChatGPT 客户端使用 o1。企业和教育用户将于下周初获得优先访问权限。

需要注意的是,o1 目前的聊天体验还比较基础。不同于其前身 GPT-4o,o1 目前无法浏览网页或处理文件分析功能。尽管它具备图像分析功能,但该功能暂时关闭,等待进一步测试。此外,o1 还有消息量限制;目前 o1-preview 每周限额 30 条,o1-mini 每周 50 条。

另一个不利因素是 o1 的价格非常昂贵。在 API 中,o1-preview 的输入Token收费为每百万 Token $15,输出Token为每百万 Token $60。这比 GPT-4o 的输入 Token 贵了 3 倍,输出 Token 贵了 4 倍。( Token 是指原始数据单位;每百万 Token 约相当于 75 万个单词。)

OpenAI 表示计划向所有免费用户开放 o1-mini,但尚未确定具体日期。我们将继续跟进公司的发布进度。

推理能力链

OpenAI o1 之所以能避免许多生成式 AI 模型常见的推理陷阱,是因为它可以通过花更多时间全面思考问题,从而有效地自我检查。根据 OpenAI 的说法,o1 相较其他模型的最大特色在于它在回应问题之前能“思考”。

当 o1 获得更多时间进行“思考”时,它能够从整体上推理任务,提前规划并通过执行多个步骤来找到答案。这使得 o1 特别适合那些需要综合多个子任务结果的任务,例如识别律师邮箱中的特权邮件,或为产品营销策略提供头脑风暴。

OpenAI 研究科学家 Noam Brown 本周四在 X 上表示,o1 是通过强化学习训练的。他解释道,通过奖励正确答案、惩罚错误答案的方式,系统学会了在作答前通过一个私密的思维链进行“思考”。

Brown 还补充,OpenAI 使用了新的优化算法,并且训练数据集包含了大量“推理数据”和科学文献,专门为推理任务优化。“思考时间越长,[o1] 的表现就越好,”他说。

OpenAI发布自GPT4以来最重磅的更新性能达到博士级-4

尽管我们还没有机会亲自测试 o1,但已有部分用户体验了它。Thomson Reuters 的副总裁 Pablo Arredondo 表示,在分析法律简报和解决 LSAT 逻辑题目时,o1 表现优于 OpenAI 之前的 GPT-4o 模型。

Arredondo 说:“我们发现它能进行更深入和全面的分析。我们的自动化测试也显示它在许多简单任务上的表现有所提升。”

根据 OpenAI 的说法,在国际数学奥林匹克竞赛(IMO)预选赛中,o1 正确解答了 83% 的问题,而 GPT-4o 仅解决了 13%。(尽管如此,考虑到 Google DeepMind 最近的 AI 系统在真正的 IMO 比赛中获得了银牌,o1 的表现并非顶尖。)OpenAI 还表示,在 Codeforces 编程挑战中,o1 的表现位居参赛者前 89%——优于 DeepMind 的旗舰编程系统 AlphaCode 2。

OpenAI发布自GPT4以来最重磅的更新性能达到博士级-5

总体来说,OpenAI 认为 o1 在数据分析、科学研究和编程任务上有更好的表现。(GitHub 测试了 o1 并与其 AI 编程助手 GitHub Copilot 集成,报告称该模型在优化算法和应用程序代码方面表现突出。)此外,至少根据 OpenAI 的内部测试,o1 在多语言技能上优于 GPT-4o,特别是在阿拉伯语和韩语等语言方面。

尽管 o1 展现出许多优势,但它并不完美。

根据查询类型的不同,o1 的响应速度可能较慢。Arredondo 表示, o1 回答某些问题可能需要超过 10 秒的时间, 系统会通过显示子任务的标签来表明其进展。

此外,o1 也会产生错误答案或出现“幻觉”(即生成虚构的事实)。Brown 承认,o1 在玩井字棋时会犯错。而 OpenAI 在技术论文中也指出,有反馈显示,o1 更容易出现幻觉问题,且相比 GPT-4o 更少承认自己不知道答案。

尽管如此,OpenAI 仍计划进一步提升 o1 的推理能力,未来可能会推出能够进行数小时、数天甚至数周推理的模型。

激烈竞争

值得注意的是,OpenAI 并不是唯一一家探索推理方法以提高模型准确性的公司。

Google DeepMind 研究人员最近发表的研究显示,通过给予 AI 模型更多的计算时间和指导,模型性能可以在无需其他调整的情况下显著提升。

目前,OpenAI 已决定不公开展示 o1 的完整推理链,部分原因是出于“竞争优势”。取而代之,公司选择展示“模型生成的推理链摘要”。

o1 的推出标志着 OpenAI 在 AI 推理能力方面迈出了重要一步。

THE END
分享
二维码
< <上一篇
下一篇>>