OpenAI的GPT5来了

OpenAI的GPT5来了-2

OpenAI 正式推出了 GPT-5,这是其下一代 ChatGPT 的核心旗舰模型。

这款于周四发布的新模型,是 OpenAI 首个实现“统一架构”的 AI 模型,融合了 o 系列的逻辑推理能力与 GPT 系列的高速响应能力。GPT-5 的推出,意味着 ChatGPT 迈入了全新阶段,也展现出 OpenAI 正在向更复杂的智能体( agent )方向发展,而不只是一个聊天工具。

GPT-4 的出现让 ChatGPT 能够针对各种问题给出聪明的回答,而 GPT-5 则进一步让它能替用户完成实际任务,比如开发 App、整理日历、撰写研究摘要等。

OpenAI 还特别优化了 GPT-5 的使用体验。用户不再需要自行调整设置,新模型内建的实时路由器( real-time router )会自动判断回答策略 —— 是要快速回应,还是多花点时间“思考”以输出更完整的答案。

OpenAI的GPT5来了-3

OpenAI CEO Sam Altman 在一次媒体沟通中称 GPT-5 是“当前全球最强的模型”,并认为这是实现“通用人工智能( AGI )”道路上的关键里程碑 —— 也就是能在大多数高价值工作中超越人类的 AI。

“要是放在历史上的任何一个阶段,人们几乎无法想象会有 GPT-5 这样的东西。”Altman 说。

从今天开始,GPT-5 将作为默认模型对所有 ChatGPT 免费用户开放使用。

OpenAI 的 ChatGPT 副总裁 Nick Turley 表示,这也是公司首次让免费用户用上具备 AI 推理能力的模型(过去这些能力通常只向付费用户开放)。

Turley 表示:“这只是我践行 OpenAI 使命的方式之一 —— 确保技术真正让大众受益。”他提到的,是 OpenAI 一贯强调的使命:让先进 AI 被更广泛的人群使用。

GPT-5 是自 2022 年 ChatGPT 引爆全球关注以来,OpenAI 最受期待的一次产品发布。据官方统计,ChatGPT 每周活跃用户已超过 7 亿,占全球人口近 10%。

GPT-5 被视为衡量 AI 发展进程的风向标。硅谷、大型科技公司、华尔街乃至监管机构都在密切关注:这次升级是否能像 GPT-4 一样再次打破预期,推动 AI 应用的边界。

小幅领先对手,GPT-5 在多个领域表现出色

OpenAI 表示,GPT-5 在多个基准测试中表现优于 Anthropic、Google DeepMind 和 xAI(由 Elon Musk 创办)。但在部分测试中也略有落后。

GPT-5 在编程方面尤其出色,Sam Altman 介绍说,它可以基于需求快速生成完整的应用程序,这种能力被称为“ vibe coding ”。

在 SWE-bench Verified(真实 GitHub 编程任务)测试中,GPT-5 初次尝试就拿下 74.9% 的得分,略高于 Claude Opus 4.1(74.5%)和 Gemini 2.5 Pro(59.6%)。

在跨学科的 Humanity’s Last Exam 测试中,GPT-5 Pro 得分为 42%,略低于 Grok 4 Heavy(44.4%)。

而在博士级别的科学问题测试 GPQA Diamond 中,GPT-5 Pro 表现强势,得分高达 89.4%,超过 Grok 4 Heavy(88.9%)和 Claude Opus 4.1(80.9%)。

在健康问答方面,GPT-5(思考模式)表现出色,HealthBench Hard Hallucinations 测试中,幻觉率仅为 1.6%,显著低于 GPT-4o(12.9%)和 o3(15.8%)。

虽然 AI 无法替代医生,但数百万人已在使用它获取健康建议。GPT-5 在这方面更主动,能帮助用户识别问题、解读报告。

创意表现更佳,幻觉显著减少

在创意任务方面,GPT-5 表现更自然,也更有“品位”。Turley 说:“它的氛围感( vibes )真的很棒。”

GPT-5 的幻觉率也明显下降。以 ChatGPT 实测为例,GPT-5(思考模式)幻觉率为 4.8%,而 o3 和 GPT-4o 分别为 22% 和 20.6%。

但在部分模拟任务上,GPT-5 表现略逊。例如在模拟航空网站的操作中得分 63.5%,低于 o3 的 64.8%;在零售网站导航上,GPT-5 得分为 81.1%,略低于 Claude Opus 4.1(82.4%)。

更安全、更友好,判断更精准

OpenAI 称 GPT-5 更安全、也更可信。相比早期模型,它更少展现欺骗行为 —— 比如为了达成目标而误导用户。

安全负责人 Beutel 表示:“减少欺骗行为,不只是提升了安全性,也让模型变得更加诚实透明,让用户更信任。”

GPT-5 还能更准确地区分恶意用户与普通请求。结果是:它拒绝了更多不安全内容请求,同时减少了对正常用户的误判。

多项升级同步上线,面向普通用户和开发者

GPT-5 上线同时,ChatGPT 也推出四种“角色人格”: Cynic、Robot、Listener 和 Nerd,无需写提示词即可改变聊天风格。

Plus 订阅用户($20/月)可获得更高调用额度,Pro 用户($200/月)享有无限 GPT-5 使用权限和增强版 GPT-5 Pro。团队、教育和企业版本下周也将启用 GPT-5。

开发者方面,OpenAI API 将提供 gpt-5、gpt-5-mini 和 gpt-5-nano 三种规格,支持设置模型的回答长度与“思考深度”。

定价方面:每百万输入 token 收费 $1.25(约 75 万字),每百万输出 token 收费 $10。

此前 OpenAI 刚刚发布开源推理模型 gpt-oss,可免费部署,成本更低。虽然该模型接近 o3 和 o4-mini,但 GPT-5 在部分领域设立了新标杆,尤其是在代码生成方面。

不过在一些能力上,GPT-5 与其他前沿模型差距并不大。基准测试只是参考,最终表现还得看开发者如何在真实场景中使用它。

📮

THE END
分享
二维码
< <上一篇
下一篇>>