红杉资本生成式人工智能的第一阶段

红杉资本生成式人工智能的第一阶段-3

生成式AI技术经过两年的发展,正在从快速反应向推理能力进化。红杉资本的文章讨论了这一转变如何为新的应用解锁潜力,并预测了未来的发展。文章还介绍了OpenAI的o1模型,这是首个具备真正通用推理能力的模型,预示着AI将能够进行更深层次的思考和问题解决。

本文翻译自红杉资本的《Generative AI’s Act o1》。

在生成式 AI 革命的两年时间里,研究正从“快思考”——即快速预训练响应,逐步过渡到“慢思考”——推理时的深度思考。 这一转变正在为一系列新型代理型应用程序铺平道路。

在我们发表《生成式 AI:一个充满创意的新世界》一文的两周年之际,AI 生态系统已发生显著变化,我们对未来趋势也有一些预测。

生成式 AI 市场的基础层已经趋于稳定,形成了微软/OpenAI、AWS/Anthropic、Meta 和谷歌/DeepMind 等一组关键的规模化玩家与联盟的均衡局面。如今,只有具备经济驱动力并拥有大量资金的规模化企业仍在市场中活跃。尽管竞争远未结束(并且正以博弈论方式持续升级),但市场结构逐渐固化,显然我们将迎来越来越低成本且充足的下一个词元预测(next-token predition)。

随着 LLM 市场结构趋于稳定,下一个重点领域正在浮现。焦点正转向推理层的开发和扩展,“系统 2”思维成为主导。受到 AlphaGo 模型的启发,这一层将赋予 AI 系统在推理时进行深度思考、问题解决和认知操作的能力,而不仅仅是快速的模式匹配。新的认知架构和用户界面也在重新定义这些推理能力如何传达给用户并与之互动。

那么,这对 AI 市场的创业者意味着什么?对现有软件公司又意味着什么?作为投资者,我们在哪一层能够看到生成式 AI 堆栈中的最佳回报机会?

在我们最新的关于生成式 AI 市场的文章中,我们将探讨 LLM 基础层的整合如何为扩展更高阶的推理和代理能力竞赛奠定基础,并讨论拥有新认知架构和用户界面的新一代“杀手级应用”。

永远的草莓地

2024 年最重要的模型更新非 OpenAI 的 o1 莫属,它曾被称为 Q*,现如今大家更习惯称它为“草莓”(Strawberry)。这不仅巩固了 OpenAI 在模型质量排行榜上的领先地位,更在现有架构的基础上取得了显著进步。特别是,o1 是第一个真正具备通用推理能力的模型,并且它通过推理时计算(inference-time compute)实现了这一点。

那么,这究竟意味着什么?通常预训练模型是在海量数据上进行下一个词元的预测,它们依赖的是“训练时计算”。随着模型规模的扩大,基本推理能力会自然出现,但这类推理非常有限。那么,如果我们可以让模型更主动地进行推理呢?这正是草莓正在做的。当我们提到“推理时计算”时,意思是模型在回答之前会先“停下来思考”,而这需要更多的计算资源来支持推理过程(这就是“推理时计算”的来源)。所谓“停下来思考”实际上就是推理的过程。

AlphaGo 与大语言模型的碰撞

那么,模型“停下来思考”的时候,它到底在做什么呢?

首先,让我们回到 2016 年 3 月的首尔,那是深度学习历史上一个极具意义的时刻:AlphaGo 对战围棋大师李世石(Lee Sedol)。这不仅仅是一次 AI 对人类的比赛,更是让全世界看到 AI 不再仅仅是模仿,它在“思考”。

AlphaGo 和早期的游戏 AI 系统(如深蓝(Deep Blue))有何不同?与大语言模型一样,AlphaGo 通过从围棋数据库中学习了大约 3000 万步棋,并通过自我对弈不断进化。但不同的是,AlphaGo 并不是依赖于预训练模型快速反应,而是选择停下来进行推理。在推理时,它会对未来可能的场景进行模拟和评估,选择得分最高的方案来回应。AlphaGo 的推理时间越长,表现就越好。没有推理时计算,它无法打败顶尖的人类选手;而随着推理时间的增加,它最终超越了最优秀的人类选手。

那么,大语言模型能否复制 AlphaGo 的成功呢?挑战在于如何构建价值函数(value function),即如何为模型的回答打分。下围棋时,情况较为简单:你可以模拟整局比赛,看到谁赢了,然后计算出下一步的最佳选择。编写代码时也比较简单:你可以运行测试,看看代码是否有效。然而,该如何评价一篇文章的初稿呢?如何判断一个旅行计划是否合理?如何总结一份长文档中的关键点?这就是目前推理领域的难点所在,也是为什么草莓(Strawberry)在与逻辑相关的领域(如编程、数学、科学)表现出色,而在开放性较强、结构化较弱的领域(如写作)表现较弱的原因。

虽然草莓的具体实现依然是个秘密,但核心概念是通过模型生成的思维链进行强化学习。对这些思维链的分析表明,模型的推理方式已经非常接近人类思维。比如,o1 展现出了一种在遇到困难时能够回溯推理路径的能力,这正是推理时间增加的结果。它还能像人类一样思考问题(例如,通过想象球面上的点来解决几何问题),甚至还能以全新方式解决问题(例如,在编程竞赛中用人类未曾想到的方法解题)。

现在,有无数新想法正在推动推理时计算的进展(例如新的奖励函数计算方法,或者缩小生成器和验证器之间差距的方案)。深度强化学习再次成为热点,它正为 AI 开启全新的推理能力层。

系统 1 vs 系统 2:AI 思维模式的未来

AI 正在从简单的预训练反应(即“系统 1”)向更深层次的、更加刻意的推理(即“系统 2”)迈进。这是 AI 的下一个重要突破。仅仅让模型掌握知识还远远不够——AI 需要学会在实时决策中停下来、评估并进行推理。

可以把预训练看作是系统 1,它依赖于模式的模仿。无论是 AlphaGo 通过数百万围棋对局训练出的技能,还是大语言模型通过大量互联网文本训练出的语言能力,它们的核心都是模仿。但模仿尽管强大,却不等同于推理。它无法应对复杂的新问题,尤其是那些在训练中从未遇到的情况。

这时,“系统 2”思维就显得尤为重要,这也是当前 AI 研究的核心。当 AI 模型“停下来思考”时,它不仅仅是在依赖已学到的模式。相反,模型在探索多种可能性,评估各种潜在的结果,最终基于逻辑推理做出决策。

对于很多任务来说,系统 1 的快速反应是足够的。正如 Noam Brown 在我们最新的 Training Data 播客中指出的那样,思考“不丹首都是什么”问题时,停下来多想并不会带来更多帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式回忆就已经足够有效。

但对于更复杂的问题,比如数学和生物学领域的突破性发现,快速的本能反应并不能解决问题。这些重大进展通常依赖于深思熟虑、创造性解决问题的能力,并且——最为关键——需要时间。AI 要想应对类似的挑战,也需要突破快速反应的限制,花时间进行深入推理,正如人类的重大进步所依赖的那种深度思维一样。

红杉资本生成式人工智能的第一阶段-4

红杉资本生成式人工智能的第一阶段-5

新的扩展法则:推理竞赛已经开始

来自 o1 论文的最重要见解是,我们迎来了一个新的扩展法则。

预训练大型语言模型(LLM)遵循一个成熟的扩展法则:你在预训练模型中投入的计算和数据越多,模型的性能就越好。

而 o1 论文开启了一种全新的计算扩展方式:给予模型的推理时(或“测试时”)的计算越多,模型的推理能力就越强。

当模型能够思考几个小时、几天甚至几十年时,会发生什么?我们能否解决黎曼假设?能否回答阿西莫夫的最后一个问题?

这种转变将使我们从一个依赖庞大预训练集群的世界,转向推理云——一种能根据任务复杂性动态扩展计算能力的环境。

红杉资本生成式人工智能的第一阶段-6

一个模型统治一切的时代?

随着 OpenAI、Anthropic、谷歌(Google)和 Meta 不断扩展推理层,开发出更强大的推理机器,会发生什么?我们会迎来一个主导一切的“超级模型”吗?

在生成式 AI 市场刚起步时,有一个假设认为某家模型公司将会变得无比强大,最终包揽所有应用程序。然而,这一预测在两方面出现了偏差。

首先,模型层面的竞争非常激烈,大家都在不断超越对手,争夺最先进的技术。虽然有可能有人通过领域广泛的自我博弈和自我改进实现飞跃,但目前还没有看到这种迹象。相反,模型层竞争十分激烈,自从上次开发者日以来,GPT-4 的每词元价格已下降了 98%。

其次,除了 ChatGPT,其他模型并未成功进入应用层,成为现象级产品。现实世界是复杂的,顶尖的研究人员通常不愿涉足每个垂直领域中的所有工作流程。对于他们来说,停留在 API 层级既高效又合理,而让开发者去应对现实世界的混乱正是当前趋势。对应用层来说,这无疑是个好消息。

现实世界的复杂性:定制化的认知架构

作为一名科学家,达成目标的行动规划和执行方式,与作为软件工程师的做法差别极大。而且,即便是软件工程师,在不同公司里的工作方式也千差万别。

尽管研究实验室不断推动通用推理的边界,我们依然需要应用场景或特定领域的推理,才能让 AI 代理变得有用。现实世界的复杂性决定了许多领域和应用的推理需求不能被通用模型高效地处理。

红杉资本生成式人工智能的第一阶段-7

这时,认知架构出现了,它决定了系统如何“思考”:也就是代码和模型的交互流程,它接收用户输入并生成行动或回应。

以 Factory 公司为例,它的每个“机器人”产品都采用定制化的认知架构,模拟人类在执行特定任务时的思维方式,比如审核代码拉取请求或编写、执行迁移计划,将服务从一个后端迁移到另一个。Factory 的机器人会先分析所有依赖项,提出代码修改建议,添加单元测试,并引入人类审查。在得到批准后,它会在开发环境中执行这些更改,所有测试通过后再将代码合并。与人类的做法类似,分解成一系列具体任务,而不是单一的通用解决方案。

应用层的现状如何?

假如你打算在 AI 领域创业,你会瞄准哪一层?你想在基础设施层竞争?那你得超越 NVIDIA 和那些超大规模云服务提供商。你想在模型层竞争?那你得打败 OpenAI 和马克·扎克伯格(Mark Zuckerberg)。你想在应用层竞争?看起来,击败企业 IT 和全球系统集成商还是有机会的!

基础模型虽然强大,但也带来不少麻烦。主流企业无法接受黑盒模型、生成幻觉以及复杂的工作流程。消费者面对空白的提示框时,也常常不知道从何问起。这些问题正是应用层的大好机会。

两年前,许多应用层公司被调侃为“只是在 GPT-3 上加了一层包装”。如今,这些“包装”已被证明是建立长期价值的有效途径之一。原来的“包装”已经进化成了“认知架构”。

应用层 AI 公司早已不只是基础模型上的简单用户界面。远不止如此。它们构建了复杂的认知架构,通常包括多个基础模型,上面有一种路由机制,结合向量或图数据库用于 RAG,并配有保障合规性的措施和模仿人类思考流程的应用逻辑。

服务即软件的新时代

云计算的转型让“软件即服务”(SaaS)成为主流,软件公司变身为云服务提供商,创造了价值 3500 亿美元的市场机会。

而在 AI 时代,代理推理的(agentic reasoning)将这一模式进一步革新为“服务即软件”,即软件公司通过自动化将人力劳动转化为软件。由此,AI 公司的目标市场不再是传统的软件市场,而是规模数万亿美元的服务市场。

红杉资本生成式人工智能的第一阶段-8

那什么是“售卖工作”呢?Sierra 就是个好例子。B2C 公司将 Sierra 集成到其网站上,用来与客户交流,处理客户问题。任务目标很明确——解决客户问题。而 Sierra 的收费方式是按问题解决数收费。这里没有“席位”概念,只有任务的完成,完成后按次收费。

这正是许多 AI 公司的真正方向。Sierra 的成功源自其优雅的失败机制(即在 AI 处理失败时转交给人工客服)。但并不是所有公司都能这么幸运。越来越多的公司选择先以“副驾驶”(Copilot)模式(人机协作)进行部署,借此积累经验,逐步向“自动驾驶”(autocopilot)模式过渡(全自动化,无需人工介入)。GitHub Copilot 就是一个典型案例。

新一代代理性应用程序

随着生成式 AI 推理能力的逐渐发展,一类新的代理性应用程序正开始崭露头角。

这些应用层公司呈现出什么样的特征呢?有趣的是,这些公司与其云计算前辈相比截然不同:

- 云计算公司专注于软件利润池,而 AI 公司则专注于服务利润池。

- 云计算公司主要销售软件(按座位收费),而 AI 公司销售的是工作(按结果收费)。

- 云计算公司往往采取自下而上的策略,采用无摩擦的分发方式。AI 公司则越来越倾向于自上而下,采用高接触、高信任的交付模式。

我们在知识经济的各个领域都能看到这一新一代代理性应用程序的涌现。以下是一些示例:

- 哈维(Harvey):AI 律师

- 格林(Glean):AI 工作助手

- 工厂(Factory):AI 软件工程师

- 阿布里奇(Abridge):AI 医疗抄写员

- XBOW:AI 渗透测试员

- 西耶拉(Sierra):AI 客服代理

通过降低这些服务的边际交付成本——与推理成本的急剧下降保持一致——这些代理性应用正在不断扩展并创造新的市场。

以 XBOW 为例。XBOW 正在构建一个 AI 渗透测试员。渗透测试(pentest)是对计算机系统进行的模拟网络攻击,公司通过这种方式评估自身的安全性。在生成式 AI 之前,公司通常只在特定情况下(如合规要求)聘用渗透测试员,因为人工渗透测试的成本较高:这是一项由技术熟练的人力完成的手动任务。然而,XBOW 现在展示的基于最新推理大型语言模型(LLM)的自动化渗透测试,能够与最优秀的人类渗透测试员相匹敌。这将极大地扩展渗透测试市场,并为各种规模的公司提供持续渗透测试的可能性。

这对 SaaS 领域意味着什么?

今年早些时候,我们与有限合伙人会面,他们最关心的问题是:“AI 的转型会摧毁你们现有的云公司吗?”

我们起初的回答是“不会”。初创公司与老牌公司之间的经典竞争就像一场赛马,初创公司在构建分销,而老牌公司则在专注于产品。那些拥有酷炫产品的年轻公司能否在老牌公司推出新产品之前,快速吸引大量客户?考虑到 AI 领域的许多奇迹都源于基础模型,我们的默认假设是不会——老牌公司会表现得很好,因为这些基础模型对他们和初创公司同样可得,并且他们拥有数据和分销的先发优势。初创公司的主要机会并不是取代现有的软件公司,而是去争取那些可以自动化的工作。

不过,现在我们开始有些怀疑。关于认知架构的讨论说明,要将模型的原始能力转化为引人入胜、可靠的端到端商业解决方案需要大量工程工作。如果我们大幅低估了“AI 原生”所意味着的呢?

二十年前,现场软件公司曾嘲笑 SaaS 的概念。“这有什么大不了的?我们可以自己运行服务器,通过互联网交付这些东西!”当然,概念上确实很简单。但这之后却导致了商业模式的全面重塑。EPD 从瀑布式开发和产品需求文档(PRD)转向敏捷开发和 AB 测试。市场策略(GTM)则从自上而下的企业销售和高档晚宴变成了自下而上的产品驱动增长(PLG)和产品分析。很少有现场公司成功完成转型。

如果 AI 是一种类似的转变呢?AI 的机会是否可以同时体现在销售工作和取代软件上?

通过 Day.ai ,我们已经看到了未来的曙光。Day 是一个 AI 原生的客户关系管理(CRM)系统。系统集成商通过为 Salesforce 配置服务赚取数十亿美元。Day 仅需访问您的电子邮件和日历,并回答一份简单的问卷,就能自动生成一个完美契合您业务需求的 CRM。虽然它现在还没有所有的功能(但未来会有),但是这个无需人工输入的自动生成 CRM 的魔力,已经促使很多人开始转向使用它。

投资宇宙

作为投资者,我们的资金主要投入到哪些领域?资金又流向了哪里?以下是我们的简要分析。

基础设施

这是超大规模企业的主场。驱动因素是博弈论行为,而非微观经济学。在这里,风险投资家将面临严峻的挑战。

模型

这是超大规模企业与金融投资者的竞技场。超大规模企业正用资产负债表交换收入报表,他们投资的资金最终会以计算收入的形式回流到云业务中。金融投资者往往受到“被科学惊艳”偏见的影响,这些模型虽然酷炫,团队也极其出色,但微观经济学在这里似乎并不重要。

开发者工具和基础设施软件

对于战略投资者来说,这一领域的吸引力较小,而对风险投资家则显得更具吸引力。在云过渡期间,约有 15 家年收入超过 10 亿美元的公司在这一层面上成立,我们猜测人工智能领域也可能会出现类似的情况。

应用程序

这是风险投资者最感兴趣的层面。在云过渡期间,约有 20 家应用层公司年收入超过 10 亿美元,另有约 20 家是在移动过渡期间成立的,我们认为在这个领域也会出现相似的现象。

红杉资本生成式人工智能的第一阶段-9

结论

在生成式人工智能的下一阶段,我们预计推理研发的影响将扩展到应用层,这种影响将既迅速又深远。迄今为止,大多数认知架构都使用了巧妙的“解放”(unhobbling)技术;随着这些能力越来越深入融入模型本身,我们预计智能应用将迅速变得更加复杂和强大。

在研究实验室,推理和推理时的计算仍将是未来一个强烈的主题。现在我们有了新的扩展法则,下一轮竞争已经开始。然而,在任何特定领域,收集真实世界的数据和编码领域特定的认知架构仍然面临挑战。这正是最后一公里应用提供商在解决复杂的现实问题时可能拥有优势的地方。

展望未来,多智能体系统,例如工厂的机器人,可能会开始普及,成为建模推理和社会学习过程的一种方式。一旦我们能够完成工作,团队的工人将能实现更多的成就。

我们都在期待生成式人工智能的第 37 步,那一刻——就像 AlphaGo 在与李世石的第二场比赛时一样——一个通用人工智能系统以超出人类的方式让我们惊讶,展现出类似独立思考的能力。这并不意味着人工智能“觉醒”(AlphaGo并没有),而是我们已经模拟了感知、推理和行动的过程,使人工智能能够以真正新颖和实用的方式进行探索。这实际上可能就是通用人工智能(AGI),而如果是这样,它将不是一次性的事件,而只是技术的下一个阶段。

红杉资本生成式人工智能的第一阶段-10

THE END
分享
二维码
< <上一篇
下一篇>>