真正的智能体即将登场它们将被训练而不是定义好的工作流

真正的智能体即将登场它们将被训练而不是定义好的工作流-2

【本文翻译自 Vintage Data】

如今,AI 智能体(Agents)随处可见。 但在智能体大语言模型(Agentic LLM)研究领域,最重要的突破却鲜有人关注。

2025 年 1 月,OpenAI 发布了 DeepResearch,这是 O3 语言模型的一个专门版本,主要用于网页和文档搜索。由于其“在浏览任务上的强化学习训练”,DeepResearch 具备了规划搜索策略、交叉比对信息源,并根据中间反馈检索小众知识的能力。Claude Sonnet 3.7 似乎在编程领域复刻了这一模式,在复杂的代码任务序列上,其表现超越了以往基于多个模型协同工作的方式。

简而言之,正如 William Brown 所言:“ LLM 智能体已经具备执行长时间、多步任务的能力。 ”

这一进展促使人们重新思考 LLM 智能体的定义。2024 年 12 月,Anthropic 提出了新的定义:“LLM 智能体是一种可以动态掌控自身任务流程和工具使用方式的系统,能够自主决定如何完成目标。”

相比之下, 更常见的智能体系统属于“工作流”(workflows),即 LLM 和工具按照预定义的代码路径协同运行。 最近受到广泛关注的 Manus AI 就是典型案例。我在周末的测试结果表明,这类工作流系统仍然存在 AutoGPT 时代的根本性问题,尤其在搜索任务上暴露明显短板:

- 无法规划搜索路径,经常陷入死循环;

- 记忆力不足,难以维持任务超过 5-10 分钟;

- 长期行动效果欠佳,任务序列往往因误差累积而失败。

本文基于新的 LLM 智能体定义,尝试整理现有研究进展。这些信息来自大型 AI 研究机构的有限公开资料、开源研究社区的复现实验,以及个人的一些推测。

▍ 简单 LLM 智能体的“残酷现实”

基础语言模型的工作方式与智能体概念几乎背道而驰。

在经典的智能体研究中,智能体通常被置于受限环境中。例如,在迷宫中,你只能朝某些方向移动,不能随意穿墙、飞行或消失。你的行动受物理规则(以及可能的游戏规则)约束。然而,即便在这样的限制下,智能体仍然可以拥有一定的自由度,因为通往终点的路径不止一条。但不管选择哪种方式,每一步行动都必须围绕最终目标——赢得游戏、获得奖励——展开。优秀的智能体会逐步记住自己的行动轨迹,并归纳出高效的策略和模式。

这种方式被称为“ 搜索 ”(search)。这个比喻非常形象:智能体在迷宫中探索最优路线,就像用户在搜索引擎上点击不同的链接一样。搜索算法的研究已有数十年的历史,比如 Q-star——一度被传为 OpenAI 新一代 O 系列模型背后的核心算法(尽管目前尚不明确)——实际上是 1968 年 A-Star 搜索算法的变体。近期最具代表性的例子是 Pufferlib 进行的宝可梦强化学习实验:在训练过程中,我们可以看到智能体不断尝试不同的路径,失败、回溯,并最终找到最优解。

真正的智能体即将登场它们将被训练而不是定义好的工作流-3

基础语言模型的运行方式,与真正的智能体几乎完全相反 :

- 智能体会记住环境,而基础模型不会 。LLM 只能依赖当前上下文窗口的内容,无法长期存储信息。

- 智能体受限于“有限理性” ,而 LLM 仅仅是在预测可能的文本 。虽然这种方式有时会得出看似合理的推理,但它并不受严格的逻辑约束,可能随时偏离原有思路,仅仅是为了生成更符合语言风格的文本。

- 智能体可以制定长期策略,而 LLM 无法真正规划未来。 智能体可以提前预判并做出决策,甚至在出现问题时回溯调整;而 LLM 只能处理单步推理任务,一旦需要跨多个步骤的复杂推理,它很快就会力不从心。 LLM 遵循的是文本生成规则,而非物理定律或游戏规则。

目前,大多数 LLM 智能体的实现方式,是通过预设提示词(prompts)和规则来约束输出。这在短期内能带来一定效果,但从长期来看,它无法突破 Richard Sutton 提出的“痛苦教训”(The Bitter Lesson)。

许多人误解了“痛苦教训”,以为它只是一种 LLM 预训练指南。实际上,它最初是针对智能体研究的,并警示研究人员:直接把知识硬编码到模型里,并不是长久之计。举个例子,如果智能体遇到障碍物,它可以被硬编码为自动避开或回溯。这种方法在短期内确实能提升表现,并且不需要额外训练模型。然而,从长期来看,它往往会导致模型陷入次优解,甚至在意外场景下完全崩溃。

核心观点是:按照人类的思维模式设计 AI,在长期来看是无效的。

这一理论基于以下观察:

1. AI 研究人员往往倾向于直接构建知识, 让智能体依赖硬编码规则 ;

2. 这种方式短期内确实有效,并能给研究者带来正反馈;

3. 但从长期来看,它会限制智能体的发展,导致性能停滞甚至退步;

4. 重大 AI 突破往往源于相反的方法,即通过大规模计算、搜索和学习来提升能力。

这种成功往往带着“苦涩”,因为它推翻了人们原本钟爱的“知识嵌入”思路。

如果我们把这一理论应用到当今的 LLM 生产环境,会发现许多主流方法仍然是在“构建知识”。Manus 这样的 LLM 工作流系统,本质上是用一系列预设的提示词来引导模型。这可能是当前最现实的方案,因为它不需要重新训练模型,但它并不是最优的解决方案。最终, 这种方法只能得到一种“生成式 AI + 规则系统”的混合体——它让 AI 以一种固定模式来理解世界,比如空间、物体、多智能体之间的交互等。

换句话说,如果 Manus AI 不能正确订票,或无法提供合理的生存建议,这不是因为它的设计出了问题,而是因为它遭遇了“痛苦教训”:

- 单纯依赖提示词(prompts)无法扩展。

- 硬编码规则(rules)无法扩展。

如果要打造真正的 LLM 智能体,就 必须设计能够搜索、规划并执行任务的系统。

▍ RL+推理:大模型智能体的制胜之道

关于 LLM 智能体的真正突破,外界所知甚少。Anthropic、OpenAI、DeepMind 等少数实验室掌握核心技术,而我们只能从零星的官方披露、传闻和有限的开源研究中拼凑线索。

1)类似于传统智能体,LLM 智能体的训练依赖强化学习(RL)。 可以将这个过程比作走迷宫——所有可能的文本输出路径都是潜在的选择,而最终的“奖励”是找到最佳答案。判断是否达到奖励目标的过程被称为“验证器”(verifier),这正是 William Brown 最新 verifier 库的核心。

当前,验证器主要用于数学推导或代码生成等可严格评估的任务。然而,正如 Kalomaze 所展示的,针对非明确可验证的结果,仍然可以通过训练特定分类器来构建验证器。而且,相较于生成内容,语言模型在评估任务上的表现更为稳定。因此,即便是小规模的 LLM 作为评审者(LLM-as-judge),也能显著提升整体模型表现,并优化奖励机制。

2)LLM 智能体的训练方式类似于写作:模型先生成完整的文本草案,然后再进行评估。 这种方式并非最初的研究重点,早期的探索主要围绕如何扩展 token 序列的搜索能力展开。计算资源的限制是影响训练方式的关键,同时,近年来在“推理”模型(更准确地说是“起草”模型)上的突破也起到了决定性作用。当前,主流训练方式是让模型自主推演逻辑步骤,并假设能得出正确答案的推理路径更可能是合理的。

这种方法有时会带来令人意外的现象,例如 DeepSeek R0 模型偶尔会在推理过程中在中英文之间切换。但强化学习(RL)只关心最终是否有效,无论路径是否正统、方法是否意料之中。就像一个在迷宫中摸索的智能体,语言模型需要依靠自身的推理能力寻找最优路径,而非依赖人工设计的提示词或既定指令——这正是“痛苦教训”之下的最优解。

3)为了简化奖励机制,并提高推理过程的可控性,LLM 生成的文本通常被划分为结构化的数据段落。 这一过程被称为“评分标准工程”(rubric engineering),可直接作为奖励函数的一部分,或者(在大实验室的训练环境中更常见)作为后训练阶段的一项优化策略。

4)LLM 智能体的训练往往是多步的,尤其在搜索任务中表现得尤为明显。 与一次性判断搜索结果的优劣不同,训练过程会评估模型获取资源、分析信息、调整推理、修正搜索路径等能力。因此, 当前业界主流的 LLM 智能体训练方法是 DeepSeek 提出的 GRPO ,特别是在结合 vllm 进行文本生成时表现出色。

几周前,我基于 William Brown 的研究,发布了一款适用于 Google Colab 的 code notebook, 成功在一张 A100 GPU 上运行 GRPO。计算成本的下降是推动强化学习与智能体设计普及的关键,未来几年,这一趋势或将加速发展。

▍ 如何扩展这一能力?

基础部分已经奠定,但从这里到 OpenAI DeepResearch 以及其他能处理长序列任务的新型 AI 代理,还有很长的路要走。让我来推测一下可能的发展方向。

目前,开放强化学习(RL)和推理研究主要聚焦于数学领域,因为我们拥有大量数学练习题数据。其中一些数据被收录进 Common Crawl,并由 HuggingFace 通过分类器提取(即 FineMath)。但在搜索等许多领域,我们缺乏类似的数据。因为这些任务需要真正的操作序列数据,比如用户日志、点击记录和交互模式。

我过去曾从事日志分析(时间不算太久远),当时的模型仍然依赖马尔可夫链(尽管这一领域发展极快),并且仍然在用 1990 年代 AOL 泄露的数据进行训练。目前,这一领域新增的关键开放数据集之一是 Wikipedia clickstream,这是一个匿名化的 Wikipedia 文章跳转路径数据集。

但问题来了,这个数据集是否已经上传到 HuggingFace?答案是否定的。事实上,HuggingFace 上几乎没有真正能赋能 AI 代理进行自主规划的数据。 整个行业仍然假设 LLM 需要依赖人工编排的规则系统。 我不确定 OpenAI 或 Anthropic 是否拥有足够的数据,但至少在这一点上,传统科技公司仍然占据优势,并且没有可行的替代方案——毕竟,Google 的用户查询数据不会被公开出售(除非它已经悄悄流入暗网)。

有没有办法绕过这一限制?有,那就是 通过模拟直接生成数据。 传统 RL 模型并不依赖已有数据,而是通过大量搜索来归纳约束和策略。如果应用到搜索任务,一个典型的 RL 方法可能类似于游戏 AI:让模型自由探索,并在找到正确答案时给予奖励。这可能是一个漫长的过程,比如查找某项深藏于 1960 年代苏联论文中的冷门化学实验。通过不断尝试各种查询方式,模型最终可能会偶然发现正确的结果。 更重要的是,它可以归纳出有助于未来搜索的模式,使得找到类似信息的几率更高。

我们来计算一下这种方法的规模。在标准的 RL 设计(如 GRPO)中,你可以同时运行 16 个并行搜索代理——而在大型实验室的训练中,这个数量可能会更高。假设每个代理在每轮训练中访问 100 个页面,这意味着单轮就会产生 2,000 次查询。而这还只是一步。对于一个复杂的搜索能力训练,可能需要数十万步(这也是为什么我认为该技术目前处于中期训练阶段)。在此过程中,单个训练序列可能涉及数亿次查询——甚至可能导致某些学术数据库服务器承受过载攻击。这显然不是理想方案。 在这种情况下,真正的瓶颈可能不是算力,而是带宽。

游戏 RL 也面临类似的挑战。这正是 Pufferlib 等最新方法试图解决的问题:它们将训练环境封装,使其对学习系统而言看起来像 Atari 游戏,而不损失泛化能力……

强化学习(RL)在游戏领域面临的挑战,与在搜索领域的挑战类似。这正是 Pufferlib 这类最新方法的作用所在——它能将训练环境封装,使其在学习库的视角下看起来就像 Atari 游戏,而不会损失通用性。换句话说,RL 模型只需要看到它们真正需要用到的部分。如果将这一方法应用于搜索,可能意味着利用 Common Crawl 这样的大型数据集,并让数据像真实的 Web 交互一样流动,包括 URL、API 调用和其他典型的 HTTP 结构。而实际上,这些数据早已存储在本地数据框架中,并具备高速查询能力。

基于此,我认为训练一个 LLM RL 搜索智能体可能会采用以下策略:

- 构建一个大规模的 Web 搜索模拟系统, 使用固定的数据集,并不断转换数据格式,使其适配模型的输入需求。

- 通过轻量级 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 训练范式)对模型进行初步微调 ,利用现有的搜索模式,让它的推理能力和输出格式更符合预期,从而加速后续的 RL 训练。

- 设计多种复杂查询,并配备标准答案作为验证数据。 这可能涉及某种高级的合成数据流水线,比如利用回译技术对现有资源进行转换,或者聘请博士级专家进行高质量人工标注。

- 采用多步 RL 训练,让模型能够自主搜索。 例如,它会接收一个查询,启动搜索,获取结果,选择深入浏览某个页面或调整搜索关键词——整个过程都由 RL 机制驱动。从模型的角度来看,它是在真实地浏览互联网,而实际上所有数据流转都是由一个模拟器在后台完成的。

- 在搜索能力达到一定水准后,再进行新一轮的 RL 和 SFT 训练 ,这次重点优化最终的答案整合过程。这可能涉及复杂的合成数据流水线,比如将长篇报告拆解成小块,让模型分析并重新组织内容,以生成高质量的总结。

整体来看,这种方法不仅能提高搜索智能体的有效性,还能让它在复杂任务中更具自主性和适应性。

▍ 真正的智能体时代终于来临

我们最终拥有了真正的智能体模型。这种模型在实际工作流程和模型编排中将带来哪些改变?仅仅是整体质量提升?还是一种完全不同的范式?

让我们回顾Anthropic的定义:LLM智能体能够"动态自主规划其处理流程和工具使用,保持对任务执行方式的控制权"。我将以最熟悉的搜索场景为例展开分析。

关于"RAG技术将消亡,被长上下文LLM直接使用取代"的预测从未成真,原因包括:长上下文计算成本高昂、复杂查询准确率有限、输入溯源困难等。 真正的智能搜索LLM不会取代RAG技术,更现实的演进方向是将其自动化,封装向量数据库、路由选择、结果重排等复杂度。 典型搜索流程可能呈现以下形态:

1. 查询解析与意图识别 :系统对查询进行语义分析和任务分解,推测用户真实意图

2. 即时交互澄清 (OpenAI DeepResearch已实现):当查询模糊时主动发起澄清对话

3. 智能路由决策 :根据上下文选择通用搜索或调用专业数据库(模型已内化标准API架构)

4. 资源优化机制 :优先访问结构化数据接口、站点地图等"数字镜像",降低实时网络调用

5. 自适应搜索策略 :系统可自主放弃无效路径,像专业研究员般切换备选方案(OpenAI DeepResearch已展现通过逻辑推理定位冷门资源的能力)

6. 过程可解释性 :完整记录决策链条作为推理轨迹

简言之,搜索流程被直接工程化。LLM智能体基于现有基础设施,以最高效的方式达成目标。这种范式无需额外数据准备,也无需培训用户适应新交互方式。正如Tim Berners-Lee十多年前的预言:" 理想智能体的每个决策都应精准反映用户当下的真实需求 "。

将这种范式扩展到其他领域更能体现其价值:真正的网络工程智能体可以直接配置网络设备(路由器/交换机/防火墙)、分析拓扑结构提出优化方案、解析故障日志定位根因;真正的金融智能体可以实现ISO 20022与MT103等异构标准的无缝转换。这些能力远非现有提示工程所能企及。

当前仅有少数顶尖实验室具备开发真正LLM智能体的能力,他们掌握着技术制高点:专业诀窍、数据配方(或合成方法)、产品化视野等。虽然这种技术集中现象值得警惕,但资本界对模型训练长期价值的认知局限客观上加剧了垄断趋势。

笔者素来反对技术炒作,但考虑到智能体可能引发的范式革命和价值重构,必须强调开放生态的紧迫性:开放验证工具、GRPO训练样本,乃至复杂合成管道和仿真环境。

2025年能否成为智能体元年?让我们拭目以待。

原文链接:https://vintagedata.org/blog/posts/designing-llm-agents

THE END
分享
二维码
< <上一篇
下一篇>>