真正的智能体即将登场它们将被训练而不是定义好的工作流

shadowrocket • 2026年1月25日 am10:25 • shadowrocket, shadowrocket下载, shadowrocket网站

【本文翻译自 Vintage Data】

如今，AI 智能体（Agents）随处可见。但在智能体大语言模型（Agentic LLM）研究领域，最重要的突破却鲜有人关注。

2025 年 1 月，OpenAI 发布了 DeepResearch，这是 O3 语言模型的一个专门版本，主要用于网页和文档搜索。由于其“在浏览任务上的强化学习训练”，DeepResearch 具备了规划搜索策略、交叉比对信息源，并根据中间反馈检索小众知识的能力。Claude Sonnet 3.7 似乎在编程领域复刻了这一模式，在复杂的代码任务序列上，其表现超越了以往基于多个模型协同工作的方式。

简而言之，正如 William Brown 所言：“ LLM 智能体已经具备执行长时间、多步任务的能力。 ”

这一进展促使人们重新思考 LLM 智能体的定义。2024 年 12 月，Anthropic 提出了新的定义：“LLM 智能体是一种可以动态掌控自身任务流程和工具使用方式的系统，能够自主决定如何完成目标。”

相比之下，更常见的智能体系统属于“工作流”（workflows），即 LLM 和工具按照预定义的代码路径协同运行。最近受到广泛关注的 Manus AI 就是典型案例。我在周末的测试结果表明，这类工作流系统仍然存在 AutoGPT 时代的根本性问题，尤其在搜索任务上暴露明显短板：

- 无法规划搜索路径，经常陷入死循环；

- 记忆力不足，难以维持任务超过 5-10 分钟；

- 长期行动效果欠佳，任务序列往往因误差累积而失败。

本文基于新的 LLM 智能体定义，尝试整理现有研究进展。这些信息来自大型 AI 研究机构的有限公开资料、开源研究社区的复现实验，以及个人的一些推测。

▍ 简单 LLM 智能体的“残酷现实”

基础语言模型的工作方式与智能体概念几乎背道而驰。

在经典的智能体研究中，智能体通常被置于受限环境中。例如，在迷宫中，你只能朝某些方向移动，不能随意穿墙、飞行或消失。你的行动受物理规则（以及可能的游戏规则）约束。然而，即便在这样的限制下，智能体仍然可以拥有一定的自由度，因为通往终点的路径不止一条。但不管选择哪种方式，每一步行动都必须围绕最终目标——赢得游戏、获得奖励——展开。优秀的智能体会逐步记住自己的行动轨迹，并归纳出高效的策略和模式。

这种方式被称为“ 搜索 ”（search）。这个比喻非常形象：智能体在迷宫中探索最优路线，就像用户在搜索引擎上点击不同的链接一样。搜索算法的研究已有数十年的历史，比如 Q-star——一度被传为 OpenAI 新一代 O 系列模型背后的核心算法（尽管目前尚不明确）——实际上是 1968 年 A-Star 搜索算法的变体。近期最具代表性的例子是 Pufferlib 进行的宝可梦强化学习实验：在训练过程中，我们可以看到智能体不断尝试不同的路径，失败、回溯，并最终找到最优解。

基础语言模型的运行方式，与真正的智能体几乎完全相反：

- 智能体会记住环境，而基础模型不会。LLM 只能依赖当前上下文窗口的内容，无法长期存储信息。

- 智能体受限于“有限理性” ，而 LLM 仅仅是在预测可能的文本。虽然这种方式有时会得出看似合理的推理，但它并不受严格的逻辑约束，可能随时偏离原有思路，仅仅是为了生成更符合语言风格的文本。

- 智能体可以制定长期策略，而 LLM 无法真正规划未来。智能体可以提前预判并做出决策，甚至在出现问题时回溯调整；而 LLM 只能处理单步推理任务，一旦需要跨多个步骤的复杂推理，它很快就会力不从心。 LLM 遵循的是文本生成规则，而非物理定律或游戏规则。

目前，大多数 LLM 智能体的实现方式，是通过预设提示词（prompts）和规则来约束输出。这在短期内能带来一定效果，但从长期来看，它无法突破 Richard Sutton 提出的“痛苦教训”（The Bitter Lesson）。

许多人误解了“痛苦教训”，以为它只是一种 LLM 预训练指南。实际上，它最初是针对智能体研究的，并警示研究人员：直接把知识硬编码到模型里，并不是长久之计。举个例子，如果智能体遇到障碍物，它可以被硬编码为自动避开或回溯。这种方法在短期内确实能提升表现，并且不需要额外训练模型。然而，从长期来看，它往往会导致模型陷入次优解，甚至在意外场景下完全崩溃。

核心观点是：按照人类的思维模式设计 AI，在长期来看是无效的。

这一理论基于以下观察：

1. AI 研究人员往往倾向于直接构建知识，让智能体依赖硬编码规则；

2. 这种方式短期内确实有效，并能给研究者带来正反馈；

3. 但从长期来看，它会限制智能体的发展，导致性能停滞甚至退步；

4. 重大 AI 突破往往源于相反的方法，即通过大规模计算、搜索和学习来提升能力。

这种成功往往带着“苦涩”，因为它推翻了人们原本钟爱的“知识嵌入”思路。

如果我们把这一理论应用到当今的 LLM 生产环境，会发现许多主流方法仍然是在“构建知识”。Manus 这样的 LLM 工作流系统，本质上是用一系列预设的提示词来引导模型。这可能是当前最现实的方案，因为它不需要重新训练模型，但它并不是最优的解决方案。最终，这种方法只能得到一种“生成式 AI + 规则系统”的混合体——它让 AI 以一种固定模式来理解世界，比如空间、物体、多智能体之间的交互等。

换句话说，如果 Manus AI 不能正确订票，或无法提供合理的生存建议，这不是因为它的设计出了问题，而是因为它遭遇了“痛苦教训”：

- 单纯依赖提示词（prompts）无法扩展。

- 硬编码规则（rules）无法扩展。

如果要打造真正的 LLM 智能体，就必须设计能够搜索、规划并执行任务的系统。

▍ RL+推理：大模型智能体的制胜之道

关于 LLM 智能体的真正突破，外界所知甚少。Anthropic、OpenAI、DeepMind 等少数实验室掌握核心技术，而我们只能从零星的官方披露、传闻和有限的开源研究中拼凑线索。

1)类似于传统智能体，LLM 智能体的训练依赖强化学习（RL）。可以将这个过程比作走迷宫——所有可能的文本输出路径都是潜在的选择，而最终的“奖励”是找到最佳答案。判断是否达到奖励目标的过程被称为“验证器”（verifier），这正是 William Brown 最新 verifier 库的核心。

当前，验证器主要用于数学推导或代码生成等可严格评估的任务。然而，正如 Kalomaze 所展示的，针对非明确可验证的结果，仍然可以通过训练特定分类器来构建验证器。而且，相较于生成内容，语言模型在评估任务上的表现更为稳定。因此，即便是小规模的 LLM 作为评审者（LLM-as-judge），也能显著提升整体模型表现，并优化奖励机制。

2)LLM 智能体的训练方式类似于写作：模型先生成完整的文本草案，然后再进行评估。这种方式并非最初的研究重点，早期的探索主要围绕如何扩展 token 序列的搜索能力展开。计算资源的限制是影响训练方式的关键，同时，近年来在“推理”模型（更准确地说是“起草”模型）上的突破也起到了决定性作用。当前，主流训练方式是让模型自主推演逻辑步骤，并假设能得出正确答案的推理路径更可能是合理的。

这种方法有时会带来令人意外的现象，例如 DeepSeek R0 模型偶尔会在推理过程中在中英文之间切换。但强化学习（RL）只关心最终是否有效，无论路径是否正统、方法是否意料之中。就像一个在迷宫中摸索的智能体，语言模型需要依靠自身的推理能力寻找最优路径，而非依赖人工设计的提示词或既定指令——这正是“痛苦教训”之下的最优解。

3)为了简化奖励机制，并提高推理过程的可控性，LLM 生成的文本通常被划分为结构化的数据段落。这一过程被称为“评分标准工程”（rubric engineering），可直接作为奖励函数的一部分，或者（在大实验室的训练环境中更常见）作为后训练阶段的一项优化策略。

4)LLM 智能体的训练往往是多步的，尤其在搜索任务中表现得尤为明显。与一次性判断搜索结果的优劣不同，训练过程会评估模型获取资源、分析信息、调整推理、修正搜索路径等能力。因此，当前业界主流的 LLM 智能体训练方法是 DeepSeek 提出的 GRPO ，特别是在结合 vllm 进行文本生成时表现出色。

几周前，我基于 William Brown 的研究，发布了一款适用于 Google Colab 的 code notebook，成功在一张 A100 GPU 上运行 GRPO。计算成本的下降是推动强化学习与智能体设计普及的关键，未来几年，这一趋势或将加速发展。

▍ 如何扩展这一能力？

基础部分已经奠定，但从这里到 OpenAI DeepResearch 以及其他能处理长序列任务的新型 AI 代理，还有很长的路要走。让我来推测一下可能的发展方向。

目前，开放强化学习（RL）和推理研究主要聚焦于数学领域，因为我们拥有大量数学练习题数据。其中一些数据被收录进 Common Crawl，并由 HuggingFace 通过分类器提取（即 FineMath）。但在搜索等许多领域，我们缺乏类似的数据。因为这些任务需要真正的操作序列数据，比如用户日志、点击记录和交互模式。

我过去曾从事日志分析（时间不算太久远），当时的模型仍然依赖马尔可夫链（尽管这一领域发展极快），并且仍然在用 1990 年代 AOL 泄露的数据进行训练。目前，这一领域新增的关键开放数据集之一是 Wikipedia clickstream，这是一个匿名化的 Wikipedia 文章跳转路径数据集。

但问题来了，这个数据集是否已经上传到 HuggingFace？答案是否定的。事实上，HuggingFace 上几乎没有真正能赋能 AI 代理进行自主规划的数据。整个行业仍然假设 LLM 需要依赖人工编排的规则系统。我不确定 OpenAI 或 Anthropic 是否拥有足够的数据，但至少在这一点上，传统科技公司仍然占据优势，并且没有可行的替代方案——毕竟，Google 的用户查询数据不会被公开出售（除非它已经悄悄流入暗网）。

有没有办法绕过这一限制？有，那就是通过模拟直接生成数据。传统 RL 模型并不依赖已有数据，而是通过大量搜索来归纳约束和策略。如果应用到搜索任务，一个典型的 RL 方法可能类似于游戏 AI：让模型自由探索，并在找到正确答案时给予奖励。这可能是一个漫长的过程，比如查找某项深藏于 1960 年代苏联论文中的冷门化学实验。通过不断尝试各种查询方式，模型最终可能会偶然发现正确的结果。更重要的是，它可以归纳出有助于未来搜索的模式，使得找到类似信息的几率更高。

我们来计算一下这种方法的规模。在标准的 RL 设计（如 GRPO）中，你可以同时运行 16 个并行搜索代理——而在大型实验室的训练中，这个数量可能会更高。假设每个代理在每轮训练中访问 100 个页面，这意味着单轮就会产生 2,000 次查询。而这还只是一步。对于一个复杂的搜索能力训练，可能需要数十万步（这也是为什么我认为该技术目前处于中期训练阶段）。在此过程中，单个训练序列可能涉及数亿次查询——甚至可能导致某些学术数据库服务器承受过载攻击。这显然不是理想方案。在这种情况下，真正的瓶颈可能不是算力，而是带宽。

游戏 RL 也面临类似的挑战。这正是 Pufferlib 等最新方法试图解决的问题：它们将训练环境封装，使其对学习系统而言看起来像 Atari 游戏，而不损失泛化能力……

强化学习（RL）在游戏领域面临的挑战，与在搜索领域的挑战类似。这正是 Pufferlib 这类最新方法的作用所在——它能将训练环境封装，使其在学习库的视角下看起来就像 Atari 游戏，而不会损失通用性。换句话说，RL 模型只需要看到它们真正需要用到的部分。如果将这一方法应用于搜索，可能意味着利用 Common Crawl 这样的大型数据集，并让数据像真实的 Web 交互一样流动，包括 URL、API 调用和其他典型的 HTTP 结构。而实际上，这些数据早已存储在本地数据框架中，并具备高速查询能力。

基于此，我认为训练一个 LLM RL 搜索智能体可能会采用以下策略：

- 构建一个大规模的 Web 搜索模拟系统，使用固定的数据集，并不断转换数据格式，使其适配模型的输入需求。

- 通过轻量级 SFT（如 DeepSeek 的 SFT-RL-SFT-RL 训练范式）对模型进行初步微调，利用现有的搜索模式，让它的推理能力和输出格式更符合预期，从而加速后续的 RL 训练。

- 设计多种复杂查询，并配备标准答案作为验证数据。这可能涉及某种高级的合成数据流水线，比如利用回译技术对现有资源进行转换，或者聘请博士级专家进行高质量人工标注。

- 采用多步 RL 训练，让模型能够自主搜索。例如，它会接收一个查询，启动搜索，获取结果，选择深入浏览某个页面或调整搜索关键词——整个过程都由 RL 机制驱动。从模型的角度来看，它是在真实地浏览互联网，而实际上所有数据流转都是由一个模拟器在后台完成的。

- 在搜索能力达到一定水准后，再进行新一轮的 RL 和 SFT 训练，这次重点优化最终的答案整合过程。这可能涉及复杂的合成数据流水线，比如将长篇报告拆解成小块，让模型分析并重新组织内容，以生成高质量的总结。

整体来看，这种方法不仅能提高搜索智能体的有效性，还能让它在复杂任务中更具自主性和适应性。

▍ 真正的智能体时代终于来临

我们最终拥有了真正的智能体模型。这种模型在实际工作流程和模型编排中将带来哪些改变？仅仅是整体质量提升？还是一种完全不同的范式？

让我们回顾Anthropic的定义：LLM智能体能够"动态自主规划其处理流程和工具使用，保持对任务执行方式的控制权"。我将以最熟悉的搜索场景为例展开分析。

关于"RAG技术将消亡，被长上下文LLM直接使用取代"的预测从未成真，原因包括：长上下文计算成本高昂、复杂查询准确率有限、输入溯源困难等。真正的智能搜索LLM不会取代RAG技术，更现实的演进方向是将其自动化，封装向量数据库、路由选择、结果重排等复杂度。典型搜索流程可能呈现以下形态：

1. 查询解析与意图识别：系统对查询进行语义分析和任务分解，推测用户真实意图

2. 即时交互澄清（OpenAI DeepResearch已实现）：当查询模糊时主动发起澄清对话

3. 智能路由决策：根据上下文选择通用搜索或调用专业数据库（模型已内化标准API架构）

4. 资源优化机制：优先访问结构化数据接口、站点地图等"数字镜像"，降低实时网络调用

5. 自适应搜索策略：系统可自主放弃无效路径，像专业研究员般切换备选方案（OpenAI DeepResearch已展现通过逻辑推理定位冷门资源的能力）

6. 过程可解释性：完整记录决策链条作为推理轨迹

简言之，搜索流程被直接工程化。LLM智能体基于现有基础设施，以最高效的方式达成目标。这种范式无需额外数据准备，也无需培训用户适应新交互方式。正如Tim Berners-Lee十多年前的预言：" 理想智能体的每个决策都应精准反映用户当下的真实需求 "。

将这种范式扩展到其他领域更能体现其价值：真正的网络工程智能体可以直接配置网络设备（路由器/交换机/防火墙）、分析拓扑结构提出优化方案、解析故障日志定位根因；真正的金融智能体可以实现ISO 20022与MT103等异构标准的无缝转换。这些能力远非现有提示工程所能企及。

当前仅有少数顶尖实验室具备开发真正LLM智能体的能力，他们掌握着技术制高点：专业诀窍、数据配方（或合成方法）、产品化视野等。虽然这种技术集中现象值得警惕，但资本界对模型训练长期价值的认知局限客观上加剧了垄断趋势。

笔者素来反对技术炒作，但考虑到智能体可能引发的范式革命和价值重构，必须强调开放生态的紧迫性：开放验证工具、GRPO训练样本，乃至复杂合成管道和仿真环境。

2025年能否成为智能体元年？让我们拭目以待。

原文链接：https://vintagedata.org/blog/posts/designing-llm-agents

THE END

shadowrocket shadowrocket下载 shadowrocket网站小火箭小火箭下载小火箭节点科学上网

二维码

无耻OpenAI呼吁美国政府禁止DeepSeek及其他中国模型

< <上一篇

OpenAI推出构建智能体的新工具这是你需要了解的一切

下一篇>>

搜索内容

真正的智能体即将登场它们将被训练而不是定义好的工作流

取消回复

共有 0 条评论

节点推荐

标签

热门文章

真正的智能体即将登场它们将被训练而不是定义好的工作流

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

取消回复

共有 0 条评论

节点推荐

标签

热门文章