孟任巍
返回

当大模型学会干活:聊聊 Agent、Skill、RAG 和下一代 AI 架构

从工程视角梳理 Agent、RAG、Tool、Skill 的关系,以及下一代 AI 系统为何更像操作系统。

当大模型学会干活:聊聊 Agent、Skill、RAG 和下一代 AI 架构
2026年3月5日
AgentRAGSkillAI ArchitectureLLM

最近一年,如果稍微关注 AI 圈,就会发现几个词被反复提及:

Agent、RAG、Tool、Skill、Workflow

一开始我也有点困惑:这些东西到底是新技术,还是只是换个名字的 Prompt Engineering?

后来自己做了一些项目、看了一些架构设计,慢慢意识到一件事:

LLM 的时代,本质上是在把“语言模型”变成“软件系统”。

而 Agent、RAG、Skill,其实就是构建这种系统的不同组件。

这篇文章不是论文,也不是技术综述,只是一些我最近的思考和观察。

一、LLM 本身,其实什么都不会

很多人第一次用 GPT 会有一种错觉:

它什么都懂。

但从工程角度看,大模型本身能力非常有限。它只有三个核心能力:

  1. 理解文本
  2. 生成文本
  3. 根据概率继续写下去

除此之外,它不能访问数据库、不能运行代码、不能读取你的 PDF、也不能知道今天发生了什么。

所以如果你直接问模型“帮我分析公司销售数据”,模型其实根本没有数据。

于是,AI 工程的核心问题变成了:

如何把真实世界的信息接入模型。

于是就出现了第一个关键技术:RAG

二、RAG:让模型拥有记忆

RAG 的全名是 Retrieval Augmented Generation。简单来说就是:

先查资料,再让模型回答。

典型流程:

用户问题
  ↓
向量搜索
  ↓
找到相关文档
  ↓
把文档塞进 Prompt
  ↓
LLM 生成回答

比如用户问“Transformer 是谁提出的?”,系统会先检索论文 Attention Is All You Need,再把摘要喂给模型,最后由模型组织回答。

于是模型看起来像“真的知道这些知识”,但本质上是“把资料给它抄”。

这也是为什么很多 AI 产品本质上是:

  • ChatGPT + 文档库
  • ChatGPT + 公司数据库
  • ChatGPT + 内部知识库

常见场景:

企业知识库

员工问“公司的报销政策是什么?”,系统从 PDF 中检索后回答。

客服机器人

用户问“如何退货?”,系统从 FAQ 文档中找到答案。

学术助手

学生问“解释 diffusion model”,系统检索论文后再解释。

一句话总结:

RAG 让 LLM 不再依赖训练时的静态知识,而是依赖实时知识库。

三、Tool:让模型学会使用工具

RAG 解决的是“知识问题”,但模型依然无法执行动作。

比如用户说“帮我算一下 1234 × 5678”,如果没有工具,模型只能猜。

于是出现了第二个关键能力:Tool Use(也常叫 Function Calling / Tool Calling)。

流程通常是:

用户问题
  ↓
LLM 判断需要什么工具
  ↓
调用工具
  ↓
获得结果
  ↓
LLM 生成回答

例如“今天北京天气怎么样?”:LLM 决定调天气 API,拿到结果后再用自然语言组织答案。

常见工具包括:

  • 搜索 API
  • 计算器
  • 数据库
  • Python 解释器
  • 浏览器

这也是为什么很多 AI 系统越来越像一个操作系统。

四、Agent:让模型自己规划任务

RAG 和 Tool 分别解决了知识与能力,但复杂任务还需要“步骤规划”。

比如“帮我写一篇关于 AI Agent 的博客,并附上参考资料”,这本质是多步骤任务:

  1. 搜索资料
  2. 阅读资料
  3. 总结
  4. 写作
  5. 整理引用

如果每一步都要用户手动指挥,体验会很差。

Agent 的核心思想是:

让模型自己规划并推进步骤。

典型循环:

目标
  ↓
LLM 规划任务
  ↓
调用工具
  ↓
观察结果
  ↓
继续下一步
  ↓
直到完成

这个范式常被称为 ReAct (Reason + Act)

五、Skill:给 Agent 装技能包

如果 Agent 每次都从零推理,效率和稳定性都不高。

于是系统开始引入 Skill,也就是预先封装好的能力模块。

例如 AI 办公助手可以有:

  • 写邮件
  • 总结文档
  • 制作 PPT
  • 生成代码

整体流程像这样:

用户请求
  ↓
Agent 判断
  ↓
选择 Skill
  ↓
执行

这和人类很像:遇到任务时,我们通常是调用已有技能,而不是每次从头思考。

六、现在的 AI 架构,其实很像操作系统

把这些组件拼在一起后,会得到一个很有意思的图景:现代 AI 系统越来越像操作系统。

        用户
         │
         ▼
     LLM Agent
         │
 ┌───────┼────────┐
 ▼       ▼        ▼
RAG    Tools    Skills
 │       │        │
向量库    API     任务模块

可以把它理解为:

  • LLM = 大脑
  • RAG = 记忆
  • Tools = 手
  • Skills = 技能
  • Agent = 决策系统

很多框架都在做类似事情,例如 LangChain、LangGraph、AutoGPT、CrewAI。

七、我对 Agent 的一个看法

很多人说“Agent 是未来”,我觉得“是,但也不是”。

当前 Agent 系统仍有明显问题:

1. 幻觉问题

LLM 有时会编造工具结果。

2. 规划能力不稳定

可能出现死循环或无意义步骤。

3. 成本问题

复杂任务里模型调用次数过高,费用迅速上升。

所以很多公司现实中在做的是:

减少 Agent 自由度。

比如固定 Workflow、限制工具集合、预定义 Skill。换句话说:

工程约束往往比“纯智能”更重要。

八、真正有价值的应用场景

我认为 LLM 的价值不在聊天本身,而在自动化复杂信息工作。

1. 研究助手

自动搜索论文、总结、撰写综述。

2. 编程助手

自动写代码、调试、查文档。

3. 企业知识系统

员工提问时,AI 自动检索 wiki、文档、邮件。

4. 数据分析

用户一句话需求,系统自动调 Python、出图、写报告。

未来很可能会出现一种新形态:

自然语言操作系统。

用户只需要说“帮我做这个”,系统就能把任务执行到底。

九、也许未来的软件会长这样

传统软件:

用户 → UI → 功能

AI 软件:

用户 → Agent → 工具 → 结果

界面可能越来越简洁,甚至只剩一个输入框。

最后

AI 技术今天很像 1995 年的互联网:所有人都在试验 Agent、RAG、Workflow、Tool 等不同架构。

很多东西会消失,很多东西会沉淀。

但有一件事几乎可以确定:

未来的软件,会越来越像一个会思考的系统,而不是冷冰冰的工具。