当大模型学会干活：聊聊 Agent、Skill、RAG 和下一代 AI 架构

从工程视角梳理 Agent、RAG、Tool、Skill 的关系，以及下一代 AI 系统为何更像操作系统。

2026年3月5日

AgentRAGSkillAI ArchitectureLLM

最近一年，如果稍微关注 AI 圈，就会发现几个词被反复提及：

Agent、RAG、Tool、Skill、Workflow

一开始我也有点困惑：这些东西到底是新技术，还是只是换个名字的 Prompt Engineering？

后来自己做了一些项目、看了一些架构设计，慢慢意识到一件事：

LLM 的时代，本质上是在把“语言模型”变成“软件系统”。

而 Agent、RAG、Skill，其实就是构建这种系统的不同组件。

这篇文章不是论文，也不是技术综述，只是一些我最近的思考和观察。

一、LLM 本身，其实什么都不会

很多人第一次用 GPT 会有一种错觉：

它什么都懂。

但从工程角度看，大模型本身能力非常有限。它只有三个核心能力：

理解文本
生成文本
根据概率继续写下去

除此之外，它不能访问数据库、不能运行代码、不能读取你的 PDF、也不能知道今天发生了什么。

所以如果你直接问模型“帮我分析公司销售数据”，模型其实根本没有数据。

于是，AI 工程的核心问题变成了：

如何把真实世界的信息接入模型。

于是就出现了第一个关键技术：RAG。

二、RAG：让模型拥有记忆

RAG 的全名是 Retrieval Augmented Generation。简单来说就是：

先查资料，再让模型回答。

典型流程：

用户问题
  ↓
向量搜索
  ↓
找到相关文档
  ↓
把文档塞进 Prompt
  ↓
LLM 生成回答

比如用户问“Transformer 是谁提出的？”，系统会先检索论文 Attention Is All You Need，再把摘要喂给模型，最后由模型组织回答。

于是模型看起来像“真的知道这些知识”，但本质上是“把资料给它抄”。

这也是为什么很多 AI 产品本质上是：

ChatGPT + 文档库
ChatGPT + 公司数据库
ChatGPT + 内部知识库

常见场景：

企业知识库

员工问“公司的报销政策是什么？”，系统从 PDF 中检索后回答。

客服机器人

用户问“如何退货？”，系统从 FAQ 文档中找到答案。

学术助手

学生问“解释 diffusion model”，系统检索论文后再解释。

一句话总结：

RAG 让 LLM 不再依赖训练时的静态知识，而是依赖实时知识库。

三、Tool：让模型学会使用工具

RAG 解决的是“知识问题”，但模型依然无法执行动作。

比如用户说“帮我算一下 1234 × 5678”，如果没有工具，模型只能猜。

于是出现了第二个关键能力：Tool Use（也常叫 Function Calling / Tool Calling）。

流程通常是：

用户问题
  ↓
LLM 判断需要什么工具
  ↓
调用工具
  ↓
获得结果
  ↓
LLM 生成回答

例如“今天北京天气怎么样？”：LLM 决定调天气 API，拿到结果后再用自然语言组织答案。

常见工具包括：

搜索 API
计算器
数据库
Python 解释器
浏览器

这也是为什么很多 AI 系统越来越像一个操作系统。

四、Agent：让模型自己规划任务

RAG 和 Tool 分别解决了知识与能力，但复杂任务还需要“步骤规划”。

比如“帮我写一篇关于 AI Agent 的博客，并附上参考资料”，这本质是多步骤任务：

搜索资料
阅读资料
总结
写作
整理引用

如果每一步都要用户手动指挥，体验会很差。

Agent 的核心思想是：

让模型自己规划并推进步骤。

典型循环：

目标
  ↓
LLM 规划任务
  ↓
调用工具
  ↓
观察结果
  ↓
继续下一步
  ↓
直到完成

这个范式常被称为 ReAct (Reason + Act)。

五、Skill：给 Agent 装技能包

如果 Agent 每次都从零推理，效率和稳定性都不高。

于是系统开始引入 Skill，也就是预先封装好的能力模块。

例如 AI 办公助手可以有：

写邮件
总结文档
制作 PPT
生成代码

整体流程像这样：

用户请求
  ↓
Agent 判断
  ↓
选择 Skill
  ↓
执行

这和人类很像：遇到任务时，我们通常是调用已有技能，而不是每次从头思考。

六、现在的 AI 架构，其实很像操作系统

把这些组件拼在一起后，会得到一个很有意思的图景：现代 AI 系统越来越像操作系统。

        用户
         │
         ▼
     LLM Agent
         │
 ┌───────┼────────┐
 ▼       ▼        ▼
RAG    Tools    Skills
 │       │        │
向量库    API     任务模块

可以把它理解为：

LLM = 大脑
RAG = 记忆
Tools = 手
Skills = 技能
Agent = 决策系统

很多框架都在做类似事情，例如 LangChain、LangGraph、AutoGPT、CrewAI。

七、我对 Agent 的一个看法

很多人说“Agent 是未来”，我觉得“是，但也不是”。

当前 Agent 系统仍有明显问题：

1. 幻觉问题

LLM 有时会编造工具结果。

2. 规划能力不稳定

可能出现死循环或无意义步骤。

3. 成本问题

复杂任务里模型调用次数过高，费用迅速上升。

所以很多公司现实中在做的是：

减少 Agent 自由度。

比如固定 Workflow、限制工具集合、预定义 Skill。换句话说：

工程约束往往比“纯智能”更重要。

八、真正有价值的应用场景

我认为 LLM 的价值不在聊天本身，而在自动化复杂信息工作。

1. 研究助手

自动搜索论文、总结、撰写综述。

2. 编程助手

自动写代码、调试、查文档。

3. 企业知识系统

员工提问时，AI 自动检索 wiki、文档、邮件。

4. 数据分析

用户一句话需求，系统自动调 Python、出图、写报告。

未来很可能会出现一种新形态：

自然语言操作系统。

用户只需要说“帮我做这个”，系统就能把任务执行到底。

九、也许未来的软件会长这样

传统软件：

用户 → UI → 功能

AI 软件：

用户 → Agent → 工具 → 结果

界面可能越来越简洁，甚至只剩一个输入框。

最后

AI 技术今天很像 1995 年的互联网：所有人都在试验 Agent、RAG、Workflow、Tool 等不同架构。

很多东西会消失，很多东西会沉淀。

但有一件事几乎可以确定：

未来的软件，会越来越像一个会思考的系统，而不是冷冰冰的工具。