当大模型学会干活:聊聊 Agent、Skill、RAG 和下一代 AI 架构
从工程视角梳理 Agent、RAG、Tool、Skill 的关系,以及下一代 AI 系统为何更像操作系统。

最近一年,如果稍微关注 AI 圈,就会发现几个词被反复提及:
Agent、RAG、Tool、Skill、Workflow
一开始我也有点困惑:这些东西到底是新技术,还是只是换个名字的 Prompt Engineering?
后来自己做了一些项目、看了一些架构设计,慢慢意识到一件事:
LLM 的时代,本质上是在把“语言模型”变成“软件系统”。
而 Agent、RAG、Skill,其实就是构建这种系统的不同组件。
这篇文章不是论文,也不是技术综述,只是一些我最近的思考和观察。
一、LLM 本身,其实什么都不会
很多人第一次用 GPT 会有一种错觉:
它什么都懂。
但从工程角度看,大模型本身能力非常有限。它只有三个核心能力:
- 理解文本
- 生成文本
- 根据概率继续写下去
除此之外,它不能访问数据库、不能运行代码、不能读取你的 PDF、也不能知道今天发生了什么。
所以如果你直接问模型“帮我分析公司销售数据”,模型其实根本没有数据。
于是,AI 工程的核心问题变成了:
如何把真实世界的信息接入模型。
于是就出现了第一个关键技术:RAG。
二、RAG:让模型拥有记忆
RAG 的全名是 Retrieval Augmented Generation。简单来说就是:
先查资料,再让模型回答。
典型流程:
用户问题
↓
向量搜索
↓
找到相关文档
↓
把文档塞进 Prompt
↓
LLM 生成回答
比如用户问“Transformer 是谁提出的?”,系统会先检索论文 Attention Is All You Need,再把摘要喂给模型,最后由模型组织回答。
于是模型看起来像“真的知道这些知识”,但本质上是“把资料给它抄”。
这也是为什么很多 AI 产品本质上是:
- ChatGPT + 文档库
- ChatGPT + 公司数据库
- ChatGPT + 内部知识库
常见场景:
企业知识库
员工问“公司的报销政策是什么?”,系统从 PDF 中检索后回答。
客服机器人
用户问“如何退货?”,系统从 FAQ 文档中找到答案。
学术助手
学生问“解释 diffusion model”,系统检索论文后再解释。
一句话总结:
RAG 让 LLM 不再依赖训练时的静态知识,而是依赖实时知识库。
三、Tool:让模型学会使用工具
RAG 解决的是“知识问题”,但模型依然无法执行动作。
比如用户说“帮我算一下 1234 × 5678”,如果没有工具,模型只能猜。
于是出现了第二个关键能力:Tool Use(也常叫 Function Calling / Tool Calling)。
流程通常是:
用户问题
↓
LLM 判断需要什么工具
↓
调用工具
↓
获得结果
↓
LLM 生成回答
例如“今天北京天气怎么样?”:LLM 决定调天气 API,拿到结果后再用自然语言组织答案。
常见工具包括:
- 搜索 API
- 计算器
- 数据库
- Python 解释器
- 浏览器
这也是为什么很多 AI 系统越来越像一个操作系统。
四、Agent:让模型自己规划任务
RAG 和 Tool 分别解决了知识与能力,但复杂任务还需要“步骤规划”。
比如“帮我写一篇关于 AI Agent 的博客,并附上参考资料”,这本质是多步骤任务:
- 搜索资料
- 阅读资料
- 总结
- 写作
- 整理引用
如果每一步都要用户手动指挥,体验会很差。
Agent 的核心思想是:
让模型自己规划并推进步骤。
典型循环:
目标
↓
LLM 规划任务
↓
调用工具
↓
观察结果
↓
继续下一步
↓
直到完成
这个范式常被称为 ReAct (Reason + Act)。
五、Skill:给 Agent 装技能包
如果 Agent 每次都从零推理,效率和稳定性都不高。
于是系统开始引入 Skill,也就是预先封装好的能力模块。
例如 AI 办公助手可以有:
- 写邮件
- 总结文档
- 制作 PPT
- 生成代码
整体流程像这样:
用户请求
↓
Agent 判断
↓
选择 Skill
↓
执行
这和人类很像:遇到任务时,我们通常是调用已有技能,而不是每次从头思考。
六、现在的 AI 架构,其实很像操作系统
把这些组件拼在一起后,会得到一个很有意思的图景:现代 AI 系统越来越像操作系统。
用户
│
▼
LLM Agent
│
┌───────┼────────┐
▼ ▼ ▼
RAG Tools Skills
│ │ │
向量库 API 任务模块
可以把它理解为:
- LLM = 大脑
- RAG = 记忆
- Tools = 手
- Skills = 技能
- Agent = 决策系统
很多框架都在做类似事情,例如 LangChain、LangGraph、AutoGPT、CrewAI。
七、我对 Agent 的一个看法
很多人说“Agent 是未来”,我觉得“是,但也不是”。
当前 Agent 系统仍有明显问题:
1. 幻觉问题
LLM 有时会编造工具结果。
2. 规划能力不稳定
可能出现死循环或无意义步骤。
3. 成本问题
复杂任务里模型调用次数过高,费用迅速上升。
所以很多公司现实中在做的是:
减少 Agent 自由度。
比如固定 Workflow、限制工具集合、预定义 Skill。换句话说:
工程约束往往比“纯智能”更重要。
八、真正有价值的应用场景
我认为 LLM 的价值不在聊天本身,而在自动化复杂信息工作。
1. 研究助手
自动搜索论文、总结、撰写综述。
2. 编程助手
自动写代码、调试、查文档。
3. 企业知识系统
员工提问时,AI 自动检索 wiki、文档、邮件。
4. 数据分析
用户一句话需求,系统自动调 Python、出图、写报告。
未来很可能会出现一种新形态:
自然语言操作系统。
用户只需要说“帮我做这个”,系统就能把任务执行到底。
九、也许未来的软件会长这样
传统软件:
用户 → UI → 功能
AI 软件:
用户 → Agent → 工具 → 结果
界面可能越来越简洁,甚至只剩一个输入框。
最后
AI 技术今天很像 1995 年的互联网:所有人都在试验 Agent、RAG、Workflow、Tool 等不同架构。
很多东西会消失,很多东西会沉淀。
但有一件事几乎可以确定:
未来的软件,会越来越像一个会思考的系统,而不是冷冰冰的工具。