万字解读 Avi Chawla《2026 LLM工程师路线图》，8 层能力框架看 AI 应用工程

大家都非常关注一个话题：在 AI 热潮越来越猛的今天，普通人到底该怎么进入 AI 行业？

如果你最近也在焦虑、在内耗，不知道该学什么、不知道该怎么开始，这篇文章应该会对你有帮助。

最近我看到 Avi Chawla 发了一篇文章，叫：《The 2026 LLM Engineering Roadmap》，翻译过来就是：

2026 LLM 工程师路线图

万字解读 Avi Chawla《2026 LLM工程师路线图》，8 层能力框架看 AI 应用工程

简单介绍：
Avi Chawla 可以理解为一个 海外 AI/Data Science 领域的内容型技术作者 + 教育产品创业者
不是 OpenAI、Anthropic 那种一线模型公司的核心研究员

这里的意思是：他跟我的角色类似，大家可以参考，但不要觉得就完全是这么回事

这篇文章的核心观点很明确：做 LLM 应用，早就不是会写 Prompt 就够了。

真正的生产级 LLM 系统，需要从 Prompt、RAG、上下文工程、微调、Agent、部署、优化、安全评测与可观测性，形成一整套工程能力

他说，严肃的 LLM 开发，大体可以分成 8 个支柱：

Prompt Engineering
RAG Systems
Context Engineering
Fine-tuning
Agents
LLM Deployment
LLM Optimization
Safety, Evals & Observability

这个框架我基本认可（但不完全认可）。

而就我这 3 年，20 多个 AI 项目实践来说，他说的没有大问题，只是有些地方可能有点过时：

国内外 AI 产品生态有点不一样，但大概的学习路线图都类似，比如过去很多人以为，进入 AI 行业就是学模型、学算法、学训练；

后来很多人又以为，进入 AI 行业就是会用 ChatGPT、会写 Prompt、会搭 Coze、会配 Dify。

但现在看下来，这些理解都不完整。

真正的 AI 应用工程，已经是一套完整系统能力，它不是单点技能，而是一条链路，也就是前面 Avi Chawla 所说的：

Prompt → RAG → Context Engineering → Fine-tuning → Agent → Deployment → Optimization → Evals / Observability / Safety

他这套系统解决了一个问题：之前很多同学都在碎片化学习，这会导致很多同学明明好像看了很多 AI 工具，却还是没有进入整个行业。

AI 知识框架

现在很多人都很焦虑，尤其是企业老板和程序员。

关于他们的焦虑，我太懂了：

AI 这东西发展得太快了，很多人已经不确定自己正在做的事情在一年后是否还有意义，而伴随焦虑而来的，就是失眠与节奏混乱。

从去年开始，整个 AI 世界可以用乱花渐欲迷人眼来形容：

今天发布了一个 Manus，明天就要来一个 Lovart；
Cursor 还没被捂热，Claude Code 就变成了 AI 编程事实上的王者了；
前脚还在聊提示词怎么写，后脚大佬就说 RAG 已经过时，并丢出了上下文工程；
正当我们感叹 Coze 居然开源了，Google Nano Banana 又刷爆了朋友圈；
飞书发布会才浓墨重彩地介绍了多维表格，钉钉马上就跟进，强势推出 AI 表格；
OpenEvidence、Harvey 这种垂类 AI 项目估值越来越高；
然后 OpenClaw 爆火，掀起百虾大战，结果没多久 Hermes 又来了
…

如果你只是天天看这些热点，那确实很容易慌，因为你会产生一种错觉：

AI 世界的底层逻辑，好像每天都在被重写。

但说实话，很多人的焦虑并不是因为 AI 真有那么可怕，而是因为没有建立自己的判断框架：

你如果没有框架，那就只能被热点推着走：

今天追 Manus，明天追 OpenClaw，后天再追 Hermes；
今天学 Coze，明天学 Dify，后天又觉得自己是不是该 all in AI Coding；

最后折腾了一大圈，时间花了不少，脑子里的东西却还是碎的。于是问题就来了：

普通人如果真的想进入 AI 行业，到底应该怎么学？

什么该学，什么不该学？

什么方向更现实，什么方向只是看起来很热闹？

先说结论：普通人进入 AI 行业，机会主要不在算法岗，而在业务落地

这也是为什么我觉得《2026 LLM 工程师路线图》这篇文章值得拿出来讲。因为它至少帮我们再次确认了一件事：

2026 年的 AI 能力，已经不是会用 AI 工具，而是能理解并参与生产级 LLM 应用工程

Prompt Engineering

Avi 在路线图里的第一层是 Prompt Engineering，他认为：

每个 LLM 旅程都从 Prompt 开始，因为 Prompt 是你能使用的最便宜杠杆

这句话很挺正确的，而且就国内经受过百模大战伤害的人来说，我们会发出反感：

很多人一上来就想做 RAG、做 Agent、做微调、做知识图谱…

其实大量问题最开始应该先问一句：这个问题，能不能先通过更好的 Prompt 解决？

而所谓的提示词工程，并不是随便写几句话让模型回答，而是要把 Prompt 当成一种工程资产来管理，也就是说，好的 Prompt 至少要做到几件事：

指令清晰，减少歧义；
给出必要的上下文；
用 few-shot examples 固定输出格式；
通过结构化要求稳定输出；
能版本化、能测试、能复现；
不是今天碰巧有效、明天就失效的玄学；

并且他也给出了有效的建议：

正儿八经说，这一点挺中肯的，因为我看到过太多人学 AI，第一步就学偏了。

有的人一上来就去研究一堆暂时根本用不到的底层名词：TF-IDF、BM25、BERT、FastText、LSTM、Viterbi、各种训练细节…

这些东西不是没用，甚至在某些场景里很重要，比如 BM25 到今天仍然是混合检索里的常见组件。

但对于绝大多数想进入 AI 应用行业的人来说，前期不应该把学习重点放在这些底层细节上。

熟悉 AI 第一步真正更应该先掌握的是：关于提示词的工程配置，他往往和很多东西绑定到一起的，比如：

业务规则；
角色设定；
输出格式；
工具调用；
知识库内容；
安全边界；
评测标准；

所以 Prompt Engineering 是进入 AI 应用的第一关，也是重要而简单的一关，是需要学，但企业绝不会愿意付费的部分。

RAG

路线图里的第二层是 RAG Systems。Avi 的说法很直接：当答案需要模型训练数据里没有的信息时，Prompt 就会撞墙。

PS：这里大家可能读起来有点绕，但他确实是这么翻译的…

比如公司文档、客户历史、模型 cutoff 之后的新信息，这时候就需要 RAG。

RAG 的基本逻辑是：

把文档切成 chunks；
用 embedding 模型向量化；
存进向量索引；
用户提问时召回相关片段；
把召回内容拼进 Prompt；
让大模型基于这些内容回答。

这就是很多 AI 知识库产品的底层逻辑。过去两年，很多企业落地 AI 的第一个场景，就是知识库问答。比如：

企业制度问答；
客服知识库；
销售话术库；
内部培训资料；
产品文档问答；
法律、医疗、金融等垂类资料问答。

这个场景很容易理解：企业有大量文档，人找起来很麻烦，那能不能让 AI 帮我查、帮我答？

RAG 最火的是 2024 年，那时候基模的能力还不行，Agent 生存环境恶劣，所以行业的基础或者基础技术范式在那时候就搞得差不多了。

如果你真的做过 RAG，就会知道：RAG 看起来简单，真正做好很难。

前面所谓上传文档 → 自动切分 → 向量化 → 问答，真实跑起来就全完蛋了。真实项目里，会有很多问题：

文档解析不干净怎么办？
PDF 里的表格、图片、标题结构怎么处理？
chunk 切大了主题混杂，切小了语义不完整怎么办？
用户提问太口语化，召回不到怎么办？
召回结果很多，但真正有用的片段排不到前面怎么办？
模型明明拿到了资料，为什么还是答错？
知识不足时，怎么让模型承认不知道，而不是一本正经胡说八道？

一套稍微像样的 RAG 系统，至少会涉及：文档解析 → 数据清洗 → 文档分块 → 向量化 → 建索引 → 查询改写 → 混合召回 → RRF 融合 → Rerank 重排 → TopK / 阈值过滤 → 上下文拼接 → 回答生成 → 低置信度处理 → 全链路记录

这已经不是工具操作了，而是一套工程系统，这也是为什么很多人会搭 Dify，但并不代表他真的懂 RAG：

比如以下是一段真实反馈：

我们一开始用 dify 搭的智能客服，现在已经爆炸了，然后迁到 hermes，结果问题一大堆，又从 hermes 迁到我们自建的系统，用 dify 兜底，这一切太难了…

Context Engineering

路线图里的第三层是 Context Engineering，这部分是我觉得最重要的，也是最近越来越多人开始重视的方向，他具有承上启下的作用，这东西往上就是提示词工程，往下就是 Harness 驾驭工程了：

Avi 的意思是：Retrieval 只是模型输入的一部分。

模型上下文窗口里还会有对话历史、工具结果、长期记忆、系统提示词、few-shot examples，它们都在争夺同一个 token 空间

所以 Context Engineering 要解决的问题是：

什么应该留下？
什么应该压缩？
什么应该丢掉？
什么应该动态加载？
怎么在成本、注意力和效果之间做平衡？

到这里就把 RAG 缩小到上下文工程的一个模块了，当然后续上下文工程又被 Harness 包了起来，可谓是一报还一报…

上下文工程重要的核心原因是，他是理解高阶 AI 知识库、数字分身、同事 skill、Agent 系统的关键。

很多同学开始使用 RAG 只关注一件事：用户问了什么，我从知识库里召回什么。

但渐渐的就会发现这不够用，高阶系统需要关注的更多：当前任务下，模型应该看到什么？这就不是简单 RAG，而是上下文工程了。

比如一个真实的 AI 客服系统，模型回答问题时，可能需要看到：

用户当前问题；
最近几轮对话历史；
用户所属版本；
用户账号状态；
产品知识库；
历史客服记录；
当前意图分类；
召回的知识片段；
安全边界；
不允许承诺的内容；
低置信度处理策略。

你会发现，知识库只是其中一部分，而真正难的是：

怎么把这些信息组织成当前这一轮模型最应该看的上下文

这也是为什么我一直说，很多所谓的同事.skill产品经理.skill销售冠军.skill，其实很容易被高估，都在瞎扯淡。

你把一个人的文档、话术、经验片段整理进去，不代表你真的蒸馏出了这个人。因为一个人的能力不是静态知识，而是：

知道什么时候该用什么知识；
知道当前上下文里哪些信息重要；
知道哪些内容不能说；
知道什么时候要追问；
知道什么时候要升级给人；
知道任务状态如何变化；
知道不同场景下判断标准不同。

这很难滴，现在多数公司还只是停留在低阶知识库关注的是召回，一旦进入高阶后，关注点就会放到上下文组织了。

再往下，就是具备记忆、工具、状态和行动能力的 Agent Runtime。，但这更难，后面会做介绍，总之大家要建立的一层认知：

学AI，不要只学工具配置，要理解信息如何进入模型、如何影响模型、如何被模型使用

微调

路线图里的第四层是 Fine-tuning，Avi 的观点很清楚：

当 Prompt 和 Context 都到达瓶颈时，下一步才是调整模型权重

但，我的观点是不是很有钱的公司，也不想在垂直或者通用领域做基模的公司，就不要考虑微调了，所以在我们的认知体系里面，微调的比例非常轻

Avi提到了 LoRA 和 QLoRA。

简单说，传统全量微调大模型成本很高，而 LoRA / QLoRA 这类方法，可以只训练一小部分低秩矩阵，让普通团队用更低成本完成领域适配。

但他特别强调一句：微调最难的不是训练代码，而是数据。这点跟我们历史的认知是完全一致的，但这东西很难…

很多人以为微调是技术活，但真正决定效果的，往往是数据工程，需要考虑的包括：

样本从哪里来；
数据质量怎么样；
有没有重复；
有没有脏数据；
指令格式是否统一；
输出是否稳定；
是否覆盖真实场景；
有没有高质量人工反馈；
有没有评测集；
有没有防止过拟合。

而且普通人进入 AI 行业，我并不建议一开始就把重点放在微调上。为什么？

因为绝大多数企业 AI 应用，前期根本不需要微调

它们更需要的是：

把业务场景定义清楚；
把 Prompt 写好；
把知识库搭好；
把 Workflow 跑通；
把工具接进去；
把评测和观测做起来；
把数据闭环建立起来。

微调不是没用，但现阶段来说使用的场景已经变得很小了，如果连RAG都没做好的企业，就千万别去搞什么微调了，因为现阶段重要的微调小模型就是做意图识别。

Agent

路线图里的第五层是 Agents。Avi 对 Agent 的定义还挺工程化的：Agent 扩展了 LLM 循环：模型选择工具、调用工具、读取结果，然后决定下一步，直到任务完成。

其实就是我们常见的理解就是了：你给它一个目标，它自己拆任务、调工具、看结果、修正路径、继续执行。这里的重点是：

从回答系统进入了行动系统

因为系统工作变多了，所以整体的架构就复杂起来了。这里大家要清晰的理解让模型调用工具不难，但让模型稳定的调工具很难；

其次就我们去年做 Agent 的经验，初期难的地方在编排，你要处理：

多轮状态管理；
工具调用失败；
模型选错工具；
中间结果不可信；
无限循环；
step limit；
成本失控；
上下文过长；
权限边界；
安全兜底；
人工介入；
执行轨迹；
失败恢复。

所以你看，Agent 听起来很科幻模型自己就把活干了，其实本后全部是各种工程叠加，整个 Harness 也就是在解决一件事：

如何让模型在真实环境里稳定执行任务

这也是为什么我最近一直在研究 OpenClaw、Hermes、Claude Code、Harness 这些东西。他们需要解决上述的问题，就要回答更多的问题：

系统能不能稳定干活？
出错后能不能恢复？
工具能不能安全调用？
上下文能不能持续管理？
任务能不能有预算、有边界、有记录？
人能不能理解它为什么这么做？

而这就是 Agent 工程。现在很多人看到 Manus、OpenClaw、Hermes，会觉得卧槽好牛。但如果你有工程思维，就会发现它们很多时候还是在解决这些问题：

如何承载 SOP / Workflow；
如何调用工具；
如何组织上下文；
如何拆任务；
如何处理执行状态；
如何进行多步规划；
如何做安全边界；
如何让结果可观测。

所以很多新东西并不是完全新的东西，而是老问题的新解法，你一旦理解到这一层，很多热点看起来就没那么玄了，自然也不存在焦虑了…

LLM Deployment

路线图里的第六层是 LLM Deployment，这里就涉及生产了，很多同学其实是看不到这个的，因为真正上线后，问题才刚开始。

如果你们做的是 demo，自然就不会关注生产后才会产生的问题，比如

并发请求；
负载波动；
响应延迟；
streaming；
batching；
GPU 利用率；
模型路由；
成本追踪；
fallback；
限流；
权限；
线上稳定性。

大家其实不知道我们为一个稳定性要付出多大的代价，比如之前一次 AI 客服造成的伤害：

《3小时，蒸发200万：一个AI客服引发的灾难》

这里其实又会涉及最佳实践问题，因为很多团队会把传统 DevOps 的经验直接套到 LLM 应用上，但实际上 DevOps、MLOps、LLMOps 要解决的问题并不完全一样。

传统软件部署的核心问题通常是：

代码有没有 bug？
服务能不能稳定跑？
接口能不能按预期返回？

但 LLM 应用上线后，你还会遇到很多新问题：

同一个问题，模型为什么今天这么答，明天那么答？
Prompt 改了一点，为什么整体效果退化了？
知识库召回到了内容，为什么模型没用？
用户问题越来越长，成本为什么突然飙升？
某个工具调用失败后，Agent 为什么还继续往下跑？
模型 API 抖动时，系统怎么降级？
多模型之间怎么路由？
哪些请求最贵？哪些场景最容易失败？

所以，很多企业做 AI 应用，完全不学习，也不想招 AI 专家，最终大概率就是在 AI 项目吃试错成本了。

当然，对于普通人进入 AI 行业来说，不一定一开始就要掌握 vLLM、PagedAttention、LitServe、LiteLLM 这些部署工具。

但你至少要知道：AI 应用不是 demo 跑通就结束了。

真正上线以后，稳定性、延迟、成本、权限、监控、降级，都会变成工程问题

所有产品都会追求一个稳定性，并且原因付出而外 98% 的成本，这个稳定背后就是从 demo 到 production 的区别。

LLM Optimization

路线图里的第七层是 LLM Optimization，这也是生产环境后才会涉及的问题，其实他是不适合初学者的，是已经在从事相关行业的同学需要了解的：

因为，第一张推理账单会让你意识到这项技能的重要性，老板会从初期的 Demo 兴奋醒来，并开始骂娘叫贵…

很多 AI 项目 demo 阶段看起来很美好：效果不错，体验顺滑，老板也满意。

但一旦真实用户量上来，问题马上出现：

token 成本太高；
响应速度太慢；
模型调用太频繁；
上下文太长；
召回内容太多；
Agent 步数太多；
工具调用链太长；
失败重试成本太高。

这时候就必须做优化，常见优化包括：prompt caching；上下文压缩；模型分层调用；大小模型级联； RAG 召回控制； rerank 策略优化； Agent step limit；工具调用缓存；结果缓存；模型量化；蒸馏； pruning；批处理；推理引擎优化……

这些东西很多很杂，你不需要一下就全部学会，但是建立一个意识：

优化必须围绕真实业务负载，而不是围绕通用榜单

Avi 也强调：每一种权衡，都应该在真实 workload 上 benchmark，而不是只看通用 eval。

这里举个例子，做 Demo 过程中关注的是模型好不好，那么生产环境关注的就一定是模型合不合适，这个合不合适的背后是成本和效率的各种考虑，在这个场景下才有微调等高阶技术产生的原因，比如

有些任务根本不需要最强模型，分类、路由、格式转换、简单摘要，也许小模型就够了。复杂推理、长文分析、严肃决策，才需要更强模型。

所有的这一切，都需要我们做系统级权衡。这也是普通人进入 AI 行业后，很容易体现价值的地方，权衡的背后是系统性的理解，他包括：

这个地方为什么贵？
这个链路为什么慢？
这个模型是不是用重了？
这个上下文是不是太长了？
这个任务能不能拆成小模型 + 大模型协同？
这个结果能不能缓存？
这个 Agent 有没有过度执行？

什么是生产环境的 AI 应用？考虑效率、成本和稳定性的 AI Demo 就是生产级的 AI 应用。

Safety, Evals & Observability

路线图里的第八层是 Safety, Evals & LLM Observability。

其实这里是之前的延续，依旧考虑的是 AI 应用的稳定性，这个也是 Demo 阶段或者学习阶段不太会遇到的问题。

生产级系统才会不停迭代，而一旦你开始服务用户产生迭代后，就必须回答一个问题怎么样了？，保守的说，这句怎么样了后面包含：

Prompt 改了，效果有没有退化？
模型换了，答案有没有变差？
RAG 策略调整后，召回有没有下降？
Agent 工具调用成功率有没有变化？
新版本有没有破坏旧能力？

Observability 问的是，线上正在发生什么？这个就是整体系统的可观察性设计了，要知道这东西可能增加项目至少 20% 的成本，他背后涵盖的内容很多：

每次请求用了多少 token；
延迟是多少；
哪个环节失败；
哪些问题召回不到；
哪些回答用户不满意；
哪些工具调用经常报错；
哪些 Prompt 输出不稳定；
哪些场景成本异常；
哪些内容存在安全风险。

我自己做 AI 客服的时候，自从出事故后就非常重视这块。因为一个 AI 系统如果没有可观测性，你根本不知道它为什么答对，也不知道它为什么答错。

尤其是客服、医疗、法律、金融这类高风险场景，不能只看模型看起来很聪明，你必须知道：它用了哪些知识？召回结果是否足够？模型是否承认知识不足？……

一个真正的生产系统，一定要有后台：

日志；
tracing；
评测集；
反馈池；
低置信度问题池；
人工审核；
数据回流；
版本管理；
成本监控；
安全策略。

这里特别说一嘴，其中的数据评测集是非常关键的，他是飞轮系统的核心，没有这些同喜，做出来的只是 demo，不是系统，

普通人的机会

讲完 Avi Chawla 8 层路线图，再回到最现实的问题：普通人如何进入 AI 行业？

我的回答非常明确：

算法岗位门槛较高、岗位较少，普通人就不要去看热闹了

AI 的机会，更多在业务落地和 AI 应用工程

这句话不是说算法不重要，而是说对于绝大多数人来说，这不是一条高性价比的切入路径。尤其如果你本来就是：

程序员；
产品经理；
项目负责人；
想转型 AI 的互联网人；
想做 AI 创业的人；

一般公司根本不会涉及底层模型训练，那你真的想利用 AI 做点什么，那么该看的就变了：

AI 应用到底有哪些类型；
不同类型 AI 项目，各自的难点是什么；
Agent、Workflow、知识库、AI Coding 分别在解决什么问题；
企业真正会为哪些 AI 能力买单；
你进入团队后，最可能接触到的工作到底是什么；
…

这个事情非常重要，因为很多人一上来就学偏了，在一些不重要的地方瞎折腾，在企业里真正关注的是：一个真实 AI 项目，到底是怎么从 0 到 1 跑起来的，他有什么难点卡点，谁能做，要多少钱，能不能快点…

这是为什么，很多人难以入行的关键：

碎片化学习，是很多人进不去 AI 行业的真正原因

很多人学 AI 往往是碎片，不是结构：

会搭个 Coze；
会配个 Dify；
会做个简单知识库；
会写几句提示词；
看过几个 Agent 视频；
听说过 MCP、A2A、Skills。

然后就觉得自己已经在 AI 圈边缘了，甚至他们连为什么数据在 AI 应用场景这么重要，什么是数据工程都不了解…

更进一步，他们当然也不知道为什么会出现 Agent，他适合什么场景，或者说有几个类型的 Agent 了

只不过，这也不能怪他们，很多人不是不努力，而是没有站在生产级项目的视角去学，毕竟他们也没这个机会去看…

LLM 工程师路线图

Avi 的 8 层路线图，是面向 LLM Engineer 的,但对于普通人来说，不建议一上来就把 8 层全部学深。

更合理的做法，是把这 8 层翻译成适合普通人的 AI 应用工程学习路线。比如按我的理解，可以压缩成 6 层：

第一层：AI 项目认知框架

看懂 AI 行业、项目类型、企业需求、伪风口

第二层：Prompt / Workflow

把业务流程拆成模型可执行的任务链

第三层：RAG / Context Engineering

让模型使用企业知识、历史记录、工具结果和上下文

第四层：AI Coding

用 AI 扩展个人生产力，从需求到代码到交付

第五层：Agent

让模型调用工具、拆解任务、持续执行

第六层：Evals / Observability / Data Flywheel

评估效果、发现问题、沉淀数据、持续优化

普通人进入 AI 行业更现实的路线，不是一上来学算法、追热点、使劲学工具，而是先建立一套框架：

我知道 AI 应用分哪些类型；
我知道不同项目的核心难点；
我知道 Prompt、RAG、Workflow、Agent、AI Coding 各自的位置；
我知道一个生产级 AI 项目需要哪些模块；
我知道自己能从哪个位置切进去。

这才叫真正进入 AI 行业。

说简单一点，就是你要能把 AI 世界里的东西先分层、分类。

因为这几年，除了模型能力在持续提升，AI 应用层真正的核心逻辑，其实并没有发生那么本质的变化。

很多热闹的外壳下面，解决的依旧还是那些问题：

如何承载 SOP / Workflow；
如何调工具；
如何组织上下文；
如何做知识增强；
如何拆任务；
如何做数据闭环；
如何把 AI 嵌进真实业务流程。

换句话说，很多新东西并不是完全新的东西，而是老问题的新解法。

生产级项目视角

DeepSeek 发布后，国内 AI 应用的行情起来了，对应的岗位也变多了、但今年 OpenClaw 一阵龙虾热潮又把行情干下去了。

只不过大家要注意：虽然整体下去了，但对 AI 相关岗位的需求是旺盛的，尤其是 AI 全栈工程师与 AI 产品经理。

我对这一切的感受还挺深的，因为我从事 AI 人才猎头工作快一年了…

在去年 5 月的时候，身边有两个朋友想转型 AI，于是我带着他们学了一段时间，最后他们找到了不错的工作，我也逐渐形成了 AI 训练营的雏形。

原本只是想把自己的项目经验系统化输出，但做着做着，我反而越来越确定一件事：

很多想转型 AI 的人，最缺的不是学习热情，而是看见生产级 AI 项目全貌的机会

因为真实公司里的 AI 项目，并不是你网上刷几个 demo、看几个教程就能看明白的。

一个稍微大一点的 AI 项目，里面至少会同时涉及这些东西：

业务目标和场景定义；
模型能力边界；
Prompt / Context / Workflow / Agent 设计；
数据清洗、标注、评测；
系统接入与工程实现；
可观测性与效果验证；
成本控制、安全合规；
跟现有组织和流程怎么协同。

但很多转型者在公司里，最开始能接触到的往往只是边角料，比如：

协助整理数据；
做点竞品调研；
跑一些模型评测；
配一点提示词；
维护一点知识库；
做一点实施或支持。

至于更核心的：

项目为什么这么设计；
架构为什么长这样；
为什么这里用 Workflow、那里用 Agent；
为什么某些模块必须做数据闭环；
历史上踩过什么坑；
最后为什么形成这个方案；

这些东西，绝不会有人愿意完整的告诉你，所以很多人就会陷入一种非常尴尬的状态：

学了一堆工具，但看不见项目全貌；

进了 AI 团队，但摸不到真正有价值的部分，总是在打杂

而我做的 AI 知识框架，想补的恰恰就是这一层：从 AI 应用视角出发，工作中实际用什么，什么重要，我们就学什么。

如果对应前面的 LLM 工程师路线图，我其实是在做一件事：

把 Prompt、RAG、Context Engineering、Agent、AI Coding、Evals、Observability 这些能力，翻译成普通人能学、能用、能进入项目的学习路径

我会用普通人的视角、生产级 AI 项目的视角对 8 层 AI 学习模块做拆分：

AI 知识框架

我们会一起梳理近 3 年 AI 的发展脉络，并结合我这几年在 AI 浪潮中的各种真实见闻，帮大家先把大盘看清楚。这部分会讲：

如何建立 L1-L5 框架视角；
2025/2026 年企业级 AI 落地热点到底是什么；
典型 AI 项目应该如何分类；
不同类型项目的实现路径、难点、卡点、成本结构到底是什么；
如何避开伪需求、伪创新、伪风口。

内容的核心，不是背概念，而是建立判断力。因为没有判断力，你学什么都会碎。

今天学一个工具，明天追一个热点，后天看一个视频，最后看起来很努力，其实脑子里没有结构。

而一旦你建立了 AI 项目知识框架，再看新东西就会完全不一样，你的关注点会变成：

它解决的是哪类问题？
它适合什么场景？
它的工程代价是什么？
它和 Workflow、RAG、Agent、Context Engineering 的关系是什么？
它能不能进入真实业务流程？

这才是进入 AI 行业的第一步。

Agent 与 Workflow

然后我们会系统讲 Agent 平台和 Workflow 这部分，让大家知道企业现在在怎么干活，包括：

横向对比 Coze、Dify、FastGPT、n8n 等平台，知道各自适合什么场景；
通过实操去理解什么是工作流项目，它的难点到底在哪里；
进一步延伸到为什么现在越来越多企业开始用 AI Coding + Agent 来承载 Workflow；
Manus、OpenClaw 这类产品的思路，到底应该怎么看。

这部分讲完后，至少你再去看那些 Agent 热点，不会只剩下卧槽牛逼，你会知道它大概在解决哪类问题，比如这次模型更新核心优化的：

是流程自动化？
是工具调用？
是上下文管理？
是任务拆解？
是多步执行？
是企业内部系统接入？
是复杂任务的执行闭环？

Agent 不是一个概念游戏，而是未来大量 AI 应用的工程载体，如果说传统 SaaS 是记录系统，那么 Agent 更像是认知和行动系统。

它最终导向的，是数字员工和生产力系统。

AI Coding

AI Coding 这一块我们现在也讲得越来越重了，他不是选择题，是必选题。

因为不管你喜不喜欢，AI Coding 已经不是加分项，而是必选项。

我们会同时讲两套：

面向非程序员的小白版；
面向程序员、偏生产级项目的案例版。

也就是说，不管你是产品、运营、项目型同学，还是开发岗转型，都会告诉你该怎么把 AI Coding 真正用起来，而不是停留在会让它写个 demo。

近来，我们一个律师小姐姐不仅学会了 AI Coding，还去给公司给其他律师培训了，可真厉害…

未来程序员不会被 AI Coding 直接替代，但不会 AI Coding 的程序员，大概率会被会 AI Coding 的程序员替代。

四、知识库、RAG、复杂系统与数据飞轮

很多企业最后绕不开的，还是知识库和数据工程。所以后面我们会继续往深一点走，包括：

从简单 RAG 到更复杂的知识库系统；
GraphRAG、知识图谱这些东西到底怎么看；
可观测性设计；
数据工程实战；
准确率瓶颈怎么处理；
飞轮系统怎么搭；
安全合规与成本控制怎么做。

说白了，就是尽量把大家从会玩一点工具，拉到对生产级 AI 项目有基本认知的水平。

比如一个 AI 客服项目，绝对不是搭个知识库就结束了。它至少要考虑：

为什么值得做；
目标边界如何确定；
如何选择技术路线；
如何整理知识；
怎么做意图识别；
选择什么检索策略；
如何观测全链路；
怎样设计数据飞轮系统；
哪些问题必须转人工；
哪些回答不能承诺；
知识不足时怎么处理；
如何持续补充低置信度问题。

这些才是生产级 AI 项目真正的细节…

结语

现阶段在学习 AI 的人群可分为三类：

一、AI 转型者

以程序员、产品经理为主，其次是其他互联网相关从业者，目标很简单：想找一份 AI 相关的工作，那么本文的学习体系是适合你的。

因为你最缺的，往往不是一点点工具操作，而是：

项目全局视角；
对 AI 应用的分类认知；
对企业真实需求的理解；
一套更接近岗位要求的学习路径。

你需要知道自己到底该往哪里切：

是做 AI 产品？
是做 AI 项目实施？
是做 AI 应用开发？
是做 AI Coding 方向？
是做 Agent / Workflow？
是做知识库 / RAG？
是做企业 AI 咨询？

不同方向需要的能力不一样，但它们背后都需要一套 AI 应用工程框架。

二、AI 项目负责人

第二个大品类就不局限 AI 小白了，他们可能已经是 AI 深度参与者，甚至已经是高手了，比如即将或正在某个 AI 项目中扮演核心角色，那么本文的学习路径也是适合的。

因为很多项目负责人最难受的地方在于：

模型知道一点，工程知道一点，业务知道一点，但就是拼不成完整的判断框架

你可能知道公司要做 AI，但你不知道：

应该从哪个场景切；
应该先做 Workflow 还是 Agent；
应该自己开发还是用平台；
应该上 RAG 还是先做 Prompt；
数据闭环怎么设计；
效果怎么评估；
成本怎么控制；
项目失败风险在哪里。

那么系统性的 AI 知识框架，至少能帮你把这些东西串起来。

三、AI 创业者

最后就是 AI 创业者了，那么这套路径非学不可，因为你必须知道不同类型 AI 项目的成本结构、难点和落地路径，否则的话 AI 项目试错成本会高很多。

毕竟，很多坑我自己已经踩过了，能帮你少踩一点也是好事。

AI 创业最怕的不是不会做 demo，而是：

以为 demo 等于产品；
以为产品等于商业化；
以为模型能力等于用户价值；
以为技术先进等于客户愿意付费。

真实情况往往不是这样。企业买 AI，不是因为你用了最新模型、或者是做了个什么 Agent，而是因为你帮它解决了具体问题。

我之前做 AI 2B 的数字分身失败了，我接着做 AI 2C 的空气小猪也要死不活，AI 创业者更需要理解：

企业为什么买单；
什么是伪需求；
什么项目成本会失控；

最后回归最初的问题：普通人到底如何进入 AI 行业？

我的答案是：

不要从算法开始，也不要从工具热点开始

要从 AI 应用工程开始

你看懂今天这篇文章，才算逐渐开始进入 AI 行业了……

{{userData.name}}已认证

万字解读 Avi Chawla《2026 LLM工程师路线图》，8 层能力框架看 AI 应用工程

AI 知识框架

Prompt Engineering

RAG

Context Engineering

微调

Agent

LLM Deployment

LLM Optimization

Safety, Evals & Observability

普通人的机会

LLM 工程师路线图

生产级项目视角

AI 知识框架

Agent 与 Workflow

AI Coding

四、知识库、RAG、复杂系统与数据飞轮

结语

一、AI 转型者

二、AI 项目负责人

三、AI 创业者

Nexus：RAG 时代终结？编译器 AI 知识层来了

实战分享：从单纯编码到全模态智能：解读火山引擎Agent Plan的优势

AI Agent 的 Skill 系统设计

向量检索、知识图谱与 LLM Wiki：RAG 被嘲笑了三年，但企业还是离不开它

AI互联网日报：阿里整合 QoderWork、悟空和 MuleRun；Kimi 推出语音通话模式；Gemini Spark 登陆 Mac

computer-science：是一张通往硅谷的船票吗？

javascript-algorithms：前端学算法的第一站

spreadsheet：一个会写公式的 Excel 助手

data-visualization：把选图决策做成了可复用知识

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

AI 知识框架

Prompt Engineering

RAG

Context Engineering

微调

Agent

LLM Deployment

LLM Optimization

Safety, Evals & Observability

普通人的机会

LLM 工程师路线图

生产级项目视角

AI 知识框架

Agent 与 Workflow

AI Coding

四、知识库、RAG、复杂系统与数据飞轮

结语

一、AI 转型者

二、AI 项目负责人

三、AI 创业者

Nexus：RAG 时代终结？编译器 AI 知识层来了

实战分享：从单纯编码到全模态智能：解读火山引擎Agent Plan的优势

AI Agent 的 Skill 系统设计

向量检索、知识图谱与 LLM Wiki：RAG 被嘲笑了三年，但企业还是离不开它

AI互联网日报：阿里整合 QoderWork、悟空和 MuleRun；Kimi 推出语音通话模式；Gemini Spark 登陆 Mac

computer-science：是一张通往硅谷的船票吗？

javascript-algorithms：前端学算法的第一站

spreadsheet：一个会写公式的 Excel 助手

data-visualization：把选图决策做成了可复用知识

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议