深度文章

进阶

权威来源

RAG 产品化心智模型

把 RAG 从技术名词翻译成产品经理能讲清楚的输入、检索、组织、回答和评测链路。

适合面试前快速补课。重点不是背术语，而是能讲清楚 chunking、embedding、retrieval、re-ranking、grounding、hallucination、evaluation 分别会在产品链路的哪一段出问题，以及为什么这些问题会直接影响用户是否信任结果。

来源权威性

当前条目使用 OpenAI Cookbook + LlamaIndex 官方文档 + LangChain 官方文档作为主信源，所有链接均已人工核验可访问。

RAG

产品化

检索增强

评测

已验证链接

OpenAI Cookbook

OpenAI

已验证

查看官方 RAG 与评测示例

核验时间：2026-03-13（浏览器人工核验）

打开官方链接

LlamaIndex Docs

LlamaIndex

已验证

理解知识接入、检索和数据组织方式

核验时间：2026-03-13（浏览器人工核验）

打开官方链接

LangChain Docs

LangChain

已验证

理解多步工作流、Agent 和可观测

核验时间：2026-03-13（浏览器人工核验）

打开官方链接

知识点整理

关键理解

先把错误理解和正确理解分开：RAG 不是“接个向量库”，而是知识切片、召回、重排、生成、引用与反馈组成的完整闭环。

先把 RAG 看成一条产品链路，而不是一个“接知识库”的功能标签。它至少包含数据接入、切分、索引、检索、重排、生成、引用和评测几个阶段。

RAG 解决的是“模型参数外的信息访问”问题，不等于一定更聪明。它常常是在用外部知识降低幻觉、补足时效性和增强可追溯性。

真正影响用户体验的通常不是模型本身，而是检索召回质量、文档新鲜度、上下文组织方式、延迟和引用可信度。

面试里最有区分度的表达不是堆术语，而是能说明每一层失效后用户会看到什么坏结果，以及你会怎样定位问题。

术语卡

Chunking

把原始文档切成可索引、可检索的小片段。切得过大容易噪声高，切得过碎又会丢上下文。

Embedding

把文本映射成向量表示，方便按语义相似度做召回。它决定“像不像”，不直接决定“答得对不对”。

Retrieval

按查询从索引中找候选片段。召回不全会让模型“没料可用”，召回太杂则会把噪声带进上下文。

Re-ranking

对候选结果二次排序，把更贴近问题的片段提到前面，常用来补足初筛检索的粗糙性。

Grounding

让回答明确建立在外部证据上，而不是只靠模型先验。用户感受到的通常是“能不能给出处”。

Hallucination

模型生成了看似合理但缺乏依据或明显错误的内容。RAG 可以降低但不能彻底消除。

Evaluation

针对命中率、答案正确性、引用覆盖、延迟和用户满意度建立评测方法，不让效果只停留在主观印象。

面试表达角度

用“用户问题 -> 数据来源 -> 检索策略 -> 回答可信度 -> 评测闭环”这条线去讲，比直接背技术栈更像产品经理。

如果需要快速建立产品表达，可以直接按“意图识别 -> 查询改写 -> 召回 -> 重排序 -> 上下文组装 -> 生成 -> 引用 -> 反馈”这条链路展开。

如果被问 RAG 什么时候不该用，可以回答：知识高度稳定且规则明确时，结构化规则或数据库查询可能更简单、更稳、更便宜。

如果被问如何判断效果，先区分离线评测和线上指标，再讲正确率、引用率、延迟、拒答质量和任务完成率。

如果被问失败案例，可以从召回不到、召回太杂、文档过期、权限越界、答案没有引用这五类来拆。

常见坑

把“接了向量库”误当成 RAG 完成，忽略文档清洗、切分和更新机制。

只测主观 demo，不建立稳定评测集，导致每次调参都靠感觉。

忽视权限隔离与数据边界，结果把不该看到的文档一并召回。

只优化回答文案，不追查命中失败究竟发生在召回、排序还是生成阶段。

RAG 产品化心智模型

已验证链接

知识点整理

关键理解

术语卡

面试表达角度

常见坑

相关条目

OpenAI Cookbook

LlamaIndex Documentation

LangChain Documentation

Anthropic Prompt Engineering 指南