深度文章
进阶
权威来源
RAG 产品化心智模型
把 RAG 从技术名词翻译成产品经理能讲清楚的输入、检索、组织、回答和评测链路。
适合面试前快速补课。重点不是背术语,而是能讲清楚 chunking、embedding、retrieval、re-ranking、grounding、hallucination、evaluation 分别会在产品链路的哪一段出问题,以及为什么这些问题会直接影响用户是否信任结果。
来源权威性
当前条目使用 OpenAI Cookbook + LlamaIndex 官方文档 + LangChain 官方文档 作为主信源,所有链接均已人工核验可访问。
RAG
产品化
检索增强
评测
已验证链接
知识点整理
关键理解
先把错误理解和正确理解分开:RAG 不是“接个向量库”,而是知识切片、召回、重排、生成、引用与反馈组成的完整闭环。
先把 RAG 看成一条产品链路,而不是一个“接知识库”的功能标签。它至少包含数据接入、切分、索引、检索、重排、生成、引用和评测几个阶段。
RAG 解决的是“模型参数外的信息访问”问题,不等于一定更聪明。它常常是在用外部知识降低幻觉、补足时效性和增强可追溯性。
真正影响用户体验的通常不是模型本身,而是检索召回质量、文档新鲜度、上下文组织方式、延迟和引用可信度。
面试里最有区分度的表达不是堆术语,而是能说明每一层失效后用户会看到什么坏结果,以及你会怎样定位问题。
术语卡
Chunking
把原始文档切成可索引、可检索的小片段。切得过大容易噪声高,切得过碎又会丢上下文。
Embedding
把文本映射成向量表示,方便按语义相似度做召回。它决定“像不像”,不直接决定“答得对不对”。
Retrieval
按查询从索引中找候选片段。召回不全会让模型“没料可用”,召回太杂则会把噪声带进上下文。
Re-ranking
对候选结果二次排序,把更贴近问题的片段提到前面,常用来补足初筛检索的粗糙性。
Grounding
让回答明确建立在外部证据上,而不是只靠模型先验。用户感受到的通常是“能不能给出处”。
Hallucination
模型生成了看似合理但缺乏依据或明显错误的内容。RAG 可以降低但不能彻底消除。
Evaluation
针对命中率、答案正确性、引用覆盖、延迟和用户满意度建立评测方法,不让效果只停留在主观印象。
面试表达角度
用“用户问题 -> 数据来源 -> 检索策略 -> 回答可信度 -> 评测闭环”这条线去讲,比直接背技术栈更像产品经理。
如果需要快速建立产品表达,可以直接按“意图识别 -> 查询改写 -> 召回 -> 重排序 -> 上下文组装 -> 生成 -> 引用 -> 反馈”这条链路展开。
如果被问 RAG 什么时候不该用,可以回答:知识高度稳定且规则明确时,结构化规则或数据库查询可能更简单、更稳、更便宜。
如果被问如何判断效果,先区分离线评测和线上指标,再讲正确率、引用率、延迟、拒答质量和任务完成率。
如果被问失败案例,可以从召回不到、召回太杂、文档过期、权限越界、答案没有引用这五类来拆。
常见坑
把“接了向量库”误当成 RAG 完成,忽略文档清洗、切分和更新机制。
只测主观 demo,不建立稳定评测集,导致每次调参都靠感觉。
忽视权限隔离与数据边界,结果把不该看到的文档一并召回。
只优化回答文案,不追查命中失败究竟发生在召回、排序还是生成阶段。