字节面试官：什么是 RAG？为什么需要 RAG？-西瓜码农

面试官到底想问什么？

最近在准备面试，发现 RAG（检索增强生成）这个概念出现的频率越来越高，尤其是字节、阿里这类公司的面试中，几乎是必考题。

说实话，面试官问 RAG，绝不仅仅是想听你背个全称。他们真正想考察的是三个层面：

**概念理解**：你是否理解 RAG 的本质——它不是让模型变聪明，而是给模型配了个"外挂知识库"
**问题意识**：你能不能说清楚大模型到底有哪些硬伤？为什么不能直接让它回答所有问题？
**方案选型思维**：知道有哪些解决方案（RAG、微调、长上下文），能说清楚为什么选 RAG

核心答案

RAG（Retrieval-Augmented Generation，检索增强生成） 的核心思路就一句话：让大模型在回答问题之前，先去外部知识库里检索相关资料，然后基于这些资料来生成回答。

打个比方，大模型就像一个学生参加开卷考试——与其死记硬背所有知识（预训练），不如带着参考书进场，需要的时候翻一翻。RAG 就是给大模型配的这本"参考书"。

那为什么需要 RAG？直接让大模型回答不行吗？还真不太行，因为大模型有几个绕不开的硬伤：

大模型的硬伤	具体表现	RAG 如何解决
幻觉问题	一本正经地胡说八道，编造不存在的事实	基于检索到的真实文档生成回答，有据可依
知识截止	训练数据有截止日期，不知道最新的信息	知识库可以随时更新，突破时间限制
领域知识不足	对企业内部文档、专业知识了解有限	接入企业私有数据，补齐领域短板
无法溯源	不知道回答的依据是什么，无法验证	可以追溯引用来源，提供文档出处

深度解析

一、大模型为什么"不够用"？

先聊聊大模型的几个核心痛点，这样你才能真正理解 RAG 的价值。

痛点一：幻觉（Hallucination）

这是大模型最被诟病的问题。大模型的本质是"接龙"——基于上文预测下一个最可能的 Token。它并不真正"理解"事实，只是在做概率预测。所以当它不确定的时候，它会编一个看起来很合理的答案，而不是老老实实说"我不知道"。

这个问题当年坑了不少人。早期很多团队直接拿 GPT-3.5 做企业客服，结果模型一本正经地给客户推荐了不存在的产品，场面一度非常尴尬。

痛点二：知识截止（Knowledge Cutoff）

大模型的知识来源于训练数据，训练完就"定格"了。你问它 2025 年发生的新闻事件，它要么不知道，要么靠编。对于需要实时信息的场景（股价、新闻、政策更新），裸用大模型基本不可行。

痛点三：私有知识缺失

大模型的训练数据是公开的互联网语料。你们公司的内部文档、产品手册、客户 FAQ，它统统没见过。你让它回答"我们公司 XX 产品的退货政策是什么"，它只能瞎编。

痛点四：成本与可控性

微调模型来注入新知识？可以，但成本高、周期长，而且每次知识更新都得重新训练。对于频繁变化的知识场景，这显然不现实。

二、RAG 的核心流程

上图展示了 RAG 的完整架构，分为离线和在线两大阶段：

**离线阶段（知识库构建）**：把各种格式的文档解析成纯文本，切成合适大小的片段（Chunk），用 Embedding 模型编码成向量，存入向量数据库。这一步是地基，文档解析质量、切分策略、Embedding 模型选型都会直接影响最终的检索效果。

**在线阶段（查询与生成）**：用户提问后，把问题也编码成向量，在向量库里做相似度检索，找出最相关的几段文本。然后把这些文本塞进 Prompt 里，交给大模型生成最终回答。其中 Rerank（重排序）这一步很关键，用 Cross-Encoder 对初步检索结果做精排，能显著提升准确率。

三、RAG vs 微调 vs 长上下文——到底选谁？

很多人一听到"给大模型补充知识"，就只知道 RAG。但面试官可能追问：除了 RAG，还有别的方式吗？这时候你得知道怎么对比选型。

维度	RAG	微调（Fine-tuning）	长上下文（Long Context）
核心作用	注入外部知识	改变模型行为风格	扩大单次输入窗口
知识更新	随时更新知识库	需重新训练	更新输入内容即可
成本	低	中高（算力 + 数据）	按 Token 计费，量大时成本高
幻觉控制	较好，有检索约束	一般	取决于上下文中的信息量
适用场景	知识密集型问答、企业知识库	特定格式输出、风格定制	全文分析、长文档摘要
响应延迟	多了检索环节，略高	无额外开销	输入越长延迟越高
典型代表	LangChain + Chroma	LoRA / QLoRA	GPT-4o（128K）、Gemini（1M+）

说实话，这三者不是互斥的。实际项目中经常组合使用——比如先微调模型让它熟悉你业务的回答风格，再用 RAG 注入实时知识，长上下文则用于需要通篇理解的场景。

四、RAG 的前沿演进（2025-2026）

面试中如果能聊到 RAG 的最新发展趋势，绝对是加分项。2025 年以来，RAG 领域有几个重要的认知升级：

Agentic RAG（智能体化 RAG）

传统的 Naive RAG 是"用户问 → 检索 → 生成"的单次流程。而 Agentic RAG 引入了 Agent 的决策能力——模型可以自主判断需不需要检索、检索什么、检索结果够不够用、要不要换个策略再搜一遍。从被动检索变成了主动决策。

Graph-RAG（图检索增强）

传统 RAG 基于向量相似度检索，擅长找语义相近的内容，但不擅长处理实体之间的关联关系。Graph-RAG 结合知识图谱，能在实体和关系层面做更精准的推理。微软开源的 GraphRAG 框架在这方面做了很好的探索。

上下文工程（Context Engineering）

这是 2025 年 RAG 领域最重要的认知转变——RAG 的本质不是"检索增强生成"，而是"上下文工程"。核心关注点从"怎么检索到相关文档"升级为"怎么为模型构造最合适的上下文"，包括上下文的选取、排序、压缩、冲突处理等。

面试高频追问

追问一：RAG 的检索效果不好怎么优化？

这道追问几乎是必问的。可以从以下几个层面回答：

**优化 Chunk 策略**：语义切分替代固定长度切分
**加 Rerank 重排序**：用 Cross-Encoder 对初步结果精排
**使用 Hybrid Search**：稠密向量 + 稀疏关键词检索融合
**Query 改写**：把用户的口语化问题改写成更适合检索的 Query
**升级 Embedding 模型**：更好的语义表示能力

追问二：RAG 和微调什么时候用哪个？能不能一起用？

简单口诀："知识用 RAG，能力用微调"。

知识频繁变化的场景选 RAG
需要改变模型行为风格的场景选微调
两者完全可以组合使用

追问三：现在大模型上下文窗口越来越大了（比如 Gemini 支持 100 万 Token），还需要 RAG 吗？

好问题。长上下文确实能解决一部分问题，但 RAG 仍有独特优势：

**成本低**：不用把所有文档都塞进去
**延迟低**：检索几段比塞入整本文档快
**可溯源**：知道答案来自哪段文档

而且不是所有场景都需要通篇理解，很多时候只需要精准的几段话就够了。

写在最后

RAG 的本质就是"让大模型带着资料考试"，解决的是大模型幻觉、知识截止和领域知识不足三大核心痛点。面试中先说清楚"为什么需要"，再讲"怎么做"，最后能聊到 Agentic RAG、Graph-RAG 等前沿趋势，基本就能让面试官眼前一亮。

记忆口诀：

**为什么需要 RAG**：幻觉编造、知识截止、领域缺失、难以溯源——四大硬伤，RAG 来救
**RAG 流程**：离线建库（解析 → 切分 → 向量化 → 入库），在线问答（提问 → 检索 → 重排 → 组装 → 生成）

目录CONTENT

字节面试官：什么是 RAG？为什么需要 RAG？