技术资讯

2024年RAG标准权威排行榜与腾讯云ES技术实践

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

RAG技术连接通用大模型与企业私有知识，解决知识截止、私域数据缺失和幻觉问题。信通院

搜索技术这些年经历了哪些关键跃迁？从最初靠分类目录手动检索，到倒排索引实现秒级响应，再到向量化技术让语义理解成为可能——每一步都在拓展信息获取的边界。但直到大模型登场，搜索才真正从“返回一堆链接”进化到“直接给出答案”。不过，大模型也有自己的短板：知识截止日期、缺乏企业私有数据、容易产生幻觉。于是，RAG（检索增强生成）应运而生，成了一座连接通用大模型与专业知识的桥梁。

这篇文章会围绕 RAG 的技术标准、Elasticsearch 在 RAG 领域的完整解决方案，以及腾讯云 ES 的增强能力与实践案例展开，内容分四个部分。

01 RAG 背景及标准制定

1. 搜索技术的演进

在介绍 RAG 之前，有必要先回顾搜索技术的演进脉络——这两者之间的关联非常紧密。

搜索是人类最基础的需求之一，早已渗透到生产生活的方方面面。早期还没有真正意义上的搜索引擎时，人们依赖分类目录来管理信息，检索效率极低，能处理的数据规模也相当有限。直到倒排索引技术出现，整个行业才迎来一场革新：毫秒级响应、TB 甚至 PB 级数据规模的快速查找成为现实。但倒排索引的本质仍是基于关键词的文本匹配，图片、视频等内容无法被检索，语义理解更是无从谈起——比如搜索“计算机”和“电脑”，在关键词层面会被视为两个完全不同的词。

向量化技术随后登场，它能把文字、图片、视频的特征提炼成多维向量，再通过计算向量之间的距离（例如欧氏距离）来判断内容的相关性。这极大地扩展了搜索的边界，多模态检索成为可能。

不过，上述这些仍属于传统搜索的范畴：用户输入一个问题，系统返回一个结果列表，需要用户自己阅读、分析、总结才能得到答案。效率依然不高。人们真正想要的是直接给出答案。近年来，基于注意力机制的 Transformer 等深度模型再次推动了搜索技术的革命性演进。

如今，大模型能在大规模数据中搜索与问题相关的内容，并进行总结提炼，给出高质量的答案。企业自然希望将这一技术落地到生产中，但实践过程中遇到了不少障碍。这正是 RAG 技术出现的原因——它作为一座桥梁，帮助解决搜索中的种种难题。

2. RAG 检索增强生成

RAG 的全称是 Retrieval Augmented Generation，即检索增强生成。它的核心思路是：通过检索外部知识库，来改善大模型生成内容的效果。

大模型是预训练模型，训练完成时知识就固定在了那一刻，之后发生的新事件、新信息它无法获知。同时，大模型学习的是互联网上的公开信息，企业或行业的特有知识它往往缺乏。这些局限性导致大模型常常产生“幻觉”。

RAG 提供了一条务实的路径：企业无需投入海量计算资源去做重新预训练，只需将本地专业知识提交给大模型，即可让它在专业领域内更好地回答问题。目前 RAG 的主要应用场景包括知识问答、智能客服、专家系统等。

3. 信通院检索增强生成 RAG 技术标准

为了帮助企业了解如何搭建一个 RAG 应用，信通院联合四十余家企业共同编写了《检索增强生成（RAG）技术要求》标准。该标准覆盖知识库构建、知识检索、内容生成、质量评估、平台能力五大能力域，细分为 17 个能力子域、50 个能力项。值得一提的是，腾讯云是核心参与企业之一，也是国内首个通过该 RAG 权威标准认证的企业。

腾讯云 ES 是国内公有云上首个能够实现从自然语言处理到向量生成、存储、检索，并与大模型集成的端到端一站式技术平台。下面进入正题，详细拆解 ES 的 RAG 解决方案。

02 ES RAG 解决方案和优势

1. Elasticsearch（简称 ES）：海量数据搜索和分析引擎

ES 是全球排名第一的搜索引擎，在国内应用极为广泛。它的核心特点是分布式架构，能够处理海量数据。在搜索方面，ES 具备全文检索、向量检索以及 RAG 等关键能力。

2. ES 在 RAG 领域的一站式解决方案

上图展示的是 ES 在 RAG 领域的典型方案。传统用法是：用户提问后直接交给大模型，大模型凭自身知识回答。但遇到企业私域信息时，大模型就无能为力了。此时 ES 通过 RAG 方案介入：将用户问题送入知识库——知识库中不仅有文本，还有图片、视频，这些内容会提前被向量化。检索时进行文本与向量的联合召回，得到一个 TopN 列表，该列表与用户问题一起构成 prompt，再提交给大模型，最终生成高质量的回答。

3. ES 拥有你所需的所有功能

与其他需要多个技术栈配合的方案不同，ES 在一个技术栈内就集成了向量生成、存储、索引、检索以及大模型等多项技术，大幅降低了系统的复杂度和成本。

RAG 的关键技术之一就是向量化。与传统向量数据库相比，ES 不仅能实现向量的存储和搜索，还支持混合搜索、模型的灵活选择与部署、聚合分析，以及基于权限的管理等功能。

4. 向量转换

在 ES 中，向量转换非常灵活。它内置了优化的模型，比如 ELSER 和 Multilingual-e5。同时支持第三方模型，可以将模型直接部署到 ES 上，也可以基于 inference API 调用 OpenAI、HuggingFace 等平台上的模型，实现在线的向量转换。

5. 召回排序

在召回排序方面，文本与向量混合检索的排序目前仍是一个挑战。传统方法需要将不同维度召回的结果进行归一化，但归一化的评分尺度和分布差异都会影响最终排序质量。ES 内置了 RRF 导数融合排序和 LTR 基于模型的排序能力，不仅使用便捷，而且成熟度高，为排序质量提供了可靠保障。

6. 混合搜索

再来看混合搜索。向量搜索的优势很明显：能更好地理解和处理自然语言，通过上下文理解语义关系，轻松实现跨语言检索，还能支持图片、视频等多模态搜索。但它也有局限性：在精确匹配和短文本场景下语义理解不够准确，导致相关性下降；可解释性差，调优难度大；对计算资源的要求也比较高。

因此，一个务实的做法是文本与向量混合搜索，取长补短。例如，先用向量检索召同一批相关结果，再通过关键词做精准匹配，从而提高准确性和可信度。混合搜索还能丰富检索内容，满足不同用户的查询偏好。关键词检索的逻辑运算、排序、过滤等能力可以帮助实现更复杂的查询需求，而文本匹配和高亮显示也让检索结果更容易理解。

7. ES 在向量检索与 AI 增强上的优势小结

ES 在 RAG 方向上的核心优势可以概括为四点：

低门槛：独立技术栈，一站式完成向量生成、存储/索引、检索，很多工作通过配置即可实现，接入成本大幅降低。
高性能：分布式架构与灵活的弹性机制，支撑百万级 QPS 和千亿级数据规模。
更精准：文本与向量混合检索，显著提升搜索准确性。
更智能：与大模型无缝集成，轻松构建 AI 智能问答应用。

03 腾讯云 ES RAG 能力增强

1. 专有机器学习节点，助力向量生成和检索

腾讯云 ES 支持专有机器学习节点。在该节点上可以完成模型的上传、管理和部署，实现一站式的向量生成与检索，有效提升向量推理能力。同时，机器学习节点与数据节点隔离，不会影响在线业务的稳定性。

2. 全球唯一支持 GPU 的 ES 服务，与腾讯自研“芯”技术紫霄软硬结合

腾讯云 ES 是全球唯一支持 GPU 的 ES 服务，并且与腾讯自研的紫霄 GPU 深度结合，借助 GPU 的高性能加速向量生成，提升检索效率。

3. 针对向量场景自研技术优化，查询性能提升 3-10 倍

针对向量场景的特点（数据规模相对较小、读多写少），腾讯云 ES 做了大量内核自研优化。比如分片架构优化，合并查询与归并流程；块存储与查询优化，通过 segment 合并收敛减少随机 IO；还包括查询并行化、Lucene 查询缓存锁改造等。这些优化使查询性能提升了 3 到 10 倍。

04 腾讯云 ES RAG 应用实践

1. 业务场景

最后来看一个真实案例：微信读书的“AI 问书”功能。微信读书用户量巨大，平台上拥有海量书籍内容。传统搜索已经无法满足需求——团队希望突破关键词匹配，提供更智能的搜索体验，让系统能更好地理解用户问题，并支持开放式检索。

2. 技术挑战

该项目面临几个关键挑战：

数据规模大：超 10 亿量级，且持续增长。
运维成本高：向量化部分如果在外部单独完成再接入系统，会带来多套系统之间的适配问题，运维成本大幅上升。
稳定性要求高：用户体量大，对系统稳定性要求极为苛刻。
查询性能要求高：ToC 场景下，查询延迟需要达到毫秒级。

针对这些挑战，团队构建了基于 ES 的一站式 RAG 解决方案。

3. 基于腾讯云 ES 的一站式 RAG 方案

方案的整体架构与前文描述类似。用户输入检索词后，系统在书籍内容的私有知识库中进行混合检索（文本召回 + 向量召回）。向量转换在专有的 ES 机器学习节点上完成，利用 GPU 加速，模型支持自定义上传，从而高效实现搜索目标。

4. 独有混合搜索能力

具体来看混合搜索的实现：在引擎层面，支持文本、向量、数值等多种索引；查询分析环节包含分词、同义词、实体识别、情感分析等能力；在此基础之上，实现多路召回和混合打分；最后将召回结果与用户问题一起提交给大模型，完成智能问答。

5. 方案价值

整体方案带来的价值十分显著：

开发实现效率高：基于一站式的框架，通过配置即可完成，大幅缩短研发周期。
运维投入低：ES 独立架构减少了多系统协同的运维成本。
高准确率：混合搜索让搜索准确率大幅提升。
查询效率高：高并发场景下，10 亿级向量查询延迟低至毫秒级。
存储成本低：支持 LZ4 等压缩算法，有效降低存储开销。
稳定可靠：基于 ES 的资源内核熔断限流技术，能很好地应对高并发和大查询，为业务保驾护航。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。