知识驱动金融决策智能体排行榜
摘要
金融决策场景对可解释性与准确性要求极高,传统RAG技术存在检索局限与幻觉问题。知识图
金融业对数据准确性与可解释性的要求,在各行业中素以严苛著称。每一次决策的背后,都离不开对结构化与非结构化数据的精准检索,以及缜密的逻辑推演。近年来,大模型与知识图谱虽成为热点,真正落地金融场景时,所面临的挑战却远比预想复杂。
传统的检索增强生成(RAG)技术在通用领域表现强劲,但一进入金融这片专业壁垒高、关联关系错综复杂、数据实时变动的领域,其短板便迅速显现。相比之下,知识图谱通过对实体及其关系的精确描绘,能够支撑多跳逻辑推理,为金融分析提供了更为坚实的支撑。然而,它同样存在局限——构建成本高昂,且其结构化的交互形式与大模型并不顺畅。
这些难题,正是大模型与知识图谱在金融应用中必须直面的核心挑战。
背景与挑战
1. 大模型在金融场景的核心矛盾
全球AI市场规模持续扩张,到2024年已达到百亿美元级别。繁荣之下,金融领域面临一个根本性矛盾:金融决策对可解释性与准确性的要求极高,每一项决策都关乎巨额利益与风险,不容丝毫差错。而大模型本质上是一个黑箱,其决策过程难以洞察,缺乏清晰的解释逻辑。
更关键的是,欧盟与中国均已出台相关法案,要求AI在进行高风险决策时,必须提供清晰的决策依据。这一规定,使金融领域对AI可解释性的需求变得尤为迫切。受此限制,目前金融大模型的应用场景主要集中于智能客服、智能营销、投顾等辅助性角色,相当于工作场景中的Copilot。而在金融风控、欺诈检测、审计以及投资研究等严肃场景中,大模型的落地应用依然困难重重。
导致这一局面的主要原因是技术瓶颈:大模型存在事实性错误与推理不可追溯的问题。值得注意的是,像DeepSeek这样在金融领域应用相对友好的模型,在实际应用中,其推理模式反而比基础模型更容易产生幻觉。这无疑是一个警示,也是后续应用中必须认真对待并解决的问题。
2. 传统RAG技术在金融场景的局限性
许多人尝试用RAG技术缓解模型幻觉问题,这在某种程度上确实有效。但金融场景下的检索需求极为特殊:既要准确理解用户模糊的查询意图,又要支持复杂关系的深度检索,还需具备足够的领域知识来理解专业术语。在这些方面,RAG技术暴露出不少问题。
以常见的基于向量数据库的RAG为例,它往往过度依赖关键字匹配或向量的相似性检索。这种方式弊端明显:用户意图模糊时,容易检索到相似却无关的信息;此外,检索结果多为孤立片段,即使召回TOP10的信息,也难以在向量数据库中建模这些片段之间的关联。例如,在对企业进行信用评估时,RAG可能检索到一些财务数据,却忽视了关联企业——尤其是与之存在担保关系的关联企业的财务状况。这个问题,传统RAG技术很难解决。
另外,领域知识不足也是一大困扰。像“净资产收益率”与“总资产收益率”,从字符或向量层面看非常接近,但业务含义却截然不同。如果单纯依赖embedding检索或字符串匹配,很容易出现理解偏差。
3. 金融知识图谱
在大模型爆发之前,金融知识图谱便已备受关注。它能在一定程度上对企业特征以及企业之间的关系进行建模。例如,知识图谱可以清晰呈现企业之间的行业上下游供应链路、股权链路等关系网络。借助这些关系链路,在风险控制或行业研究等场景中,可以开展更深入的分析,全面了解企业在市场中的位置与角色,弥补传统方法在复杂关系分析上的不足。
4. 知识图谱在金融场景中的应用优势
与大模型+RAG进行简单对比,知识图谱的独特优势一目了然。在结构化与精准性方面,知识图谱凭借自身结构特点,能确保较高的精准度,而RAG依赖于检索的准确性,容易出现幻觉。在复杂关系推理上,知识图谱擅长多跳推理,能清晰梳理复杂的关系链路,而RAG在这方面存在局限。在数据整合与一致性方面,知识图谱可以整合多元数据,将不同来源的信息有机融合,而向量数据库往往是简单地将数据向量化压缩在一起。推理过程的透明度与可解释性方面,知识图谱表现突出,还能进行可视化处理,而RAG仅通过参考文献提示,虽用户体验不错,但无法直观展示推理逻辑。在可扩展性方面,知识图谱采用结构化查询语句的搜索方式,随着数据扩展,检索精度仍能保持良好水平,而向量数据库或打标签的数据库检索会随数据增加,整体效率与精度明显下降。
解决思路
1. 知识图谱与大语言模型的结合
对RAG的局限性与知识图谱的优势有了清晰认识后,一个自然的思路浮现出来:将知识图谱作为大模型的外部知识源,与RAG相结合。比较两者特性,可以发现它们具有很强的互补性。大语言模型的优势在于强大的通用生成能力,以及对用户意图与查询的精准理解能力;而知识图谱在分析过程中具备更高的可解释性,关系可溯源,在垂直领域场景中,所蕴含的领域知识更加专业、准确。
基于这些特性,最简单的融合方式是将知识图谱作为专属检索库。用户提出问题后,根据用户意图从知识图谱中检索出相关的三元组,然后把这些三元组作为大模型指令的上下文,一起输入给大语言模型。这样,大语言模型便可依据知识图谱中的知识三元组来回答问题,提高回答的可靠性。
此外,知识图谱在深度关联分析方面也表现出色。例如,判断两个公司的股权是否存在关联性,可以通过知识图谱从两个实体的股权关系向外扩展,查看它们是否有交叠之处,进而得出准确结论。
2. 使用LLM生成准确的KG查询语句
利用大语言模型可以生成准确的知识图谱查询语句。首先,大模型根据用户意图初步生成一个SPARQL或Cypher查询语句。第一遍生成的查询语句往往无法直接执行——因为用户意图的表达可能存在模糊性,生成的语句与知识图谱中的实际实体和关系可能存在偏差。因此,需要借助语义相似度分析,根据知识图谱里的实体和关系,对查询语句中的实体关系进行修改完善。经过修改后,得到可执行的查询语句,放入图数据库中执行。图数据库会根据查询语句检索相关信息,最终把这些检索回来的信息作为参考,提供给大语言模型,帮助其更准确地回答用户的问题。
3. LLM与KG不同的结合方式
我们将上述方法定义为大模型与知识图谱的松耦合方式。大模型将用户的问题进行翻译,一次性将查询交给知识库,检索到相应结果后再用于回答用户问题。另一种是紧耦合方式。在这种方式中,大模型不再仅仅被视为一个翻译工具或最终回答生成器,而是被看作一个智能体。知识图谱则成为这个智能体可以搜索探索的环境和空间。大模型能够在知识图谱的各个信息节点进行判断,并向外延展搜索。例如,分析公司A时,大模型可以依据公司A的关键属性和关系及其相邻实体,进行迭代式搜索。通过这种方式,最终能搜索到更全面、更深入的信息。
4. 思维图谱—Think on Graph
早在2023年,我们就提出了“思维图谱”这一范式。通过一个具体例子可以更好理解:当面临“分析恒大暴雷对中国影视市场有哪些公司会产生影响”这样的问题时,问题比较模糊,并非简单的一跳、两跳或三跳就能解决。若直接写SPARQL查询语句,很难得到全面且准确的答案。而借助思维图谱,我们可以从恒大集团出发,在图谱中逐步推理:先关联到相应的影视基地、影视公司,再进一步延伸到下游的子公司等,最终确定所有可能受到影响的公司。这种紧耦合的方式,通过在图谱中逐层逐步搜索,将相关信息汇聚起来,能更全面、深入地分析问题。这项技术已发表在国际顶尖的人工智能学术会议ICLR 2024上。
5. 思维图谱2.0—Think on Graph 2.0
在成功发表思维图谱1.0后,我们逐渐察觉到知识图谱存在的局限性:知识图谱存储的知识受限于构建时预先定义的schema,且在构建过程中会丢失原始文本中schema以外的文本信息。为了克服这个问题,我们推出了思维图谱2.0。这个版本将知识图谱与更多的文本信息相结合。具体操作是,先从大量信息中构建一个知识图谱,然后利用这个知识图谱反向引导大模型进行迭代式的RAG检索。在检索过程中,充分利用三元组信息、段落信息等,让大模型在推理时像先生成思维导图一样,进行更准确、全面的检索。以恒大问题为例,通过构建思维图谱,能够找到恒大与住建部政策文件之间的关联、与评级公司之间的关联,以及这些政策文件和评级报告里的具体文本内容,从而实现更精准的分析。
6. 知识图谱驱动的大模型推理
我们的技术将知识图谱、大模型和RAG进行了有机结合。具体做法是,用实体去关联每一个文本,并为相应文本添加实体标签。这样,在大模型进行检索时,能够从用户查询语句中的关键实体出发,链接到知识图谱里的实体,还能在与这些实体相关的文档中进行定向检索。这种方式一方面提高了检索效率,让检索方向更加明确;另一方面也支持扩展和多轮检索,能够逐步扩大检索范围,使检索到的信息更加全面。举个例子,当查询某个公司的供应商是否致力于循环利用时,我们可以先捕获该公司有哪些供应商,然后调取这些供应商的ESG报告等相关资料来回答问题。值得一提的是,这项工作入选了今年的ICLR 2025,为知识驱动的金融决策智能体发展提供了有力的技术支撑。
7. 知识图谱对RAG增强的体现
将传统的以文本块为基础的RAG与以知识图谱引导的RAG进行对比,差异很明显。以文本块为基础的RAG在检索层面较为依赖向量数据库,搜索基于文本块与问题向量相似度的计算。而知识图谱连接了实体和相关文本,能实现更全面的信息搜索,运用图推理、图检索的方式,通过实体关系找到更多上下文信息,在解决深度检索场景时具有明显优势。以文本块为基础的RAG往往表现欠佳,当知识库庞大时,容易遗漏关键文本块。知识图谱以图的形式连接分散的知识,并融入图检索算法,通过多次跳跃遍历实体和实体的上下文,可实现更好的深度检索,检索召回率也更高。此外,在引入多跳检索过程中,可通过问题不断检索新知识,并持续改写原问题,在迭代过程中提升检索准确性。
8. 知识图谱构建难题
将知识图谱结合到RAG场景中,建图成本是个显著问题。人工检索方式效率极低且成本高昂;完全依赖自动化构图方法,则会面临可靠性、准确性以及质量检测等方面的挑战。简单说,人工建图速度慢,机器建图结果混乱。针对这个问题,我们利用语言模型(如Bert类型模型和当下的大模型)相互配合,开展实体识别、关系抽取,以及不同实体的消歧和融合,将不同来源的数据进行整合,目标是实现一个完全自动化的流程。实践过程中,不同步骤的效果存在差异:实体抽取只需少量样本学习就能达到较高精度,在金融场景中,金融实体的命名体识别准确率可达95%;实体消歧和知识实体对齐方面,基于大模型和embedding方法,也能将准确率提升到较高水平。但关系抽取是难度最大的环节,使用基础大模型和Bert类模型进行关系抽取,很容易出现遗漏或错误,整体F1值仅能达到0.7左右的水平。关系抽取难题亟待解决,这也是后续需要重点研究和突破的方向。
9. GraphRAG技术
微软在去年6月提出的GraphRAG技术,与我们之前的想法颇为一致,不过在检索层面采用的方法不同。GraphRAG完全依赖大模型进行自动化图谱构建:首先人工定义要抽取的实体类型和关系类型,然后遍历每个文本文档中的段落,自动化地进行实体抽取和关系抽取,初步构建出图谱;接着,运用类似社区检索、聚类的方式,将不同实体划分到不同社区;之后,根据实体相关的文本以及实体的三元组,为实体撰写总结,对于每个社区也会形成相应总结。在推理阶段,GraphRAG会在相应的社区内进行信息召回,同时在相关实体对应的文档里再次召回信息,最后将所有信息汇总形成回答。这种方法在处理需要对大量实体进行对比、进行大范围总结的问题时,效果明显优于普通RAG。但GraphRAG并未解决构图难题:整体建图效率极低,完全依赖大模型API来建图,成本高昂且质量难以保证。此外,每当出现新文本时,实体的上下文和社区包含的文章都会发生变化,需要重新生成实体报告或社区报告,重新构建图谱,维护成本巨大。
10. 语境图谱技术
基于前面的探讨,我们后续提出了语境图谱的概念。在语境图谱中,我们去掉了传统知识图谱里“关系”的概念。这主要出于两方面考虑:其一,一旦明确要抽取哪些关系,就必然会舍弃大量信息;其二,关系抽取难度极大,准确性难以保障。我们认为,无需构建一个完整的知识图谱。不妨将图谱类比为书架,文本则是书。借助图谱,把有关联的知识文本关联起来,形成一个网络。这样就能实现深度检索、全面检索,以及迭代式检索与推理的效果。与GraphRAG相比,语境图谱技术更具扩展性:当有新数据加入时,只需在原有图谱上增添一些边和节点,再将相应文本的位置对应到这些边和节点上即可。
举例来说,传统知识图谱在表示信息时,通常以三元组形式呈现,比如展示恒大集团与各个企业之间的关系。而在语境图谱中,我们摒弃了这种明确关系的定义方式。我们认为,原始数据——无论是文档、表格还是图片——能更全面地反映两个实体之间的关系,无需用一个明确的词语去定义,只需将原始信息的上下文保留即可。而且,当存在不同文本同时描述两个实体之间的关系时,只需把这些文本的索引放在这两个实体之间的边上。这样一来,语境图谱既保留了信息的完整性,又增强了信息之间的关联性。
具体过程为,首先进行实体抽取,与GraphRAG类似,从每个段落中抽取实体,但后续操作不同。我们没有进行关系抽取,而是统计实体与实体之间的共现记录,以此构建一张实体共现关系的图谱。关于边,由于明确知道两个实体共同出现在某个段落中,我们便将该段落在向量数据库中的索引映射到图数据库中这两个实体之间的边上。实际上,整体结构是图数据库与向量数据库的耦合。
这种语境图谱技术具有轻量化的特点。与GraphRAG不同,它无需进行改写和总结操作,只需保存索引,无需保存原文,存储效率极高。对比语境图谱技术与GraphRAG,在整体构建速度方面,语境图谱提升了约200倍,资源消耗约为GraphRAG的0.5%。在与用户交互展示问答过程时,语境图谱技术可以展示检索了哪些实体相关的上下文,并以图的形式呈现内容中实体与实体之间的联系以及实体相关的上下文。
为了验证有效性,我们在真实场景和学术场景中都进行了测试。在学术场景中,选用了一些公开的多跳检索问答数据集,与传统RAG方法对比,检索准确率提高了10%以上。在真实场景中,与某头部数字人公司开展了测试和POC,通过人工检验发现,与当前大厂的知识库问答API相比,整体回答的良品率提升了约15%。
11. 语境图谱 vs GraphRAG
在图谱构建方面,GraphRAG需要预先构建一个完整的图谱,并人工预先定义明确的关系,耗时费力,还可能在定义关系时遗漏重要信息。语境图谱技术则更加灵活,可以按需构建图谱并动态扩展,无需人工定义复杂关系,只需保留简单的共性关系。在资源消耗方面,GraphRAG在索引、检索和存储时都需要大量计算资源和内存,而语境图谱技术在计算和存储上的成本都较低,性价比更高。在检索策略上,GraphRAG主要直接遍历语境图谱,方式相对固定,而语境图谱可以根据用户查询,动态选择深度优先或广度优先搜索策略,更加智能灵活。此外,GraphRAG目前仅支持文本数据构建,应用场景有限,而我们对语境图谱的规划是未来将其扩展到多模态数据,如图像、音频等。
金融场景应用
1. 经济超脑
前文提到的思维图谱和语境图谱技术已切实落地到实际应用中,虽尚未形成完整产品,但已有不少客户在实际使用。以我们打造的经济超脑系统为例,无论是金融机构还是政府部门,都能借助该产品进行信息检索、数据展示以及研报辅读。该系统的独特之处在于,会运用前述技术构建一个思维脑图。在检索过程中,涉及图的扩展,会生成思维导图;检索结束后,以可视化形式将思维导图展示给用户。这样用户能清晰看到大模型在分解问题时从哪些角度分析,又是从哪些要点进行检索和信息召回的。在研报辅读方面,同样可采用类似处理方式,利用思维导图结构对研报进行整体总结,针对用户提出的问题形成思维分析。
2. Alpha-GPT 自动化因子挖掘系统
除了常见的问答、文档辅读场景,我们在量化投资的自动因子挖掘领域也进行了特色尝试。在量化投资中,寻找具有Alpha的因子是关键步骤,这些因子通常可用符号化公式或代码表达式表示。我们内部拥有大量Alpha因子及其描述,且这些因子之间存在关联——比如某个因子C可能是在因子A和B的基础上结合而来,它们本身就能形成图谱结构。基于此,我们希望大模型能够根据用户指令合成所需因子。具体过程为:通过图谱和向量检索,将相关因子检索回来,让大模型自发进行因子合成。在合成过程中,大模型会参考已有因子关系,为新因子的合成提供方向指引。与传统遗传规划的因子生成方式相比,这种方式更具目标导向性,效率更高。生成因子后,我们会进行计算和回测评估效果。因子表现不佳则丢弃或作为反思数据;表现良好则加入新的因子库,不断迭代,持续产生更多优质Alpha因子。值得一提的是,基于这套系统,我们在2024年的WorldQuant世界量化金融建模大赛中取得了优异成绩,获得中国区第二名、全国第三名(因第一名必须为人类,非自动化工具)。
未来方向
从数据层、模型层和应用层三个层面展望未来工作。
1. 多模态金融知识融合、推理和生成
在数据层,图谱形式整合多模态数据是关键。我们可以以实体和概念为核心,将文本、图表、视频、图片等不同类型的数据,只要与实体相关,就建立与实体的连接,通过核心实体图谱将多模态信息关联起来。不过,这一过程中需要解决一些问题:如何实现多模态对齐,怎样从不同模态中抽取实体,以及面对检索到的不同模态信息——如曲线图、折线图、文本、表格——多模态分析大模型该如何处理。实际上,我们在这方面已有相关研究,相关成果作为Oral paper发表在今年的ICLR 2025会议上。除了多模态数据作为输入进行分析,另一个值得探索的方向是如何生成多模态数据,比如生成一份完整报告,其中包含不同图表、表格、文字甚至图片。通过图谱结合多模态大模型与智能体的架构,可以实现这一目标。
2. Agentic 金融系统
从模型层面来看,我们将致力于实现模型的智能化,不再仅仅将大模型视为生成模型,而是将其打造成真正的智能体。近期,在Athropic的MCP协议等推动下,智能体发展迅猛,今年已被公认为智能体爆发元年。与传统大模型智能体相比,新型智能体不仅能生成语言,更能交付完整产品。在执行过程中,它能根据用户意图进行规划、执行,调用不同工具,并对结果和生成内容进行反馈、反省,持续迭代,直至生成优质结果——无论是完整文档还是交易策略,而非简单的文本段落。在技术实现上,以多模态大模型作为智能体核心,采用强化学习作为训练方法。我们可以把市场上真实有效的多模态数据,通过多模态动态图谱组织起来,让该图谱充当Multi-Agent系统中环境的一部分,从而实现端到端的复杂任务建模。此外,借助图谱的因果链分析、关系链分析,以及大模型内部的注意力可视化技术,在生成过程中生成引用,能让整个决策更具可解释性和可追溯性,一定程度上降低黑箱决策风险。尤为关键的是,要将人的因素融入其中,实现Human in the loop,支持在不同阶段进行人为干预,在关键节点自动请求人类介入和确认,既保留AI的效率,又确保人类的最终决策权。
3. 决策型应用场景
从应用场景的角度来看,随着大模型、Agent技术及图谱在多模态化方面取得显著进展,以及准确性的实质性提升,我们迎来了一个从当前以金融服务场景为主,向更广泛的决策性应用场景拓展的契机。决策性应用场景涵盖投资决策、风险管理、企业财务运营以及金融产品设计等多个关键领域。在这些场景中,大模型将有机会充分展现其超越人类的能力,而不仅仅作为辅助人类决策的“副驾驶”。在投资决策中,大模型能凭借强大的数据处理和分析能力,为投资者提供更精准的市场预测和策略建议;在风险管理方面,大模型可以实时监测市场动态,及时发现潜在风险;在企业财务运营中,大模型能够优化资源配置,提升运营效率;而在金融产品设计领域,大模型则能激发创新思维,推动产品迭代升级。因此,在知识驱动的金融决策智能体框架下,大模型在决策性应用场景中将发挥更重要的作用。
4. 未来展望
在金融AI场景中,我们认为未来图谱可作为核心元素。它能把零散的多模态信息交织成网络,为智能体构建复杂任务模型提供支持。同时,图谱还能提升解释性和推理准确性,让大模型充分发挥其强大能力,助力我们做出更优质的金融决策。
Q&A
Q1:思维导图的形成是基于图查询的形式,还是基于RAG结果,亦或是基于大模型COT结果生成的呢?
A1:思维导图的形成并非让大模型直接生成,因为这种方式幻觉程度较高。我们采用的是迭代式过程。以“恒大集团爆雷有哪些端倪,有哪些公司存在同样问题”为例,首先围绕恒大集团找出关联实体。通过分析这些实体与恒大集团相关文本和问题的相关性,排除不相关节点。若发现住建部与恒大集团相关文本和问题相关性更大,就将住建部列为重点考虑对象。通过这一过程,从恒大集团扩展到住建部、穆迪评级等关联实体,完成思维图谱的第一层级。接着,以住建部、恒大集团为起点,继续向相关实体展开,形成第二层级。我们是结合RAG和图谱结构,迭代地逐渐形成思维导图,检索和思维导图形成是交替进行的过程,类似Agent机制。
Q2:在发散搜寻与问题相关的本地非结构化文件来补充信息时,如何实现快速召回?
A2:我们借助向量相似度进行判断。以恒大集团为例,在第一轮检索中,仅在与恒大集团及其相关实体带有标签的文档里搜索。那些既没有恒大集团标签,也没有相关实体标签的文档,在第一轮检索时就会被排除在文档池之外。检索方式是将向量数据库、标签检索和关键词检索相结合。这其实是传统RAG的一种应用,只不过采用迭代式方式,并借助图谱中实体的连接来进行引导,从而实现更精准、高效的信息召回。
Q3:图谱建模过程不进行关系抽取,这是为什么呢?
A3:在整个建图过程中,我们实际上只需要建模实体间的共现关系。无需明确两个实体之间是股东关系还是竞争对手关系等具体关系类型,只需将相应文本块在向量数据库中的索引放置到图的边上。当后续需要分析两个实体之间的关系时,能快速召回描述它们关系的所有文本。这种方式省去了关系抽取这一难度大、精确度低且容易造成信息损失的过程。而且扩展性极强:有新段落出现时,只需在新段落中进行实体抽取,与原有图谱中的实体进行匹配,判断是否需要为段落添加标签或新增实体扩充到图谱中。
Q4:在给定句子中若存在两个实体,是否需要找出这两个实体之间的所有节点呢?
A4:当问句里提到多个实体时,处理方式是从多个实体同时出发。多数情况下问题可能以一个实体为核心,但也会遇到包含多个主体实体的情况。比如若问题涉及恒大集团和融创的对比,可以同步从恒大集团和融创的图结构关系往外搜索,最终可能形成两个不同的思维导图,中间往往会有交集。我们并非直接去找两个实体之间的所有关系,因为若图谱规模较大,这种搜索方式成本较高。
Q5:Think On Graph的商业模式是什么?
A5:这项技术本质上属于底层技术。首先,它能迭代现有的RAG知识库问答API,为本地化知识库架构提供新的标准文档。目前,我们已经与一些头部数字人公司展开合作,应用于他们的客服数字人项目——在数字人项目中,针对用户问题生成答案的模块正是采用我们这套系统。此外,这项技术还可用于经济分析产品的开发,甚至应用于量化因子挖掘领域。由于最初是一家研究机构,本次分享更多是从技术角度介绍相关应用场景,与WarrenQ这类成熟完善的产品相比,可能存在一定差异。
Q6:在不抽取关系,而是通过向量来决定关系关联性高的情况下,应该如何选择搜索的深度和广度策略?
A6:关于关系关联性高低的判断,一部分基于向量化,另一部分基于关键词字符的匹配,以此决定文本段与问题的相关性,这是与RAG相结合的方法。至于搜索的深度和广度策略,我们运用了图检索技术,准确说是Beam search的过程。在Beam search中,可以人工定义搜索的最大宽度和最大深度,或者让大模型一开始进行识别。大模型会判断问题是偏向宽泛还是偏向深度的关系检索。例如,若问题关于一个公司的股权结构,显然比较深入,可以自适应调高Beam search中的最大搜索深度;若问题很宽泛,比如研究某个行业需要关注所有龙头企业,则更注重搜索宽度,会自动调高宽度的阈值参数。
Q7:预训练有用到CLIP方面的探索吗?
A7:CLIP是一个多模态检索模型,在目前介绍的图谱技术中尚未应用到。不过后续有这样的发展规划:若要将多模态信息融入其中,比如引入图片,图片也能以向量化形式呈现,那么CLIP的相关技术就可以派上用场。在我们开展多模态处理与理解工作时,CLIP可以作为前置的视觉编码器部分,负责处理视觉信息并将其向量化。就像之前专门做图表分析的多模态大模型,其前置的视觉编码器同样采用了CLIP。
Q8:关于graph guide检索,能详细讲解它是如何实现比GraphRAG高效那么多的吗?
A8:很关键的一点是,GraphRAG的整个流程主要依赖大模型的Zero-shot、Few-shot以及In-context learning能力,来完成知识图谱的抽取、信息的汇总总结,甚至形成报告等任务。由于既要抽取,又要做信息汇总,还要进行社区检测以及社区总结,所有工作都由大模型完成,所以整体速度非常慢。而我们的方法简化了问题,只需要做实例抽取、向量化表示,以及共现关系的记录和计算。在这个过程调用的模型主要是Bert级别的,比如在做命名实体识别时使用了自己研发的UniEX模型——这个模型在ACL上发表过,具有很强的扩展性和高效性,能很好地完成实体抽取任务。向量数据库方面使用的也是Bert级别的模型。因此在速度和效率方面,主要差异就在这里。
Q9:在多模态金融知识图谱中,多模态信息是如何被引入图谱结构中的?
A9:在我们构建的知识图谱中,核心要素是实体,实体之间相互关联。目前已经实现了将文档信息融入图谱结构:当同一个文档提及两个实体时,将该文档在数据库中的索引添加到这两个实体之间的边上。对于多模态信息,同样可以采用类似方法处理。例如表格中不同列包含不同企业的对比信息,可以利用OCR技术抽取与实体相关的信息。如果图表是在对比两家企业,那么这张图表就与这两家企业都相关。同时,还可以将图片进行embedding存储,转化为向量形式。这样图片信息就可以像文本信息一样被融入整个知识图谱中。通过这种方式,能够将不同模态的数据全部纳入数据结构。在检索方面也可以采用类似方法:对于文档检索,使用通用embedding模型;对于多模态检索,特别是金融领域的多模态数据,可能需要使用专业的模型,如CLIP或其他多模态解码模型。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。