新闻中心

理解GraphRAG(一):RAG的挑战

2024-04-30
浏览次数:
返回列表

rag(risk assessment grid)是一种通过外部知识源增强现有大型语言模型(llm)的方法,以提供和上下文更相关的答案。在rag中,检索组件获取额外的信息,响应基于特定来源,然后将这些信息输入到llm提示中,以使llm的响应基于这些信息(增强阶段)。与其他技术(例如微调)相比,rag更经济。它还有减少幻觉的优势,通过基于这些信息(增强阶段)提供额外的上下文——你rag成为今天llm任务的(如推荐、文本提取、情感分析等)的流程方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

理解GraphRAG(一):RAG的挑战

如果我们进一步分解这个想法,根据用户意图,我们通常会查询一个向量数据库。向量数据库使用连续的向量空间来捕捉两个概念之间的关系,使用基于接近度的搜索。

向量数据库概述

在向量空间中,无论是文本、图像、音频还是任何其他类型的信息,都被转换为向量。向量是数据在高维空间的数值表示。每个维度对应数据的一个特征,每个维度中的值反映了该特征的强度或存在。 通过向量表示,我们可以对数据进行数学运算、距离计算和相似度比较等操作。不同维度对应的值反映了该特征的强度或存在与否。 以文本数据为例,可以将每个文档表示为一个向量,其中每个维度表示一个单词在文档中的出现频率。这样,两个文档可以通过计算它们的向量之间的距离来

在数据库中进行基于接近度的搜索,涉及并使用另一个向量查询这些数据库,并搜索在向量空间中“接近”它的向量。向量之间的接近度通常由距离度量来确定,例如欧几里得距离、余弦相似度或曼哈顿距离。向量之间的接近度通常由距离度量来确定,例如欧几里得距离、余弦相似度或曼哈顿距离。

当您在向数据库中执行搜索时,您提供了一个系统将其转换为向量的查询。然后数据库计算该查询向量与数据库中已存储的向量之间的距离或相似性。接近查询向量的向量(根据所选择度量)被认为是最相关的结果。这些最接近查询向量的向量(根据所选度量)被认为是最相关的结果。

基于接近度的搜索在向量数据库中特别强大,适用于推荐系统、信息检索和异常检测等任务

这种方法使系统能够更直观地运行,并通过理解数据中的上下文和深层含义,更有效地响应用户查询,而不仅仅依赖于表面匹配。

然而,在应用程序连接到数据库进行高级搜索方面存在一些限制,例如数据质量、处理动态知识的能力以及透明度。

RAG的限制

根据文档的大小,RAG大致分为三类:如果文档很小,可以上下文访问;如果文档很大(或有多个文档),在查询时生成较小的块,这些块被索引并用于响应查询。

尽管取得了成功,RAG也有一些缺点。

衡量RAG性能的两个主要指标是困惑度和幻觉,困惑度代表在文本生成过程中同等可能的下一个词的选择数量。即语言模型在其选择上的“困惑”程度。幻觉是AI做出的不真实或想象的陈述。

虽然RAG有助于减少幻觉,但它并没有消除它。如果您有一个小而简洁的文档,您可以减少困惑度(因为LLM的选择很少),并减少幻觉(如果您只询问文档中的内容)。当然,另一方面是,一个单一的小文档会导致一个微不足道的应用。对于更复杂的应用,您需要一种提供更多上下文的方法。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

例如,考虑单词“bark”——我们至少有两个不同的上下文:

树的上下文:“橡树粗糙的树皮保护它免受寒冷。”

狗的上下文:“邻居的狗每当有人经过他们的房子时,都会大声叫。”

提供更多上下文的一种方法是将RAG与知识图谱结合(一个GRAPHRAG)。

在知识图谱中,这些单词将与它们相关的上下文和含义连接起来。例如,“bark”将与代表“树”和“狗”的节点连接。其他连接可以指示常见动作(例如,树的“保护”、狗的“制造噪音”)或属性(例如,树的“粗糙”、狗的“响亮”)。这种结构化信息允许语言模型根据句子中的其他单词或对话的总体主题选择适当的意义。

在接下来的部分中,我们将看到RAG的局限性以及GRAPHRAG如何解决这些局限性。

原文标题:Understanding GraphRAG – 1: The challenges of RAG

原文作者:ajitjaokar

以上就是理解GraphRAG(一):RAG的挑战的详细内容,更多请关注其它相关文章!


# rag  # 贴心的嘉兴专业网站建设  # 广州房地产seo技巧  # seo网页内部链接  # 长沙html5网站建设  # 绍兴网站建设及推广  # 网站建设全流程模板  # seo做网站答辩  # 西工移动营销推广  # 小红  # 开源  # 转换为  # 将与  # 胡言乱语  # 才华横溢  # 欧几里得  # 曼哈顿  # 数据库中  # 文档  # follow  # llm  # 开福区线上营销推广品牌  # 合肥网站建设维护 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: j*a中如何创建列表数组  j*a数组怎么放字符  哪里要用typescript  东芝固态硬盘如何保修  为什么要用typescript6  如何使用程序编译 执行的命令  抖音GMV是什么_抖音GMV是什么意思  i5 6500怎么装win7  单片机*计步器怎么用  多少毫安的充电宝可以带上飞机  光刻机的分类及特点  苹果16有哪些改善  春运抢票哪个城市好抢  面包车收音机power是什么意思  typescript解决了什么  为什么夸克运行不了  广东春运几点抢票  如何辨别固态硬盘坏块  阿里云盘扩容工具怎么用  j*a怎么创建json数组  j*a数组怎么存满  高市盈率是什么意思  typescript干什么的  显卡上面TYPE-C是什么接口  怎么在项目中使用typescript  摩托车上power是什么意思  j*a二数组怎么创建  苹果16系统网站有哪些  如何以管理员身份打开命令提示符  固态硬盘如何显示  苹果16更新了哪些版本  为什么youtube音乐打不开  复制 命令如何撤销  如何检测固态硬盘温度  typescript和es6先学哪个  远程桌面如何发送命令  折叠屏手机为什么凉凉  春运抢票软件哪个好  征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程  手机全功能type-c接口是什么意思  固态硬盘如何装入机箱  路亚竿上的power是什么意思  课程伴侣登不上怎么办  nfc功能是什么意思怎么开启  进口超级维特拉三门版power是什么意思  win10如何打开dos命令窗口大小  学typescript有什么用  市盈率估值1stdv是什么意思  什么是base64  unix时间戳是什么意思 

搜索