新闻中心

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

2023-10-24
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

meta fair 和 samaya ai 团队利用 ai 提高维基百科的可验证性

编辑 | 白菜叶

可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。

在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。

这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中学习。通过众包,研究人员观察到,对于最有可能被该系统标记为无法验证的前 10% 的引用,与最初引用的参考文献相比,人们在 70% 的情况下更喜欢该系统提供的替代方案。

为了验证该系统的适用性,研究人员构建了一个演示来与英语维基百科社区互动,发现根据 SIDE 的说法,对于相同的前 10% 最有可能无法验证的声明,SIDE 的首次引用推荐的首选频率是现有维基百科引用的两倍。结果表明,基于人工智能的系统可以与人类一起使用,以提高维基百科的可验证性。

该研究以「Improving Wikipedia verifiability with AI」为题,于 2025 年 10 月 19 日发布在《Nature Machine Intelligence》。

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

维基百科是访问量最大的网站之一,每年的页面浏览量达到五万亿,是当今最重要的知识来源之一。因此,维基百科上的知识几乎都是可验证的,这一点至关重要:维基百科用户应该能够使用可靠的外部来源查找并确认维基百科上的声明。为了促进这一点,维基百科文章提供了指向支持该主张的背景材料的内联引用。质疑维基百科声明的读者可以遵循这些指示并自行验证信息。

然而,在实践中,这个过程可能会失败:引文可能并不包含受质疑的主张,或其来源可能值得怀疑。这样的说法可能仍然是正确的,但细心的读者无法轻易地用引用来源中的信息来验证它们。假设维基百科的说法是真实的,其验证过程分为两个阶段:(1)检查现有来源的一致性;(2)如果失败,则寻找新的证据。

如上所述,维基百科声明的验证需要对语言的深入理解和对在线搜索的掌握。机器可以在多大程度上学习这种行为?从基础人工智能进展的角度来看,这个问题很重要。例如,验证需要能够检测自然语言中的逻辑蕴涵,并将主张及其上下文转换为寻找证据的最佳搜索词——这两个长期存在的问题主要在某种程度上的综合环境中进行了研究。

从实际角度来看,这同样重要。机器验证器可以帮助维基百科编辑标记哪些引文可能会触发失败的验证,并建议用什么来替换引文,以防它们当前不支持各自的主张。这可能很重要:搜索潜在证据并仔细阅读搜索结果需要时间和大量的认知努力。将人工智能助手集成到这个过程中可能有助于减少这两种情况。

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

短影AI 短影AI

长视频一键生成精彩短视频

短影AI 170 查看详情 短影AI

图示:SIDE概述。(来源:论文)

在最新的工作中,Samaya AI 和 Meta FAIR 的研究人员开发了 SIDE,一个基于人工智能的维基百科引文验证器。SIDE 在 Wikipedia 上发现根据当前引文可能无法验证的声明,为此,扫描网络快照以寻找替代方案。

它的行为是通过维基百科本身来学习的:使用精心策划的英语维基百科声明及其当前引用的语料库,研究人员训练(1)一个检索器组件,将声明和上下文转换为经过优化的符号和神经搜索查询,以在网络规模的语料库中查找候选引用;(2) 一个验证模型,根据现有的和检索到的引文验证给定声明的可能性进行排名。

该团队使用自动指标和人工注释来评估他们的模型。为了自动测量该系统的准确性,他们检查了 SIDE 在高质量文章中恢复现有维基百科引用的情况(如维基百科特色文章类所定义)。

研究人员发现,在近 50% 的情况下,SIDE 会准确返回维基百科中使用的源作为其最佳解决方案。值得注意的是,这并不意味着其他 50% 是错误的,只是他们不是当前的维基百科来源。

该团队还测试了 SIDE 作为引文助手的能力。在用户研究中,他们将现有的维基百科引用放在 SIDE 生成的引用旁边。然后,用户评估所提供的引文在多大程度上支持该主张,以及来自 SIDE 或维基百科的哪个引文更适合验证。

总体而言,超过 60% 的时间用户更喜欢 SIDE 的引用而不是维基百科的引用,当 SIDE 将非常低的验证分数与维基百科的引用相关联时,这一比例会增加到 80% 以上。

论文链接:https://www.nature.com/articles/s42256-023-00726-1

以上就是Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性的详细内容,更多请关注其它相关文章!


# 程度上  # 安陆抖音seo外包  # 推广策划网站  # 淘特网官方网站推广电话  # 动画片怎么营销推广好  # 网站优化电池推荐店铺  # 教培行业营销推广哪家好  # 丹东seo助手哪个便宜  # 嵊州网站推广营销  # 朝阳网站建设优化选哪家  # 百度关键词排名监控工具  # 产业  # 个月  # 转换为  # 首款  # 英语  # 最有  # 多大  # 很重要  # 将于  # 维基百科 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 360f4怎么取消百变壁纸  db2命令中如何去到指定的副本  对象数组怎么用j*a  typescript和哪个语音很像  比亚迪秦nfc功能是什么意思  主板如何禁用固态硬盘  苹果16更新了哪些功能  如何使用程序编译 执行的命令  自己如何安装固态硬盘  put linux命令如何书写  显卡上面TYPE-C是什么接口  阿里云盘修复工具怎么用  苹果16关闭哪些功能好  unix时间戳转换公式  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  如何让固态硬盘坏掉  如何用命令行连接本地数据库  sausage是什么意思  360手机壁纸怎么改  在遥控器中power是什么意思  xdm是什么意思  夸克网盘下载为什么要钱  市盈率ttm市盈动静是什么意思  爱玛电动车power模式是什么意思  双十一哪一天买比较便宜?  华为5g手机怎么用4g网络  微波炉power中文是什么意思  怎么把手机里爱奇艺的视频下载到u盘里  如何以管理员身份打开cmd命令行窗口  苹果16颜色有哪些  喇叭上标的power30w是什么意思  为什么有的夸克带电  苹果16都有哪些型号  typescript中范围如何设定  新三板市盈率是什么意思  j*a数组怎么存满  33000日元等于多少人民币  华为交换机如何复制命令行  三星相机里power是什么意思  如何更新苹果ios16  如何在命令行写j*a程序  如何引用typescript中的方法  grub命令如何进dos  如何退出数据库命令行  固态硬盘如何测试  python如何命令行换行  typescript怎么加号  基金市盈率是什么意思  苹果16系统有哪些缺陷  硬件如何执行命令 

搜索