新闻中心

参照人类大脑,学会忘记会让AI大模型变得更好?

2024-03-12
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

参照人类大脑,学会忘记会让AI大模型变得更好?

最近,一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型,它们具有周期性遗忘已知信息的能力,这是现有大型语言模型所不具备的特点。

实测表明,在很多情况下,“忘却法”的训练效率很高,忘却型模型表现也会更好。韩国基础科学研究院(Institute for Basic Science)的AI工程师Jea Kwon说,新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数,它们之间相互连接,接收和传递信息,通过多层神经元的复杂运算来实现数据处理和学习。神经网络的这种模拟方式使得AI能够模拟人类大脑的工作方式,从而实现类似人类的智能行为。

最开始时信息流或多或少都是随机的,当网络不断与训练数据匹配,神经元之间流动的信息会不断优化。例如,如果研究人员想训练一个双语翻译模型,它首先要收集海量双语文本,用文本训练模型,它会调整神经元之间的连接,将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练需要大量计算资源。如果模型性能不佳,或者用户需求发生变化,模型可能无法满足需求。

研究人员Mikel Artetxe指出:“假设你有一个包含100种语言的模型,但其中有一种语言没有被包括进去。如果想要将这种语言加入模型,就必须重新进行训练。”

几年前,Artetxe和同事用1种语言训练神经网络,他们抹去神经网络所知的单词组成信息,也就是所谓的“Tokens”。Tokens存储在神经网络的第一层,它也叫“嵌入层”。对于其它层,不去理睬。抹去第1语言的Tokens之后,用第2种语言训练,第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息,但仍然可以用第2种语言重新训练,也就是说模型可以学习、处理第2种语言。研究人员认为,虽然嵌入层存储了第2种语言的语汇特殊信息,但神经网络更底层存储了抽象信息,它涉及到人类语言的幕后概念,正是这些概念帮助模型学习第二种语言。

研究报告作者陈一红认为:“我们生活在同一个世界,用不同语言的词汇来表达相同的概念。因此,在模型中会有相同级别的推理,比如一个苹果,它是甜的、美味的,它代表着不止是一个词汇。”

将新语言添加到已训练模型中,采用“忘却法”效率很高,尽管如此,还是需要重新训练,仍然需要海量数据和强大的处理能力。有没有更好的办法?当然有,不需要训练,直接抹去嵌入层,然后再训练,也就是在初步训练时周期性重置嵌入层。

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara

Artetxe称:“如此一来,整个模型就能适应重置。如果你想扩展模型,让它适应另一种语言,过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验,采用周期性忘却技术训练,将它与那些用标准、非忘却方法训练的模型作比较。结果发现,在处理第1种语言时,忘却型模型得分85.1分,传统标准模型得分86.1分。再用第2种语言训练,只用约500万Tokens(第一种语言用了700亿)训练,忘却型模型的精准度得分降至62.7分,标准模型降到53.3分。

再训练时如果研究人员施加计算限制,忘却型模型的表现会更好。例如,当研究人员将训练长度从125000步短到5000步,忘却型模型的平均得分约为57.8分,标准模型降到37.2分,几乎和猜测差不多。

因此研究人员得出结论:在学习语言时,忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为:“因为模型在训练时不断忘却,然后再重新学习,所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示,模型理解语言时会从更深层次着眼,不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为:“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点,记住抽象信息,而且擅长推断。让AI像人类一样处理信息,比如让它具备忘却能力,AI也许会更有弹性。“

Yihong Chen认为,未来也许会出现制造语言模型的工厂,这样的工厂需要忘却型技术,它是一个基本模型,可以快速适应新领域。(小刀)

以上就是参照人类大脑,学会忘记会让AI大模型变得更好?的详细内容,更多请关注其它相关文章!


# ai大模型  # 江西互联网营销推广价钱  # 太原网站seo优化  # ssr服务器做seo  # 营销推广方案的内容包括  # 通州网站推广优化外包  # 英文网站设计建设方案  # 让它  # 魁北克  # 日韩  # 它是  # 都能  # 抹去  # 是一个  # 会让  # 很高  # 新能源  # follow  # 人工智能  # 横沥光龙网站建设  # 房产网站建设培训中心  # 网站社区优化建议  # 专业seo优化深圳 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 苹果16更新了哪些功能  固态硬盘如何安装win10系统安装  春运抢票失败怎么抢  丰田type-c接口是什么  焊机上power指示灯亮是什么意思  typescript如何使用viewer  市盈率高是什么意思  360手机壁纸怎么改  固态硬盘如何打开软件  typescript是做什么用的  夸克网盘是什么都有吗  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  power在录音笔上是什么意思  如何进入 dos 命令行  m*en repository的作用是什么  虽千万人吾往矣什么意思  j*a怎么复制数组中  win7如何打开命令行窗口  固态硬盘如何测试  夸克转存中是什么意思  春运抢票需要抢几天  新三板市盈率是什么意思  16苹果有哪些机型  买的5g手机但是没有5g网络怎么办  win7怎么装扫描仪  typescript掌握哪些可以做项目  typescript与es6学哪个  服务器系统怎么装  360n4怎么关闭锁屏壁纸  为什么youtube音乐打不开  如何用命令下载服务器网站  苹果手机16有哪些功能  三星 nfc什么功能是什么意思  linux如何使用db2命令  如何去掉拍电脑的纹路详细教程  春运抢票还用取票吗  电脑显示器上power是什么意思  苹果16有哪些黑科技  学typescript要求什么  typescript变量是什么  j*a怎么让数组倒换  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  安装固态硬盘如何设置  树莓派命令行如何新建文件  python和typescript学哪个  车子上面nfc功能是什么意思  手机nfc功能功能是什么意思  如何使硬盘升级固态硬盘  j*a怎么求数组均值  为什么学typescript 

搜索