新闻中心

投机采样会损失大语言模型的推理精度吗?

2024-08-09
浏览次数:
返回列表

mitchell stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 lookahead decoding、rest、medusa 和 eagle,投机采样显著加快了大型语言模型 (llm) 的推理过程。

一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。

标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。

数学证明

投机采样公式可以定义如下:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

投机采样会损失大语言模型的推理精度吗?

其中:

  • ? 是从均匀分布中采样的实数。
  • 投机采样会损失大语言模型的推理精度吗?是要预测的下一个token。
  • ?(?) 是草稿模型给出的下一个token分布。
  • ?(?) 是基础模型给出的下一个token分布。

为简单起见,我们省略了概率条件。实际上,? 和 ? 是基于前缀token序列 投机采样会损失大语言模型的推理精度吗?的条件分布。

以下是 DeepMind 论文中关于该公式无损性的证明:

投机采样会损失大语言模型的推理精度吗?

如果你觉得阅读数学方程式太枯燥,接下来我们将通过一些直观的图表来说明证明过程。

这是草稿模型 ? 和基础模型 ? 的分布示意图:

投机采样会损失大语言模型的推理精度吗?

图1:草案模型p和基础模型q输出分布的概率密度函数

需要说明的是,这只是一个理想化的图表。在实践中,我们计算的是一个离散分布,它看起来像这样:

投机采样会损失大语言模型的推理精度吗?

图2:语言模型预测词汇集中每个token的离散概率分布,蓝色条来自草稿模型,红色条来自基础模型。

然而,为了简单和清晰起见,我们使用它的连续近似来讨论这个问题。

现在的问题是:我们从分布 ? 中采样,但我们希望最终结果就像我们从 ? 中采样一样。一个关键思想是:将红色区域的概率搬运到黄色区域:

投机采样会损失大语言模型的推理精度吗?

图3:接受和拒绝采样的区域

目标分布 ? 可以看作是两部分的总和:

I. 校验接受

该分支中有两个独立事件:

  1. 在草稿分布 ? 上采样产生特定token ?。概率为 ?(?)
  2. 随机变量 ? 接受该token ?。概率为:投机采样会损失大语言模型的推理精度吗?

将这些概率相乘:投机采样会损失大语言模型的推理精度吗?

投机采样会损失大语言模型的推理精度吗?

图4:将蓝线和红线相乘,结果是图6中的绿线

II. 校验拒绝

该分支中也有两个独立事件:

  1. ? 拒绝了 ? 中的某个token,概率为: 投机采样会损失大语言模型的推理精度吗?

这是一个积分值,数值与特定token x 无关

  1. 在分布 ?−?(的正数部分)上采样产生特定token ?,概率为:

投机采样会损失大语言模型的推理精度吗?

其分母作用是对概率分布进行归一化,以保持概率密度积分等于 1。

两项相乘,第二项的分母被约掉:

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

max(0,?(?)−?(?))

投机采样会损失大语言模型的推理精度吗?

图5. 该图中的红线与绿线对应函数相乘,结果等于图6中的红线

为什么拒绝概率恰好可以归一化max(0,?−?) ?看起来似乎是巧合,这里一个重要的观察是,图 3 中红色区域的面积等于黄色区域的面积,因为所有概率密度函数的积分都等于 1。

将I, II两部分相加: 投机采样会损失大语言模型的推理精度吗?

最后,我们得到了目标分布 ?。

投机采样会损失大语言模型的推理精度吗?

图6. 绿色区域与红色区域相加,正好等于黄线以下的面积

而这正是我们的目标。

实验

尽管我们已经从原理上证明了投机采样是无损的,但算法的实现仍然可能存在bug。因此,实验验证也是必要的。

我们对两种情况进行了实验:贪婪解码的确定性方法和多项式采样的随机方法。

贪婪解码

我们要求 LLM 生成两次短篇故事,首先使用普通推理,然后使用投机采样。两次采样温度均设置为 0。我们使用了 Medusa 中的投机采样实现。模型权重为 medusa-1.0-vicuna-7b-v1.5 及其基础模型 vicuna-7b-v1.5。

测试运行完成后,我们得到了两个精确相同的结果。生成的文本如下:

User: Please tell a tale about a cyperpunk knight named PPIO keeps a charming llama as his pet.

Assistant: Once upon a time, in a world where technology had advanced beyond our wildest dreams, there lived a cyberpunk knight named PPIO. PPIO was a skilled warrior, with advanced cybernetic enhancements that g*e him incredible strength and speed. He was also a man of great honor, always striving to do what was right and just.

One day, while out on a mission, PPIO stumbled upon a beautiful llama. Despite being a cybernetic being, PPIO had a soft spot for animals and he couldn't resist rescuing the llama from whatever danger it may h*e been in. From that day on, the llama followed PPIO wherever he went, and the two became fast friends.

The llama, whose name was Llama-ella, was a special llama. It had a unique ability to sense when someone was in danger and would let out a loud, distinctive call to alert them to the danger. PPIO was grateful for Llama-ella's ability and the two became an unstoppable team.

Together, PPIO and Llama-ella took on all sorts of challenges, from battling cybernetic villains to rescuing innocent people from harm. They were a force to be reckoned with, and their br*ery and honor were an inspiration to all who knew them.

多项式采样

在随机采样的情况下,情况更加复杂。大多数在随机程序中重现结果的方法都使用固定的随机种子来利用伪随机生成器的确定性。但是,这种方法不适合我们的场景。我们的实验依赖于大数定律:如果有足够的样本,则实际分布与理论分布之间的误差将收敛于零。

我们编制了四个提示文本,对LLM在每个提示下生成的首个token进行了 1,000,000 次投机采样迭代。使用的模型权重为 Llama3 8B Instruct 和 EAGLE-LLaMA3-Instruct-8B。统计结果如下所示:

@@##@@

@@##@@

@@##@@

@@##@@

  • 蓝色:来自基础模型输出 logits 的 softmax
  • 绿色:来自草稿模型输出 logits 的 softmax
  • 橙色:来自投机采样(1,000,000 次)的首个token计数占比

基础模型输出结果与采样分布之间的标准差为 9.694e-5。符合预期。

结论

投机采样不会损害大型语言模型的推理精度。通过严格的数学分析和实际实验,我们证明了标准投机采样算法的无损性。其中数学证明说明了投机采样公式如何保留基础模型的原始分布。我们的实验,包括确定性贪婪解码和概率多项式采样,进一步验证了这些理论发现。贪婪解码实验在使用和不使用投机采样的情况下产生了相同的结果,而多项式采样实验表明,在大量样本中,token分布的差异可以忽略不计。

这些结果共同证明,投机采样可以显着加快 LLM 推理速度,而不会牺牲准确性,为未来更高效、更易于访问的 AI 系统铺平了道路。

投机采样会损失大语言模型的推理精度吗?投机采样会损失大语言模型的推理精度吗?投机采样会损失大语言模型的推理精度吗?投机采样会损失大语言模型的推理精度吗?

以上就是投机采样会损失大语言模型的推理精度吗?的详细内容,更多请关注其它相关文章!


# git  # lsp  # llama  # follow  # looka  # 的是  # 工程  # 网站推广联系人是谁的  # 宿迁网站建设及优化  # 天津外贸网站优化建设  # 推广网站文章在哪里发布  # SEO报告论文  # 巢湖网站推广哪家服务好  # 何营销推广航云速捷超棒  # seo自动关键词扩展  # 武穴优化seo  # 小蓄网站推广  # 如何使用  # 首个  # 可直接  # 新能源  # 一个重要  # 问题是  # 日韩  # 两次  # 数学分析 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 安装固态硬盘如何设置  春运哪天抢票最好  j*a怎么处理json数组  望远镜上power是什么意思  1tb等于多少mb  soup是什么意思  j*a怎么清除数组  ao3镜像网站永久地址入口  制冰机power1灯亮是什么意思  新固态硬盘如何装系统  怎么在爱奇艺中投屏到电视最新方法  春运抢票技巧攻略  为什么进行域名解析  ao3镜像网站哪个好  linux如何安装yum命令  远程桌面如何发送命令  固态硬盘如何拆除  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  j*a怎么读取char数组  vue组件typescript怎么用  docs命令如何进入d  gs是什么意思  春运抢票用不用取票码  本科一批和本科二批是什么意思  solidworks打开igs文件看不见要怎么办解决方法  苹果16关闭哪些功能好  typescript中范围如何设定  eraser是什么意思  市盈率是负数是什么意思  春运抢票极速版怎么抢票  液位传感器power是什么意思  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  阿里云盘扩容是什么_扩容阿里云盘方法是什么教程  电焊机power和oc是什么意思  统计学中power值是什么意思  如何测固态硬盘芯片  电动车power灯亮红灯是什么意思  excel中datediff函数怎么用  苹果16有哪些不同  51单片机贴片怎么*  type-c全能接口是什么意思  如何看固态硬盘型号  启辰星power标志是什么意思  typescript怎么使用vue  sofa是什么意思  车子上面nfc功能是什么意思  考勤机power红灯是什么意思  春运订票什么时候抢票  如何自己加装固态硬盘  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程 

搜索