新闻中心

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

2024-12-26
浏览次数:
返回列表

清华大学陈键飞团队推出sageattention2:实现4-bit即插即用注意力机制,显著提升大模型推理速度

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续报道全球顶尖AI研究成果。 近年来,该专栏已发表2000余篇学术技术文章,涵盖众多高校和企业实验室的先进研究。 欢迎优秀研究者投稿或联系报道 (邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com)。

论文共同一作张金涛和黄浩峰分别来自清华大学计算机系和交叉信息研究院,通讯作者陈键飞副教授及其他合作者均来自清华大学计算机系。

大模型线性层的低比特量化已日趋成熟,但注意力模块仍普遍采用高精度计算(如FP16或FP32),尤其在长序列处理中,注意力机制的计算成本日益突出。

此前,陈键飞团队提出的8-bit即插即用注意力机制SageAttention (https://www.php.cn/link/8928157317a66f146e4f2d5617537336),通过将QK^T量化至INT8,保持PV精度为FP16,并结合Smooth K技术,实现了2倍于FlashAttention2的速度提升,同时保持了端到端精度。SageAttention已广泛应用于CogvideoX、Mochi、Flux、Llama3、Qwen等开源及商业大模型。

最新研究成果SageAttention2进一步将注意力机制量化至4-bit,相较于FlashAttention2和xformers分别实现了3倍和4.5倍的即插即用推理加速,并同样在各种大模型上保持了端到端精度。

图片

  • 论文标题:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
  • 论文链接:https://www.php.cn/link/15ea43997c9e00317564201ca5267210
  • 开源代码:https://www.php.cn/link/b0263bc40e0ff50f481b85a968c30ac1

即插即用特性

Perplexity Perplexity

Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要

Perplexity 302 查看详情 Perplexity

SageAttention2提供高效的注意力算子,实现即插即用加速。 只需输入Q, K, V矩阵,即可快速获得注意力输出(O)。 克隆仓库 (git clone https://www.php.cn/link/b0263bc40e0ff50f481b85a968c30ac1) 并执行 python setup.py install 后,一行代码即可替换模型中的注意力函数:

图片图片

以CogvideoX-1.5-5B为例,SageAttention2实现了1.8倍的端到端加速,且视频生成质量无损:

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级全精度 Attention 4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级SageAttention2

SageAttention2还扩展了硬件支持,在不同GPU平台上均有显著加速效果。

图片

(后续内容,由于篇幅限制,此处省略对前言、挑战、技术方案和实验效果的详细描述,但图片链接保留,读者可自行参考原文深入了解。)

(此处保留原文中所有图片链接)

以上就是4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级的详细内容,更多请关注其它相关文章!


# python  # 工程  # 清华大学  # 神技  # 清华  # 即插  # 即用  # llama  # qwen  # 邮箱  # ai  # qq  # git  # 昆明营销推广电话号码  # 盐城网站建设现状调研  # 四川网站优化厂家排名  # 动态网站建设期末作业  # 文山推广营销策划  # 河北招商网站推广好选择  # 珠海网站推广引流文案  # seo平台择火星  # 深圳网站建设推  # 网站如何推广发帖子内容  # 句话  # 实现了  # 端到  # 开源  # 不掉 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 个人征信不好如何恢复 个人征信不良的全面修复指南  如何ping测试命令  ai如何重复使用上一命令  typescript和es6先学哪个  手机拍显示屏有条纹怎么去除  宝马x5仪表盘上边有power是什么意思  命令行下如何导出数据库  苹果16适合哪些机升级  爱玛电动车power模式是什么意思  typescript中怎么引用js文件  春运抢票要用抢票软件吗  电脑type-c接口是什么意思  怎么确定手机是5g  什么是泛域名解析  固态硬盘如何保存  征信信誉不好如何恢复 如何修复不良征信方法  固态硬盘如何显示  typescript怎么拼接  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  比亚迪秦nfc功能是什么意思  折叠屏手机哪个牌子性价比高  m*en repository的作用是什么  typescript变量是什么  如何看固态硬盘信息  尼桑越野车中控前power是什么意思  python和typescript学哪个  access中如何使用常用宏命令  市盈率百分位roe是什么意思  选哪个折叠屏手机好用  摄像机的power chg是什么意思中文  vivo手机nfc功能是什么意思  typescript如何生成uuid  mac 如何启动命令行模式  j*a怎么清除数组  喇叭上POWER4欧是什么意思  关系型数据库和非关系型数据库有哪些  电动车仪表盘上的power是什么意思  电焊机power和oc是什么意思  如何将系统移到固态硬盘  春运抢票需要抢几天  空调power灯一直闪是什么意思  如何学习typescript  如何使用命令行界面  12306退票手续费最新规定  typescript与es6学哪个  照相机上面power是什么意思  linux如何安装yum命令  ssd固态硬盘如何选择  如何安装固态硬盘win10  学typescript需要多久 

搜索