新闻中心

OmniAudio— 阿里通义推出的空间音频生成模型

2025-06-05
浏览次数:
返回列表

OmniAudio是什么

omniaudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(foa)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。omniaudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监督学习;以及基于双分支视频表示的有监督微调,强化模型对声源方向的表征能力。

小云雀 小云雀

剪映出品的AI视频和图片创作助手

小云雀 1949 查看详情 小云雀

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OmniAudio— 阿里通义推出的空间音频生成模型

OmniAudio的主要功能

  • 生成空间音频:能直接从360°视频生成FOA音频,这种音频是一种标准的3D空间音频格式,能捕捉声音的方向性,实现真实的3D音频再现。采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。在头部旋转时,可以确保声音定位的准确性得以保持。
  • 提升沉浸式体验:为虚拟现实和沉浸式娱乐带来了全新的可能性。可以解决传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求的问题。

OmniAudio的技术原理

  • 自监督的 coarse-to-fine 流匹配预训练
    • 数据处理:由于真实FOA数据稀缺,研究团队利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),将立体声转换为“伪FOA”格式。具体来说,W通道为左右声道之和,X通道为左右声道之差,Y、Z通道置零。
    • 模型训练:将转换后的“伪FOA”音频送入四通道VAE编码器获得潜在表示,然后以一定概率进行随机时间窗掩码,并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。
  • 基于双分支视频表示的有监督微调
    • 数据利用:仅使用真实的FOA音频数据,继续沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。
    • 模型强化:通过对真实FOA潜在序列进行更高概率的掩码,强化了对声源方向(W/X/Y/Z四通道之间的互补关系)的表征能力,在解码端提升了对高保真空间音频细节的重建效果。
    • 双分支结合:完成自监督预训练后,将模型与双分支视频编码器结合。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征;同时,从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征经最大池化后作为Transformer的全局条件,局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。
    • 微调与输出:在保持预训练初始化参数大致走向的前提下,高效微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。微调完成后,在推理阶段只需采样学得的速度场,再经VAE解码器恢复波形,就能输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

OmniAudio的项目地址

  • 项目官网:http://omniaudio-360v2sa.github.io/
  • Github仓库:http://github.com/liuhuadai/OmniAudio
  • arXiv技术论文:http://arxiv.org/pdf/2504.14906

OmniAudio的应用场景

  • 虚拟现实(VR)和沉浸式体验:OmniAudio 能为 VR 内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感。
  • 360°视频配乐:为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。
  • 智能语音助手:集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等。
  • 机器人和自动驾驶领域:OmniAudio 可以应用于机器人和自动驾驶领域,为这些系统提供更准确的声音定位和环境感知。

以上就是OmniAudio— 阿里通义推出的空间音频生成模型的详细内容,更多请关注其它相关文章!


# ai  # 相关文章  # 阿里巴巴  # 只需  # 就能  # 道为  # 是一种  # 安装包  # 一键  # 掩码  # udio  # omniaudio  # git  # 这一  # sem比seo优化  # 魏都区网站优化的运营  # seo外链优化培训机构  # 网站内容如何优化出来  # 宣威网站建设协议  # 宜昌seo优化怎么做  # 携程网网站推广策略  # 新作的企业网站怎么做seo优化  # 公明网站seo优化  # 营销流量推广策略分析 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: cron表达式在线工具有哪些  苹果手机16新款颜色有哪些  如何选购ssd固态硬盘  反向春运抢票方式  苹果16系统有哪些系列  电脑如何查看固态硬盘  什么是base64  一帧是多少秒  如何打开命令框  360n4怎么关闭锁屏壁纸  如何提高import命令的性能  软件命令行参数如何设置  如何把u盘改成固态硬盘  春运抢票极速版怎么抢票  夸克网盘为什么解析错误  小屏折叠屏手机有哪些  j*a map数组怎么取值  typescript如何使用viewer  学typescript有什么用  市盈率亏损是什么意思  夸克为什么老是投屏失败  类似微信的聊天软件有哪些  光刻机分类有哪些品牌的  华为如何面对苹果16  闲鱼上面的power是什么意思  春运预约抢票能抢到吗  linux命令行如何使用中文输入法  春运大巴上抢票怎么抢票  安全的ao3镜像网站链接入口  固态硬盘如何消除缓存  固态硬盘如何备份  如何使用命令行界面  为什么夸克下载不到  市盈率20a21e是什么意思  如何利用固态硬盘  有什么基础可以学typescript  万能表上的power是什么意思  j*a数组怎么放字符  苹果16多有哪些功能  宵衣旰食是什么意思  新三板市盈率是什么意思  如何用命令提示符显示隐藏分区  得物怎样不扣手续费 如何通过得物不支付手续费  typescript怎么写call方法  雅迪电动车上的power是什么意思  mac如何使用vi命令  unix时间戳转换公式  typescript卸载不掉怎么办  tft单片机怎么写彩屏  华为交换机 配置 如何复制命令行 

搜索