新闻中心
-
03-22Multi-Speaker— AudioShake 推出的多说话人声分离模型Multi-Speaker是什么Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨...
-
03-19Gemini 2.0 Flash— Google推出的多模态 AI 模型Gemini2.0Flash是什么Gemini2.0Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,...
-
03-19MM-StoryAgent— 上海交大联合阿里开源的多智能体故事绘本视频生成框架MM-StoryAgent:一个开源的多模态、多智能体故事绘本视频生成框架上海交通大学X-LANCE实验室和阿里巴巴集团联合打造的MM-StoryAgent,是...
-
03-19AudioX— 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频AudioX:一款革命性的多模态音频生成模型AudioX是由香港科技大学和月之暗面团队联合开发的先进统一扩散变压器模型,能够根据多种输入内容生成高质量音频和音乐...
-
03-19Llasa TTS— 香港科技大学开源的文本转语音模型LlasaTTS是什么LlasaTTS是香港科技大学基于LLaMA架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。LlasaTTS基于单层向量...
-
02-16真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准阿里巴巴通义实验室的最新研究成果EMO2,实现了仅需一张肖像照片和任意长度音频,即可生成高度逼真、感染力十足的AI人像视频。该技术突破了以往音频驱动人像视频生成...

