新闻中心
-
09-29终于拿到内测!豆包-PixelDance真是字节视频生成大杀器「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似?提示词:火山喷发,升起巨大蘑菇云,岩浆顺着山体往下流,镜头拉近,岩浆正在火山...
-
08-22支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结...
-
08-11混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合混合专家,也得术业有专攻。对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多...
-
08-08ACM MM2025 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破1.第32届ACM国际多媒体学术会议(ACMInternationalConferenceonMultimedia,简称ACMMM)公布论文接收结果,网易伏羲最...
-
07-28万亿token!史上最大多模态数据集诞生开源多模态大模型或将开始腾飞。值此Llama3.1占领各大头条之际,又突然冒出了另一个也非常重要的发布——一个规模空前的开源多模态数据集。对大模型来说,数据集的...
-
07-24清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...

