新闻中心
-
05-13美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI绝了,为了训练AI模型,一位纽约州立大学的教授,竟然把类似GoPro的相机绑在了自己女儿头上!虽然听起来不可思议,但这位教授的行为,其实是有据可循的。要训练出L...
-
05-13DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩基于DiffusionTransformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和3D「一网打尽」。今年2月初,Sora的发布...
-
05-13Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动MetaFAIR联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。据所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个GPU。以LLa...
-
05-113倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了高效解码n-token序列,CLLMs+Jacobi解码框架。传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。来自上海交通大学、加利...
-
05-10原作者带队,LSTM真杀回来了!LSTM:这次重生,我要夺回Transformer拿走的一切。在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,...
-
05-10闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香在发布一周年之际,阿里云通义千问大模型在闭源和开源领域都交上了一份满意的答卷。国内的开发者们或许没有想到,有朝一日,他们开发的AI大模型会像出海的网文、短剧一样...

