新闻中心
-
05-30速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型对标OpenAI的法国AI独角兽MistralAI有了新动作:首个代码大模型Codestral诞生了。作为一个专为代码生成任务设计的开放式生成AI模型,Code...
-
05-30Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练大神Karpathy已经不满足于用C语言造Llama了!他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。挑战成功本身并不意外,但是只花费2...
-
05-28清华、华为等提出iVideoGPT:专攻交互式世界模型iVideoGPT,满足世界模型高交互性需求。近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的...
-
05-28ICML 2025 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-27模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了TinyLLaVA+项目由清华大学电子系多媒体信号与智能信息处理实验室(MSIIP)吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学MS...
-
05-27手撕Llama3第1层: 从零开始实现llama3一、Llama3的架构在本系列文章中,我们从头开始实现llama3。Llama3的整体架构:图片Llama3的模型参数:让我们来看看这些参数在LlaMa3模型中...

