新闻中心
-
04-10Mistral开源8X22B大模型,OpenAI更新GPT-4 Turbo视觉,都在欺负谷歌真有围剿Google的态势啊!在谷歌昨晚CloudNext大会进行一系列重大发布时,你们都来抢热度:前有OpenAI更新GPT-4Turbo,后有Mistral...
-
04-10Llama架构比不上GPT2?神奇token提升10倍记忆?一个7B规模的语言模型LLM能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩quantization、混合专家模型M...
-
04-10全面突围,谷歌昨晚更新了一大波大模型产品这周二,谷歌在Google的CloudNext2024上发布了一系列AI相关的模型更新和产品,其中包括Gemini1.5Pro首次提供了本地语音(语音)理解功能...
-
04-09北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计从科技圈最新动态来看,最近AI代码生成概念实火。可是,小伙伴们有没有感觉,AI刷程序题比较亮眼,到了企业真实开发场景中,总感觉欠点火候?恰在此时,一位低调的资深...
-
04-09破除36年前魔咒!Meta推出反向训练大法消除大模型「逆转诅咒」大语言模型的「逆转诅咒」,被解开了!这个诅咒在去年9月首次被发现,一时间引起LeCun、Karpathy、马库斯等一众大佬的惊呼。由于风光无两、不可一世的大模型...
-
04-08为什么大型语言模型都在使用 SwiGLU 作为激活函数?如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文...

