新闻中心
-
01-23MoE与Mamba携手合作,将状态空间模型推广至数十亿参数规模状态空间模型(SSM)是一种备受关注的技术,它被认为是Transformer的替代选择。相比于Transformer,SSM在处理长上下文任务时能够实现线性时间...
-
01-23自我奖励下的大型模型:Llama2通过Meta学习自行优化,超越GPT-4的性能人工智能的反馈(AIF)要代替RLHF了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效...
-
01-19扎克伯格大力支持开源AGI:全力培训Llama 3,预计年底达到35万H100小扎宣布新目标:Allin开源AGI。不错,小扎又Allin了,正是OpenAI谷歌必争之地。不过在AGI之前,着重强调了是OpenSourse(开源)的。图片...
-
01-18新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度当前大语言模型的应用受到了序列长度限制的制约,这限制了其在人工智能领域中的应用。例如,在多轮对话、长文本理解和多模态数据处理与生成方面存在一定的挑战。造成这种限...
-
01-18Lightning Attention-2:实现无限序列长度、恒定算力成本和更高建模精度的新一代注意力机制LightningAttention-2是一种新型的线性注意力机制,让长序列的训练和推理成本与1K序列长度的一致。大语言模型序列长度的限制,极大地制约了其在人工...
-
01-17蚂蚁集团发布新算法,可加快大型模型推理速度2-6倍近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。图:新算法在不同开源大模型上的提速表现。这套新算法名为Lookahead推理加...

