新闻中心
-
05-06仅用250美元,Hugging Face技术主管手把手教你微调Llama 3我们熟悉的Meta推出的Llama3、MistralAI推出的Mistral和Mixtral模型以及AI21实验室推出的Jamba等开源大语言模型已经成为Ope...
-
05-06AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了AI做数学题,真正的思考居然是暗中“心算”的?纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升!一作Ja...
-
05-04小模型性能饱和、表现不佳,根源是因为Softmax?小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实(饱和现象),那么这个现象的原因是什么?是否可以克服...
-
05-04终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名当前最火的大模型,竟然三分之二都存在过拟合问题?刚刚出炉的一项研究,让领域内的许多研究者有点意外。提升大型语言模型的推理能力是当前研究的最重要方向之一,在这类任...
-
05-02参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?多模态AI系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型(如GPT-4V)的研究取得...
-
04-30「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?前段时间,微软搞了个乌龙:隆重地开源了WizardLM-2,又在不久后撤回得干干净净。目前可查询的WizardLM-2发布信息,这是一个“真正媲美GPT-4”的...

