新闻中心
-
05-16ICML 2025 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-16Ollama如何构建自己的Llama3中文模型OllamaOllama是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。Ollama设计为一个框架,旨在简化在Dock...
-
05-15无需OpenAI数据,跻身代码大模型榜单!UIUC发布StarCoder-15B-Instruct在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务...
-
05-14思维链不存在了?纽约大学最新研究:推理步骤可省略红极一时的思维链技术,可能要被推翻了!还在惊讶于大模型居然能够利用思维链分步骤思考?还在苦于不会写思维链提示词?来自纽约大学的研究人员表示:「没关系的,都一样」...
-
05-14微软让MoE长出多个头,大幅提升专家激活率MH-MoE能优化几乎所有专家,实现起来非常简单。混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的Gemini1.5以及备受关注的Mi...
-
05-13字节开源大模型量化新思路,2-bit量化模型精度齐平fp16AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...

