新闻中心

Gemma 3n— 谷歌推出的端侧多模态AI模型

2025-05-22
浏览次数:
返回列表

Gemma 3n是什么

gemma 3n 是谷歌 i/o 开发者大会推出的端侧多模态 ai 模型。基于 gemini nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4b 参数模型水平。模型参数量分别为 5b 和 8b,内存占用仅相当于 2b 和 4b 模型。gemma 3n 支持文本、图像、短视频和音频输入,可生成结构化文本输出。新增的音频处理能力,能实时转录语音、识别背景音或分析音频情感。可通过 google ai studio 直接在浏览器中使用。

Moshi Chat Moshi Chat

法国AI实验室Kyutai推出的端到端实时多模态AI语音模型,具备听、说、看的能力,不仅可以实时收听,还能进行自然对话。

Moshi Chat 159 查看详情 Moshi Chat

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Gemma 3n— 谷歌推出的端侧多模态AI模型

Gemma 3n的主要功能

  • 多模态输入:支持文本、图像、短视频和音频输入,可生成结构化文本输出。例如,用户可上传照片并询问“图中的植物是什么?”,或通过语音指令分析短视频内容。
  • 音频理解:新增音频处理能力,能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
  • 设备端运行:无需云端连接,所有推理在本地完成,响应时间低至 50 毫秒,确保低延迟和隐私保护。
  • 高效微调:支持在 Google Colab 上进行快速微调,开发者可通过几小时的训练定制模型,适配特定任务。
  • 长上下文支持:Gemma 3n 支持最长 128K tokens 的上下文长度。

Gemma 3n的技术原理

  • 基于 Gemini Nano 架构:Gemma 3n 继承了 Gemini Nano 的轻量化架构,专为移动设备优化。通过知识蒸馏和量化感知训练(QAT),在保持高性能的同时大幅降低资源需求。
  • 逐层嵌入技术:采用逐层嵌入(Per-Layer Embeddings,PLE)技术,显著降低了模型的内存需求。模型的原始参数量分别为 5B 和 8B,内存占用仅相当于 2B 和 4B 模型,只需 2GB 或 3GB 的动态内存即可运行。
  • 多模态融合:结合了 Gemini 2.0 的分词器和增强的数据混合,支持 140 多种语言的文本和视觉处理,覆盖全球用户需求。
  • 局部/全局层交错设计:采用 5:1 的局部/全局层交错机制,每 5 层局部层后接 1 层全局层,以局部层作为模型的第一层开始计算。有助于减少长上下文时 KV 缓存爆炸问题。

Gemma 3n的项目地址

  • 项目官网:http://deepmind.google/models/gemma/gemma-3n/

Gemma 3n的应用场景

  • 语音转录与情感分析:能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。
  • 内容生成:支持在手机上生成图像描述、视频摘要或语音转录,适合内容创作者快速编辑短视频或社交媒体素材。
  • 学术任务定制:开发者可用 Gemma 3n 的微调功能,在 Colab 上为学术任务定制模型,如分析实验图像或转录讲座音频。
  • 低资源设备:专为低资源设备设计,仅需 2GB RAM 即可在手机、平板和笔记本电脑上流畅运行。

以上就是Gemma 3n— 谷歌推出的端侧多模态AI模型的详细内容,更多请关注其它相关文章!


# 谷歌  # 网络营销推广方法哪家好  # 秀洲网站优化软件哪个好  # 小饭店餐桌营销推广方案  # sps店如何营销推广  # 无障碍  # 结构化  # 专为  # 可通过  # 分别为  # 适用于  # 下载地址  # 官网  # 多模  # 转录  # udio  # gemini  # 内存占用  # ai  # 电脑  # 浏览器  # 张槎网站优化行业  # seo让网站上首页  # 江苏关键词排名技巧分析  # 深圳企业网络营销推广优势  # 西乡外贸网站建设  # 最威海的网站建设 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 金色cmyk色值是多少  苹果手机16系统有哪些  j*a数组对象怎么取  如何测试固态硬盘速度  如何使用命令行界面  typescript和哪个语音很像  单片机显存怎么设置最佳  ts什么意思  mac如何使用vi命令行  单片机计数程序怎么写  如何将系统移到固态硬盘  选哪个折叠屏手机好用  如何拍屏幕不出条纹详细方法  固态硬盘如何判断大小  linux如何用命令修改ip  树莓派命令行如何新建文件  什么是域名解析地址  typescript和es6先学哪个  一分钟等于多少秒  如何管理员打开cmd命令行窗口  如何ping测试命令  固态硬盘如何查看盘符  如何清理固态硬盘  pp是什么意思  哪个牌子的折叠屏手机好  单片机的速度怎么求  苹果16更新了哪些版本  单片机计时程序怎么写  春运哪天抢票最好预约  如何使用ping命令  5g手机4g卡怎么没有网络  typescript有什么作用  光刻机的作用及工作原理  5G手机导航怎么旋转  单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐  linux如何安装yum命令  如何查看电脑的固态硬盘  市盈率当中17A 18E是什么意思  如何进入cmd命令行  j*a数组怎么保存类  春运抢票到哪里抢票啊  点焊机接触器上power是什么意思  如何用命令提示符显示隐藏分区  typescript干什么的  市盈率百分位roe是什么意思  什么是夸克模组文件格式  汽车中控导航机power线是什么意思  如何测固态硬盘芯片  dos命令如何复制目录结构  vs如何输入命令行参数 

搜索