新闻中心
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。
本周五,Google DeepMind 正式发布了 Gemini 1.5 的技术报告,内容覆盖 Flash 版等最近升级,该文档长达 153 页。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
技术报告链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
在本报告中,
谷歌介绍了 Gemini 1.5 系列模型。它是代表了下一代高计算效率的多模态大模型,能够从数百万 token 上下文中调用细粒度信息并进行推理,包括多个长文档、数小时的视频。
Gemini 1.5 系列模型具备多种语言和视觉推理能力,令其在自然语言处理和计算机视觉领域有着广泛的应用。该模型能够从文本中提取关键信息并进行推理,以及对多个长文档进行综合分析。此外,它还支持处理大量的视觉数据,并能够在数小时
该系列包括两个新型号:
- 更新的 Gemini 1.5 Pro,其大部分功能和基准都超过了 2 月份的版本
- Gemini 1.5 Flash,一种更轻量级的变体,专为提高效率而设计,并且在性能方面的减益很小。
关于本周谷歌 I/O 大会上提到的 Flash 版,报告中表示,Gemini 1.5 Flash 是一个 Transformer 解码器模型,具有与 Gemini 1.5 Pro 相同的 2M+ 上下文和多模态功能。既能高效利用张量处理单元 (TPU),并具有较低的模型服务延迟。例如,Gemini 1.5 Flash 可以并行计算注意力力和前馈分量,并且也是拥有更大网络在线提取能力的 Gemini 1.5 Pro 模型。它使用高阶预处理方法进行训练以提高质量。
报告评估了从 Gemini 1.5 和 Vertex AI 流 API 中获取的英语、中文、日语和法语查询的每个输出字符的平均时间。

英语、中文、日语和法语响应的每个输出字符的时间(毫秒),在输入 1 万个字符的情况下,Gemini 1.5 Flash 在所有测试的语言中实现了最快生成速度。

Gemini 1.5 Pro、1.5 Flash 和 Gemini 1.0 模型在标准编码、多语言以及数学、科学和推理基准上的评估结果。1.5 Pro 和 1.5 Flash 的所有数字都是在指令调整后获得的。
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情

Gemini 1.5 Pro 与 Gemini 1.0 Pro 和 Ultra 在视频理解基准上的比较。

Gemini 1.5 Pro 与 USM、Whisper、Gemini 1.0 Pro 和 Gemini 1.0 Ultra 在音频理解任务上的比较。
Gemini 1.5 模型在跨模态的长上下文检索任务上实现了近乎完美的召回,提高了长文档 QA、长视频 QA 和长上下文 ASR 的最优水平,并匹配或超越 Gemini 1.0 Ultra 在一系列广泛的基准测试中表现出最先进的性能。此外,谷歌也表示,到今年 5 月,Gemini 1.5 的性能相比 2 月份已有明显提升。

Gemini 1.5 Pro(5 月)与初始版本(2 月)在多个基准测试中的比较。最新的 Gemini 1.5 Pro 在所有推理、编码、视觉和视频基准测试中进行了改进,而音频和翻译性能保持不变。注意,对于 FLEURS,分数越低越好。
Google DeepMind 副总裁,Gemini 项目联合负责人 Oriol Vinyals 总结道,Gemini 1.5 Pro > 1.0 Ultra、1.5 Flash(目前最快型号) ~= 1.0 Ultra。

通过研究 Gemini 1.5 的长上下文能力的极限,我们可以看到在下一个 token 预测和近乎完美的检索(>99%)方面持续改进。相比 Claude 3.0 (200k) 和 GPT-4 Turbo (128k) 等现有模型实现了一代的飞跃。
在报告的第七章节,谷歌介绍了 Gemini 1.5 Pro 数学增强版本的跑分,它在竞赛级数学问题上表现出色,包括在未使用工具的情况下在 Hendryck 的 MATH 基准测试中取得了 91.1% 的突破级性能。
以下是该模型解决亚太数学奥林匹克(APMO)题目的一些示例,这些问题是此前模型显然无法解决的。Oriol Vinyals 表示,这个回答相当棒,因为它是一个证明(而不是计算),解决方案切中要害,而且「很漂亮」。

最后,谷歌重点介绍了大模型在现实世界的用例,例如 Gemini 1.5 与专业人士合作完成任务并实现目标,在 10 个不同的工作类别中可节省 26-75% 的时间。
这种前沿大语言模型也展示出了一些令人惊讶的新功能。当给定 Kalamang(一种巴布亚新几内亚西部不到 200 人使用的语言)的语法手册时,该模型可以学会将英语翻译成 Kalamang,与从相同内容中学习的人类处于相似的水平。
以上就是谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍的详细内容,更多请关注其它相关文章!
# 谷歌
# 霸屏营销推广方案外包
# 网站的推广和引流措施
# seo自学可以学会吗
# 博客优化网站seo
# 塔城地短视频推广营销
# 淄博seo推广费用
# 塘沽教育网站建设方案
# 实现了
# 巴布亚新几内亚
# 模态
# 日语
# 文档
# 法语
# 是一个
# 英语
# 多个
# 奥数
# claude
# gemini
# 模型
# 营销推广引流渠道有哪些
# 网站投放流量推广赚钱
# 西藏seo入门价格表
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
300秒等于多少分钟
type-c输入接口是什么
单片机怎么进行排序操作
一秒是多少毫秒
typescript为什么能运行
1tb等于多少mb
夸克加载什么要会员
固态硬盘如何打开软件
交管12123协议头不完整是什么原因
路由器上面的power红灯是什么意思
typescript用在哪里
双十一的哪一天最优惠呢
如何拍屏幕不出条纹详细方法
网络光刻机是干什么用的
linux环境中如何使用ping命令
虚拟机服务器如何关机命令
苹果16系统有哪些系列
春运抢票如何抢连坐的票
element ui是什么
空调主板单片机怎么拆开
如何引用typescript中的方法
如何提高固态硬盘速度
春运哪天抢票最好预约
typescript怎么写多个构造方法
单片机程序负数怎么表示
typescript怎么写游戏
typescript和哪个语音很像
虽千万人吾往矣什么意思
linux如何用命令修改ip
红米手机怎么设置变成5G手机
春运抢票最快几天能成功
路由器power闪红绿灯闪是什么意思
光刻机的作用及工作原理
typescript怎么使用vue
db2命令中如何去到指定的副本
品道音响上的power键是什么意思
如何用chown命令
命令行如何打开打印机
锤子手机怎么不出5g
如何使用net命令
如何用命令下载服务器网站
ssd固态硬盘如何选择
一年多少周
电脑5G怎么上传手机
手机拍显示屏有条纹怎么去除
如何查看邮件域名解析
j*a怎么用数组缓存
如何测固态硬盘芯片
得物怎样降低手续费 得物如何降低手续费教程
如何在命令行执行一个jar


2024-05-24
浏览次数:次
返回列表