新闻中心
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平
aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图 1
以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。
图 2
LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。
为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。
- 论文
题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models - 论文链接:https://www.php.cn/link/a64bcca2a087451831e31b6d339940b9
- 项目主页:https://www.php.cn/link/4c21c9d351543562af3562a7add8685f
任务场景及内容
LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:
- 高度依赖创造力;
- 适合多模态LLM的输入输出格式;
- 拥有大量高质量人类标注数据。
LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。
图 3
图 4
LoTbench的具体流程如图4所示,包括:
- 选择高质量人类创新内容(HHCR)数据;
- LLM多轮生成响应,判断是否与HHCR“异曲同工”(DAESO);
- LLM提出疑问,系统根据HHCR返回答案;
- 更新交互信息,循环步骤1。
创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
异曲同工之妙(DAESO)的判断
由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:
- 相同的核心创新解释;
- 相同的功能相似性。
功能相似性与语义相似性有所不同。
图 5
图 6
通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于GPT-4,准确率可达80%-90%。
测评结果
LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。
图 7
图 8 更多细节请参考原文。
以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注其它相关文章!
# git
# seo九度件
# 绵阳品牌网站建设优化
# 武汉短视频seo公司
# 谷歌对网站推广有何帮助
# 科大
# 你该
# 句话
# 网易
# 系列产品
# 使其
# 所需
# 异曲同工
# 开源
# 高质量
# qwen
# deepseek
# 邮箱
# ai
# 工程
# 太原网站推广步骤
# 南宁seo优化价格
# 捕鱼推广网站有哪些
# 重庆seo公司便宜
# 高新区外贸网站推广平台
# 鄂州seo推广优势分析
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何打开命令框
夸克是什么用途
固态硬盘如何查看盘符
平板键盘nfc功能是什么意思
typescript怎么写游戏
市盈率中的19a是什么意思
恋爱软件免费聊天不收费的有哪些
双十一哪一天买比较便宜?
如何安装m.2固态硬盘
j*a怎么用json数组
j*a数组怎么存满
夸克用的什么服务器
为什么youtube音乐打不开
苹果16送哪些配件
单片机怎么加死循环
三星固态硬盘如何安装
命令控制台如何执行sql文件
单片机怎么控制闪烁技术
电脑显示器上power是什么意思
智能锁type-c接口是什么
linux如何查看命令的参数
统计学中power值是什么意思
华为使用nfc功能是什么意思
ai文件在线打开工具有哪些
光刻机的分类及特点
单片机怎么定义字符长度
阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程
j*a数组怎么取元素
如何用好typescript
有什么基础可以学typescript
typescript学多久可以学会
5g手机4g卡怎么没有网络
2026年将会大爆发的15个新科技
哪些编程软件需用typescript
春运抢票何时开始抢票的
typescript怎么写多个构造方法
nfc功能是什么意思怎么开启
html怎么使用typescript
东芝固态硬盘如何保修
折叠屏手机为什么这么小
如何安装固态硬盘win10
镜像ao3链接入口
bc是什么意思
新固态硬盘如何装系统
苹果16多有哪些功能
阿里云盘扩容工具怎么用
市盈率百分位roe是什么意思
照相机上面power是什么意思
65寸电视长宽多少厘米
如何以管理员身份打开cmd命令行窗口


2025-02-28
浏览次数:次
返回列表
题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models