新闻中心
群核科技发布空间大模型,或解决视频生成时空一致性难题
8月25日,群核科技在首届技术开放日(techday)上正式发布其空间大模型最新成果:新一代空间语言模型spatiallm 1.5与空间生成模型spatialgen,并在现场分享了新模型后续的开源节奏。作为业界首个专注于3d室内场景认知与生成的大模型体系,群核空间大模型在真实感全息漫游、结构化可交互以及复杂室内场景处理方面展现出显著优势。
据悉,在开源模型之外,群核科技还首次分享了其AI团队基于SpatialGen探索的AI视频生成解决方案,旨在通过新范式解决时空一致性难题。
SpatialLM 1.5:一句话生成结构化3D场景,解决机器人训练数据难题
本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。相比于传统大语言模型对物理世界几何与空间关系的理解局限,SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。例如,当用户输入简单文本描述时,SpatialLM 1.5可自动生成结构化场景脚本,智能匹配家具模型并完成布局,并支持后续通过自然语言进行问答或编辑。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图说:空间语言模型SpatialLM1.5能力示意图
更关键的是,SpatialLM 1.5生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,可用于机器人路径规划、避障训练、任务执行等场景,这将有效解决当前机器人训练“缺数据”的难题。现场,群核科技首席科学家周子寒演示了机器人养老场景的应用,当输入“去客厅餐桌拿药”这一指令后,该模型不仅理解了相关的物体对象,还调用工具自动规划出最优行动路径,展示了机器人在复杂家庭环境中执行任务的潜力。
值得一提的是,其前代版本 SpatialLM 1.0 今年3月开源后,迅速登上Hugging Face趋势榜前三,目前已有初创企业基于其代码和架构训练出自有模型,验证了开源模式的技术辐射力。
SpatialGen:破解AI视频“时空一致性”难题,打造可自由漫游的3D世界
如果说SpatialLM解决的是“理解与交互”问题,那么 SpatialGen 则专注于“生成与呈现”。作为一款基于扩散模型架构的多视角图像生成模型,SpatialGen 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步生成3D高斯(3DGS)场景并渲染漫游视频。
SpatialGen依托群核科技海量室内3D场景数据与多视角扩散模型技术,其生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。此外,基于SpatialGen生成的3D高斯场景和真实感全息漫游视频,用户可以如同在真实空间中一样,自由穿梭于生成的场景内,获得沉浸式的体验。
图说:群核空间生成模型SpatialGen数据集情况
N世界
一分钟搭建会展元宇宙
138
查看详情
“目前,AIGC文生视频与图生视频工具已经初步推动了全民视频创作的潮流,但由于时空一致性问题的制约,其离真正的商业化应用仍有一定距离。我们正在研发一款基于3D技术的AI视频生成产品,并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线,有望显著弥补当前AIGC视频生成中时空一致性不足的问题。”群核科技AI产品总监龙天泽提到。
据了解,现有的AI视频创作中,常因视角切换导致物体位置偏移、空间逻辑混乱、遮挡错误等问题。这背后的原因是多数视频生成模型是基于图像或视频数据训练,缺乏对3D空间结构和物理法则的理解和推演能力。
启动空间智能飞轮战略,持续开源共建技术生态
“对于中国这一代企业家来说,拥抱开源能够发挥更大价值。我们一直坚信,只要你的技术有价值,同时赛道蓬勃发展,在里面一定能够分到一杯羹。”群核科技联合创始人兼董事长黄晓煌说到。
图说:群核科技创始
人黄晓煌分享空间智能战略 摄影人/黄航
活动现场,黄晓煌分享了群核科技在空间智能布局上的最新思考。基于酷家乐这一全球最大的空间设计平台,群核科技构建了“空间编辑工具-空间合成数据-空间大模型”的空间智能飞轮,让工具沉淀数据,用数据加速模型训练,用模型提升工具体验,再在工具的广泛应用中沉淀更为丰富的场景数据。资料显示,截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。
“开源是我们战略的重要关键词之一。群核科技从2018年就开始启动了开源战略,逐步开放我们在数据和算法上的能力。相比大语言模型,当前空间大模型还处于初级阶段。我们希望通过开源推动全球空间智能技术快速前进,成为全球空间智能服务提供商,推动属于空间大模型的‘DeepSeek时刻’尽快来临。”
据悉,本次技术开放日分享的两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。其中,空间生成模型SpatialGen在技术开放日当天已可以在开源网站下载使用,而空间语言模型SpatialLM 1.5未来也将以“SpatialLM-Chat”形式完成开源。
以上就是群核科技发布空间大模型,或解决视频生成时空一致性难题的详细内容,更多请关注其它相关文章!
# 前代
# 三月营销推广词汇大全
# 在网站上推广怎么做
# 怎么推广政务平台网站呢
# 亳州网络推广营销哪家好
# 梅州推广网站服务商
# 优化网站排版教程
# 发布APP推广需求 网站 平台
# 偃师seo优化排行
# 数字营销推广免费咨询
# 智慧农业营销推广策略
# 高斯
# 正式发布
# 一键
# git
# 室内
# 结构化
# 这一
# 的是
# 开源
# 关键词
# hugging face
# 2025
# 2025年
# deepseek
# ai视频
# ai
# 工具
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
faq是什么意思
kingston是什么_kingston是什么意思
苹果16如何预购
如何让固态硬盘坏掉
typescript和哪个语音很像
win7旗舰版wifi怎么打开
电瓶车屏幕上显示power是什么意思
如何安装大华固态硬盘
如何查询固态硬盘寿命
如何利用运行命令查看声音启动
如何用命令连接mysql
固态硬盘如何拆除
怎么用typescript 写js
如何进入cmd命令行
怎么在爱奇艺中投屏到电视最新方法
汽车排量是什么意思
手机如何ip绑定域名解析
vivo手机nfc功能是什么意思
如何体验苹果16系统
酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法
油电混动车仪表盘上的power是什么意思
得物怎样不扣手续费 如何通过得物不支付手续费
如何使用命令行界面
苹果16多有哪些功能
typescript有什么作用
为什么夸克流畅播失败
关系型数据库和非关系型数据库有哪些
春运抢票最好抢什么票啊
平仓是什么意思?
手机如何运行ping命令
路由器上的power按钮是什么意思
苹果16有哪些黑科技
单片机怎么定义字符长度
位置控制单片机怎么用的
如何显示固态硬盘
舆论是什么意思
春运抢票技巧攻略
交管12123协议头不完整怎么解决
手机拍电脑屏幕有条纹怎么解决
云笔记本电脑有什么用
如何在昇腾Ascend 910B上运行Qwen2.5教程
为什么夸克无法注销账户
j*a二数组怎么创建
j*a怎么复制数组中
typescript中怎么引用js文件
angluar如何命令删除dist
春运订票什么时候抢票
python如何命令行换行
复制 命令如何撤销
怎么确定手机是5g


2025-08-27
浏览次数:次
返回列表