新闻中心
Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率
最近,ai 科技评论发现,国产视频生成模型 open-sora 在开源社区悄悄更新了!
现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。
生成个横屏圣诞雪景,发b站:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

再生成个竖屏,发抖音:

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了:
视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ
怎么玩?指路GitHub:https://github.com/hpcaitech/Open-Sora
更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例 和 详尽的上手教程。
1、Open-Sora技术报告全面解读
最新功能概览
•支持长视频生成;
•视频生成分辨率最高可达720p;
•单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;
•提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;
•开源了最新的自动数据处理全流程。
时空扩散模型ST-DiT-2
多阶段训练
根据Open-Sora技术报告指出,Open-Sora采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。
初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。
统一的图生视频/视频生视频框架

支持图像和视频条件化处理的掩码策略
此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

掩码策略配置说明
支持多时间/分辨率/长宽比/帧率训练
OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。
具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora 分桶策略
数据收集和预处理流程

Open-Sora 数据处理流程
2、Open-Sora 性能全方位评测
视频生成效果展示
Open-Sora最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。
比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。
又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。
Perplexity
Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要
302
查看详情

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

除了风景之外,Open-Sora还能还原各种自然生物。无论是红艳艳的小花:

还是慢悠悠扭头的变色龙, Open-Sora都能生成较为真实的视频。

笔者还尝试了多种prompt测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。




笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

分辨率:16*240p

分辨率:32*240p

分辨率:64*360p

分辨率:480*854p
我们还可以喂给Open-Sora一张静态图片让它生成短片




Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。
视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ
再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。


我们也能让Open-Sora 生成高清的图片



值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。
权重下载地址:https://github.com/hpcaitech/Open-Sora
当前局限与未来计划
尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。
开源地址:https://github.com/hpcaitech/Open-Sora
参考文献:
[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md
[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131(2025).
[3] https://openai.com/research/video-generation-models-as-world-simulators
以上就是Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率的详细内容,更多请关注其它相关文章!
# 抖音
# 网站建设排名 北京
# 贵港网站的优化工作
# 义乌网站建设课程考试
# 营口seo优化哪家便宜
# 宣城seo推广策划方案
# 竞价推广网站seo难点
# 提出了
# 都能
# 还能
# 多个
# 还可以
# 掩码
# 的是
# 时长
# 长宽
# 开源
# sora
# ai
# qq
# iphone
# git
# 大连网站推广 嶶星hfqjwl广告稳定
# 青岛SEO整站优化哪家便宜
# seo导航教程
# 东台家装网站建设
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
有什么基础可以学typescript
折叠屏手机为什么没火
折叠屏手机哪款最好
所有删除的聊天记录都可以恢复吗?
市盈率百分位roe是什么意思
新装固态硬盘如何安装
如何安装台式机固态硬盘
juice是什么意思
跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素
考勤机power红灯是什么意思
春运抢票技巧攻略
国标控制器单片机怎么接线
windows 如何连接ftp命令行
typescript变量是什么
市盈率292是什么意思
征信信誉不好如何恢复 如何修复不良征信方法
广东春运抢票怎么抢的
估值水平比较中市盈率E是什么意思
1s等于多少ms
win7如何打开命令行窗口
单片机怎么储存和显示
干股是什么意思
折叠屏手机选择哪个好
typescript怎么判断单选按钮
单片机怎么判定高电平
win10如何打开dos命令窗口大小
typescript和哪个语音很像
折叠手机内屏为什么会坏
单片机引脚怎么改成上拉
华为交换机 配置 如何复制命令行
nosql数据库的应用场景有哪些
市盈率中的19a是什么意思
如何在命令行执行存储过程
typescript全局配置放哪里
sausage是什么意思
夸克是什么用途
市盈率tt的扣非是什么意思
typescript是什么软件
j*a中如何创建列表数组
j*a数组怎么新增值
微信最多可以加多少好友
在遥控器中power是什么意思
苹果16哪些型号好用
春运抢票失败怎么抢
typescript多久能学完
苹果16改掉了哪些
固态硬盘如何迁移系统
破太岁是什么意思
soup是什么意思
为什么夸克没有动漫


2025-01-09
浏览次数:次
返回列表