8款AI视频生成产品实测,谁将成为中国Sora?

珠江路在线   2024年3月28日  【 转载 】韩剧网 

2024年开年,科技圈没有什么比Sora的浮现更让人兴奋 。

如同ChatGPT在2023年头带来的LLM创业潮,Sora的公布也和样将视频生成模型推到了风口浪尖 。

8款AI视频生成产品实测,谁将成为中国Sora?

科技巨头猛推产品,创业公司则乘风而上 。

3月13日,AI视频大模型公司爱诗科技 实现亿元级人民币A1轮融资;3月12日,生数科技 实现数亿元A轮融资;3月1日,AI视频生成 SaaS服务商「布尔向量」 实现近千万元融资...

Sora首次践行了DiT架构,将过去各自独立的扩散模型和大模型 交融在了一起,也将视频生成模型的历史 打开了新的篇章 。

毫无 疑难,一场新的技术风暴正在到来 。一夜中间,国内大大小小的视频生成大模型争抢“中国版Sora”的标签 。

为了探索这个问题的答案,「自象限」通过国内已有的视频生成产品进行实际体验,并 联合公开信息、第三方检测机构数据等多个维度,对当下主流的视频生成模型进行了全面评估 。

我们将从产品设计、实测 动机和行业 综合三个角度,全面探索, 终究谁能成为“中国版Sora”?


DIT的创新,谁能复刻?

Sora的风 固然才方才从大洋彼岸吹到了中国,但视频生成却不是什么新奇的话题 。

在此之前,这个赛道已经 经历了Runway的Gen-2、Pika1.0和谷歌VideoPoet的几波革命浪潮,终于来到了生 动机果更好、 工夫更长、逻辑性更强、更 巩固性的“Sora”时刻 。

「自象限」梳理绘制出了国内视频大模型公司及产品的 根本状况 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图:国内外视频生成大模型企业一览, 拜访量以2024年2月计

在国外,谷歌、微软这类“硅谷老钱”很早就投入到了多模态视频生成的探究中 。上一年,谷歌公布了多模态大模型Gemini和VideoPoet视频大模型,让人从直观的 动机层面看到了多模态生成视频的可能性 。

在国内,多模态技术路径方向上我们看到了更多的可能性,既有技术积存 深厚的大厂百度,也有大模型独角兽公司智谱,还有像生数科技、智象 将来一类以多模态大模型为 指标的创业公司 。

扩散模型路线是文生视频的主流路线,在 保障 动机生成上 施展着重要的作用,所以 即便是惊为天人的Sora在底层架构上也只不过革新,而非全盘颠覆 。

无论国内外,在这条 路径都最为拥挤,首先是一手打造和开源扩散模型的Stability AI公司,紧跟其后的是猛猛向前冲的Runway、Pika, 而后才是OpenAI、Meta、英伟达这些巨头 。

回到国内,腾讯、阿里、字节三个大厂在前期 几乎包揽了视频生成领域的探究,时不时地抛出一个demo小小地惊艳一下 。但真的谈到落地产品,还是创业公司显而易见更快一步, 比方爱诗科技、Morph studio、右脑科技等公司已经开始面向消费者开放 。

被称之为“Sora路线”的DiT,全称为Diffusion Transformer, 性质是把训练大模型 步骤机制融入到了扩散模型之中,从Sora技术报告出现的 后果来看, 大力出 奇迹之下可能会产生世界物理 模仿器的 动机 。

如今,Sora的底层架构被扒了个遍,训练的组件和技术也在开源的路上,但这也并不 象征着人手一个Sora 为期不远,技术、数据、算力、训练规模都是一道道关卡 。

最近,Sora核心团队负责人在采访中 透露:“Sora当前还处于反馈猎取阶段,还不是一个产品,短期内不会向公众开放 。”

从技术路线上看,国内的爱诗科技是少数从一开始就 保持了DiT路线的企业,其 独创人王长虎在公开采访中谈到,Sora的浮现验证了爱诗视频生成大模型的方向正确性 。正因如此,爱诗科技定下了“3—6 个月赶超Sora”的 指标,抓住机会,奋起直追 。


产品实测,消费者“跑分”

在视频生成模型赛道,当前国内的创业公司 大体 能够分为两类 。

一类是以爱诗科技(PixVerse)、生数科技(PixWeaver)、 Morph Studio和智象 将来(Pixeling)为代表的自研 根底大模型,聚焦通用场景的视频生成工具 。

另一类则包含右脑科技(Vega AI)、李白AI 试验室(神采promeai)、毛线球科技(6PenArt)、布尔向量(boolv.video)和MewXAI(艺映AI) 。这一类数量更多,也更加产品化, 专一于解决某一类场景下的问题,更像是一个AIGC的在线编辑平台 。

我们的测试和评比通过三个 部分构成,分别是 使用门槛, 根底产品 性能和内容生成 威力 。

首先是 使用门槛 。我们测试的8款产品,都已经 支撑通过网站 使用产品(许多创业公司产品不得不通过Discord 使用),也都 能够免费试用 。

但其中,仅有爱诗科技的PixVerse不 制约免费试用次数, 其余产品都有三到五次的试用 制约,超过试用次数之后就需求 开明会员或充值能量 使用,价格从几元到几百元不等 。

除了PixVerse之外, 其余产品在付费之前 根本都有 性能 制约, 比方艺映AI和Pixeling不得不生成2s、4s的视频,更长的视频则需求付费 。

所以从 使用门槛上综合考量,PixVerse对消费者要更加 友爱,在这一板块 绝对更有优势 。 其余产品在 使用门槛上则 绝对 均匀 。

具体状况如下图:

8款AI视频生成产品实测,谁将成为中国Sora?

其次是产品 根底 性能 。

我们测试的8款产品,除了神采Promeal和6PenArt之外,都同时具备文生视频和图生视频的 威力 。而神采Promeal和6PenArt只具备图生视频的 威力,不具备直接文生视频的 威力 。

除了这两家之外, 其余厂家就 比较成熟,但产品 性能差别却 比较大 。

其中,爱诗科技的PixVerse在 根底 性能之上还添加了 丰盛的辅助 性能, 比方除了正向 揭示词,消费者还 能够输入负向 揭示词,要求生成画面中不要浮现某些元素 。

图片生成视频时,消费者也 能够撰写 揭示词操纵输出 动机 。 能够 取舍视频 格调, 能够调节画面比例等等 。

同类产品中,惟独Pixeling 占有负向 揭示词、图生视频 揭示词和视频比例调节,惟独艺映AI 能够调节视频 格调、画面比例 。

大模型的技术水平决定视频生成的 品质,而产品 威力则决定了大模型是不是 能够被很好地利用,与 利用场景相 联合 。

关于视频生成产品而言, 性能的 丰盛程度决定了消费者上手的方便程度,对视频生成的掌控 威力,并最后影响输出 后果和消费者体验 。

所以从产品的完善程度和 性能 完全度上,PixVerse整体率先,智象 将来的Pixeling排名第二,艺映AI第三,Vega AI第四 。其中布尔向量 绝对例外,作为 专一跨境电商的视频生成工具,其在特定场景下 性能更加齐全易用,但在视频生成方面 绝对不足竞争力 。

8款AI视频生成产品实测,谁将成为中国Sora?

固然, 根本 性能之外,更核心还是视频生 动机果 。所以第三 部分是视频内容生成 威力测试 。

首先是视频生成时长 。Sora当前 能够生成60s的视频,但国内创业公司的视频生成大模型,时长大多集中在2s'4s左右,差距并没有特殊大 。

其次是根据 揭示词的内容 体现 威力 。

Sora公布时,输出过这样一段视频,其 揭示词是:漂亮,白雪皑皑的东京街道很 热烈 。几个人在附近的小摊上享受着漂亮的雪天并购物 。漂亮的樱花花瓣和雪花在风中飞舞 。

▲Sora根据这段 揭示词生成的视频

根据这段 揭示词,我们也分别 使用爱诗科技的PixVerse、右脑科技的Vega AI、MewXAI和智象 将来的Pixeling生成了同样一段视频 。(因为生数科技的PixWeaver网页端暂停试用,故未纳入评测)

首先是爱诗科技的PixVerse 。

4s的内容 根本还原了 揭示词中提到的全部 要害词,同时体现了“ 热烈”和“小摊”的 空气 。镜头跟着画面徐徐推进,视频整体 格调 维持 统一,建造、灯光、路旁的树木、行人都 比较 实在,画面没有显而易见卡顿,除了人物行走稍有些不自然之外,没有浮现元素扭曲 。

▲PixVerse根据这段 揭示词生成的视频

其次是右脑科技的Vega AI 。

同样4s的内容,同样惟 唯一个镜头,顺着人流密集的街道徐徐推进 。但与PixVerse将场景放到华灯初上的 傍晚不同,Vega AI 取舍的是白天 。

与爱诗科技的PixVerse相比,Vega AI的人物脚步 混乱状况更加严峻, 部分人物在行走过程中从两只脚变成三只脚, 而后又消逝不见 。此外, 部分人物的生成也十分含糊,惟 唯一个人影且在不停变幻 。

▲Vega AI根据这段 揭示词生成的视频

而后是艺映AI 。

与PixVerse和Vega AI有 定然的镜头运动不同 ,艺映AI生成的视频镜头是固定的,也是这几个视频中唯逐个个 取舍了正面视角的视频 。

但 取舍正面视角也和样给艺映AI带来一个问题,即在人物的面部表情没有 步骤很好地 解决 。视频中迎面走来的两个人面部向来没有 巩固下来 。此外,艺映AI也和样存在人物移动的问题,但因为生成的视频惟独2s, 体现得并不显而易见 。

▲艺映AI根据这段 揭示词生成的视频

第四是智象科技的Pixeling,4s的视频,采纳固定镜头,人物往前运动 。 类似的画面,除了同样存在人物生成、移动等方面的问题之外,Pixeling对语义的 了解显而易见更浅 。

比方 揭示词中的“ 热烈”,前面的视频都通过灯光、街道店铺、人流来进行 体现,但Pixeling 取舍的却是一个雨天小巷,人流也 比较少 。整个画面显得 比较冷清 。此外, 揭示词中的“购物”该视频中也并没有体现 。

▲Pixeling根据这段 揭示词生成的视频

最后是Morph Studio 。其官网尚未开放公测,「自象限」通过Discord进行测试 。

Morph Studio 乏味的地方有两个,其一是英文 揭示词的生 动机果要大大好于中文 揭示词 。「自象限」先是通过中文 揭示词生成视频,得到的 后果与 揭示词毫不 有关,随后「自象限」将 揭示词改为英文,输出的 动机直线 晋升 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图片:Discord截图

从视频内容上看,Morph Studio的视频生成惟独3s,要比 其余产品的时长都要短,清楚度要比 其余产品更低一些,但整体画面内容更加写实 。从细节上看,Morph Studio生成的视频 依然存在细节含糊扭曲,人物“漂移”、浮现又消逝等问题 。

▲Morph Studio根据这段 揭示词生成的视频

在文生视频之外,剩下两位只 支撑“图生视频”的发烧友——神采Promeal和6PenArt 。但这两位,在图生视频上的 体现也并不好 。

其中,神采Promeal仅 支撑单张图片生成“动态图”,也没有 揭示词 性能 。 因而生成的视频人物形象扭曲,没有实际 使用价格 。

▲神采Promeal根据图片生成的视频

对照来看,6PenArt更像一个AIGC的内容社区,图片生成和视频生成只不过其中一个 威力 。但6PenArt并不 支撑直接通过 揭示词生成视频,而是需求先在平台通过 揭示词生成图片, 而后将图片转化成视频 。

「自象限」通过 揭示句“一只正在 漫步柯基,嘴里叼着一朵花 。”生成了四张图片 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图片:6PenArt截图

而后以这四张图片为 根底,用 揭示词“一只在春天里奔跑的小狗 。”生成视频 。

▲6PenArt根据图片生成的视频

能够看到,这个视频 依然停留在“动态图片”的状态,与视频相差甚远 。

除此之外,布尔向量也没有被纳入到这次评比中 。

因为从产品 使用体验上,布尔向量的boolv.video更像是一个AI编辑器的概念,当我们输入一段 揭示词之后,系统会自动将 揭示词拆解成多个脚本、分镜, 而后撰写文案,分别输出多段视频 。生成视频之后,消费者 能够对每一个分镜进行编辑,替换视频、改换旁白和声音等等 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图片:boolv.video截图

但boolv.video的视频生成 威力其实很有限,既 无奈 了解深度语义,也不能生成与 揭示词精确对应的视频内容 。

在我们以上测试的产品中,严格 意思上惟独PixVerse、Morph Studio是 专一于视频生成的大模型, 其余产品都是由早期文生图、图生图的AIGC 利用演变而来 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图片:测试产品是不是 专一于视频生成

回过头来,我们根据 屡次测试,针对以上提到的产品进行了 整顿 。

从对 揭示词的 了解 威力、画面的逻辑 抒发 威力、画面细节的 体现,到视频生成的 品质、画面的 统一性、 巩固性和流畅性等角度 。

在测试的8个产品后,综合对照下来,爱诗科技旗下的PixVerse和Morph Studio综合 威力 绝对较好,右脑科技的Vega AI排名第二,艺映AI第三,Pixeling第四 。

8款AI视频生成产品实测,谁将成为中国Sora?

最后,从整个评测从 使用门槛,到产品 性能,再到内容生成 威力,中国创业公司的各类产品各有千秋 。但整体来看,在中国创业公司中,爱诗科技的PixVerse整体 威力略高一筹,是中国最具备Sora气质的产品 。其次是Morph Studio,这两者构成中国视频生成模型的第一梯队 。

其次包含Vega AI、艺映AI、Pixeling则一起处在第二梯队(生数科技因产品暂停 使用,未纳入评测),最后神采Promeai、6PenArt和boolv.video则在第三梯队 。

以下是「自象限」评测总表:

8款AI视频生成产品实测,谁将成为中国Sora?

用生产力工具, 构成数据飞轮

事实上,对照了国内科技巨头和创业公司到当前为止的落地产品后的状况我们会发现,大公司更慢,反而是创业公司的产品和消费者规模跑地更快 。

李彦宏也曾经提到:大公司做小创新,小公司 能力做大转变 。

而想要真正在 强烈的角逐中突围,当前来看,除了技术路线 取舍和产品 本身的 威力外,产品的 使用场景、消费者体验、行业 利用等等综合维度, 依然是视频生成模型比拼的 要害 。

产品 使用场景方面,如前文所言,一类公司在埋头做新工具而另一类公司则将技术嵌入在某些成熟的产品中,这是两条 彻底不同的路线 。

关于工具类的产品,产品力的一个核心体现在于: 是否成为生产力工具 。

让我们 容易回忆一下Midjourney的进展历程就会发现,Midjourney V5版本是文生图历史上的一个 要害临界点,无论是从 动机、精确性和速度等多方面的因向来看,V5正式从“玩具”蜕变成了生产力工具,而这一次产品 威力的 打破,带来的是消费者大规模涌入,数据飞轮开始转动, 动机 日新月异 。

8款AI视频生成产品实测,谁将成为中国Sora?

▲图:网友制作的V1-V6的生 动机果对照图, 起源X

对照“V5时刻”我们发现,视频生成模型也马上迎来奇点 。

通过 实在的评测我们发现,PixVerse生成的视频在主体 统一性、运动平滑度、运动幅度、清楚度等方面都更具备 使用价格 。

在生产力工具的前提下,也分为两条产品路线,一类是如Adobe公司践行的走专业工具的路线,让专业的人更专业,另一类则是如Word一般,让一般人也能成为生产力 。

在这个问题上,Pika 独创人郭文景在采访时 示意Pika并不是电影制作工具,而是为日常消费打造的产品 。PixVerse的思路则更加明确,相比于Pika分层订阅的商业模式,PixVerse在消费者量和视频 动机都处于 寰球第一梯队的前提下,仍在 延续向世界各地免费开放,这是当前其它视频生成产品都难以企及的 。

也正是因为消费者 友爱的态度和率先的视频生 动机果,让PixVerse的飞轮先转了起来 。根据第三方数据监测平台显示,当前PixVerse的消费者规模与Pika处于 等同量级,其 拜访量也远超国内 其余主流视频生成产品 。(数据 起源:similarweb.com)

8款AI视频生成产品实测,谁将成为中国Sora?

▲PixVerse,与Pika,Runway产品页面2024年2月数据对照

8款AI视频生成产品实测,谁将成为中国Sora?

▲国内重要文生视频产品2月数据对照

8款AI视频生成产品实测,谁将成为中国Sora?

▲国内重要文生视频产品数据走势

通过调研我们发现,爱诗科技还 踊跃在国内外 赞助/举办各类AI大赛,推进技术加快落地的同时,也在加快实现技术普惠 。这个过程中,也有越来越多的消费者 感想到其产品PixVerse的优势 。

除此之外,爱诗科技的消费者生态做得十分突出,X上天天都会涌现大量 使用PixVerse创作的视频内容, 遮蔽英语、汉语、日语、西班牙语等多地域 。这是其它国内品牌 彻底不具备的优势,也 定然程度上反映了市场的 取舍 。

▲作者:Michael Heina 视频 起源:X

▲作者:Ameli Caotica 视频 起源:X

“PixVerse第一个 长处是免费、免费、免费;第二个 长处是操作简便且有效,我 只有求把图片放进去,不写任何prompt,让PixVerse自己决定画面运动,一般都能得到中意的 后果 。等待PixVerse 能够实现更大幅度的运动以及更长更 巩固的视频 。” 2024 MIT AI电影黑客松最佳影片提名奖 获得者反馈到 。

自象限认为,免费并不 象征着抛弃商业化,而是在产品打磨的初期,通过这样的 模式 获得 实在的消费者 使用体验和消费者生成后的高 品质视频数据,再反哺给视频生成模型,将迭代的速度加快, 构成数据—训练的飞轮 。

8款AI视频生成产品实测,谁将成为中国Sora?

结 语

综合来看,当前国内整个视频生成模型的技术 依然在模仿国外,但以爱诗科技为首的创业公司已经找到了自己的进展节奏和模式,正通过产品设计、消费者规模、 经营策略等综合 威力进行全面赶超 。

相比之下,Sora当前并未开放, 是否 承受住大规模消费者同时在线尚未可知, 是否能每次都做到精确、 统一的1分钟视频生成仍有待 测验 。

所以,并不 定然非要找到中国版Sora,以爱诗科技为代表的中国视频大模型公司,已经走出了新的、独立的 回升曲线 。

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。