栏目分类

热点资讯

新闻

你的位置:开云「中国」Kaiyun·官方网站-登录入口 > 新闻 > 开yun体育网最开动咱们的模子生成5秒的视频需要120秒-开云「中国」Kaiyun·官方网站-登录入口

开yun体育网最开动咱们的模子生成5秒的视频需要120秒-开云「中国」Kaiyun·官方网站-登录入口

发布日期:2025-12-30 14:53    点击次数:59

开yun体育网最开动咱们的模子生成5秒的视频需要120秒-开云「中国」Kaiyun·官方网站-登录入口

文|周鑫雨开yun体育网

剪辑|苏建勋

Luma AI在视频鸿沟叫板OpenAI故事,好比半途改打网球的杜兰特,打赢了网球男单大满贯纳达尔。

最近,这家建立于2021年的硅谷AI公司,在和《智能涌现》的交流中,复盘了视频生成模子Dream Machine AI爆火的过程。

在硅谷率先发布一款末端能对标OpenAI Sora的视频模子,对一家初创公司而言并拦阻易——更并且,Luma AI在视频生成鸿沟算得上是“进修有素”:

2024年前,这如故个主攻3D生成、限制在10东谈主傍边的小公司。Luma AI数据产物寂静东谈主Barkley Dai告诉《智能涌现》,2023年12月决定转型作念视频生成后,团队才推行了视频鸿沟的东谈主才,限制加多到了50东谈主。

他提到,Luma AI能成为视频生成鸿沟的蚂蚁大军,时期实力、发布时机和运营策略统筹兼顾。

东谈主才,是这家公司认为作念出视频模子最遑急的钞票。2023年12月,决定从3D转型作念视频生成后,Luma AI吸纳了40个AI鸿沟的东谈主才。

而和OpenAI、Google打擂台,Luma AI又对模子的算法和Infra作念了诸多优化。Barkley对《智能涌现》暗示,团队在Sora同款DiT架构的基础上,禁受了独家修订的架构,保证生成末端的同期,还精真金不怕火了考验和推理老本。

视频模子“Dream Machine AI”的发布时候,2024年6月13日,踩中了视频模子赛谈的空污点——这也让Dream Machine AI具有了稀缺性,除了快手“可灵”以外,这是独一真确对巨匠绽放的视频模子;

而模子的“限免”策略,又坐窝招引了多半试用者:上线4天,Dream Machine AI的用户量就破了百万。Barkley对《智能涌现》表露,Dream Machine AI的投流用度是0,全靠KOL自愿安利,和用户的口碑发酵。

爆火之后,提高用户留存,不让色泽好景不常,是Luma AI如今的命题。

2024年11月26日,在视频模子发布后近6个月,Luma AI在iOS和web端上线了Dream Machine AI创意平台。与之配套发布的,还有Luma AI自研的首款图像生成模子,Luma Photon。

△Dream Machine iOS界面。

Luma AI产物假想师Jiacheng Yang(杨家诚)告诉《智能涌现》,与Midjourney、Adobe等专科假想器具不同,Dream Machine不需要用户学习如何写Prompt(教导词),也不需要用户懂假想,“咱们的倡导等于作念一款AI小白和假想小白齐能应酬上手的AI视觉器具”。

据他先容,Dream Machine共有5个中枢功能:

(1)用天然语言进行对话,罢了图片的创作生成和剪辑;

(2)由AI提供创意点子,字据用户输入的Prompt,自动提供创意、作风选项;

(3)视觉参照,字据用户输入的相片,生成带有疏导主体或者作风的图片;

(4)将AI假想的图片滚动为视频,供用户检讨图片中主体在不同角度下呈现出的细节;

(5)将悉数AI生成的素材发布在面板上,并生成可供共享的链接,有助于团队进行头脑风暴。

△Dream Machine视觉参照功能。

为什么遴遴聘图像假想平台,去连续视频模子的用户?“想要扩大AI视觉鸿沟用户的盘子,唯独视频生成是不够的。图像生成的哄骗场景会更庸俗,是以咱们想作念一个很好上手的假想平台,用户能够应酬上手的同期,也能展现咱们的模子智商。”Barkley提到。

行业竞争,是作为初创企业的Luma AI不得不靠近的问题。他们认为,打出各异化上风,是让模子和产物在行业中具有辨识度和获客的关节。

比如靠近Midjourney等图像产物的竞争,Dream Machine把语言聚会智商作念到了“天花板”。以及,这亦然一个最会假想字体的模子——相较于Midjourney和GPT生成的带笔墨的图片,Dream Machine图片中笔墨的假想感和显著度是最高的。

△Dream Machine在图片中生成的配文。

和视频模子一样,Luma AI给Dream Machine破耗的投流预算,是0。在Barkley看来,烧钱营销看的是请问率,这意味着最终如故要用产物话语。以及,“AI阛阓还很小,我认为对AI公司来说,烧钱营销还为前锋早。还不如把营销的钱,投到产物研发上”。

以下《智能涌现》与Luma AI增长寂静东谈主Barkley Dai、Luma AI产物假想师Jiacheng Yang的交流,内容略经《智能涌现》剪辑:

烧钱营销,AI公司还为前锋早

《智能涌现》:2024年6月发布视频模子Dream Machine的时候,团队有莫答应象到会爆火?

Barkley:其实那时是远超咱们预期的,咱们一度出现行状器和GPU资源莫得办法承受的情况。

《智能涌现》:如果要回首爆火的教育,你认为是什么?

Barkley:其实最早发布的版块,还不是末端最佳的版块。但咱们决定全量免费放给悉数的用户去使用。

在那时,还莫得一个视频模子能够作念到这样。是以短时候内招引了好多用户的关注。

《智能涌现》:关于创业公司来说,作念免费的决定是不是还挺拦阻易的?

Barkley:其实咱们那时也给免费竖立了一个额度,我认为这是一个行业的standard practice(基本操作)。

仅仅那时的峰值对咱们来说过高,多半的用户在短时候内涌入,行状器后台收到了太多的request。

《智能涌现》:公司能包袱流量带来的推理老本吗?

Barkley:其实咱们如故在时期层面作念了好多老本的优化,比如不断去进步视频生成的速率,最开动咱们的模子生成5秒的视频需要120秒,当今只需要20秒。

以及在保持原有生成质料的情况下,视频模子的推理还有好多优化的空间。是以在半年时候里,视频模子的老本是鄙人降的。

是以我认为推理老本对咱们来说不是特地大的包袱,天然亦然一笔开支,但将来会变低。

《智能涌现》:你提到Dream Machine是有免费额度的,那么使用完免费额度后的用户付费率若何?

Barkley:说真话咱们拼凑费率十足莫得任何预期。因为那时咱们对Dream Machine的定位是锤真金不怕火用户的产物,让用户知谈Luma AI视频生成的后劲有多大。那时市面上还莫得一个视频模子是按照对标Sora的水平发布的,是以咱们拼凑费率十足莫得对标的对象。

但当今发布的AI假想平台,咱们的定位是最终去获客的产物。是以当今咱们对它的收入和付费率有更高的期待。

《智能涌现》:Dream Machine在营销上插足了若干?

Barkley:0,咱们在发布的时候莫得作念任何的营销付费。

天然咱们提前往筹商了好多创作家,他们试用后齐认为很兴盛,致使大多数东谈主之前用过Runway,还有东谈主用过可灵。但他们用了咱们的产物后,齐认为说“This is the next big thing”,在推特上自愿帮咱们践诺。

但咱们莫得作念任何的投放,因为咱们如故征服生效的成分等于产物自己。

《智能涌现》:烧钱营销,这一套移交在硅谷AI公司常见吗?

Barkley:我嗅觉硅谷大部分如故比拟产物驱动的,运营这一套主如果中国公司。

视觉鸿沟的阛阓还很小,我认为对AI公司来说,烧钱营销还为前锋早。即便ChatGPT的用户好多,然而像一些视觉模子,用户如故很少数。

这个时候如果你作念投流,去作念赛马圈地,留存肯定不高,还不如把这些钱插足到模子和产物的研发上,用更好的模子和产物吸援用户的增长。

《智能涌现》:在发布视频模子之前,Luma AI的时期和产物如故围绕3D生成的。团队是什么时候决定作念视频生成模子的?

Barkley:梗概在2023年12月。

《智能涌现》:为什么从3D转向作念视频和图像模子?

Barkley:咱们原本其实也不会说我方是一个3D公司,公司的定位如故视觉鸿沟的AI公司,咱们想去聚会这个天下在视觉上的构造,是如何匡助AI对天下进行聚会的。

从独创团队的斟酌布景来看,一开动3D是Luma AI比绝大多数公司和团队更擅长的事。后续咱们也如实作念了好多3D生成上的时期冲破。

然而3D不错被用于考验的数据量级,相较于图片和视频来说齐会少好多。同期在使用场景上,当前手机和电脑如故主要的产物载体,但3D也会比视频更受到纵容。

然而当咱们有更多的算力、更多的东谈主才,也有更多的智商去股东咱们的愿景,也等于更好地了解天下,咱们也天然地会从3D转向作念视频。

《智能涌现》:这会不会让公司看起来计策有些扭捏?

Barkley:从我作为一个里面成员的视角来看,我认为无论是3D如故视频生成,一直齐是合理的。

因为无论是3D,如故视频和图片,齐仅仅一种模态。如果咱们最终想作念到的是对这个天下的聚会,那么无论是一种模态、一种生成,如故一种创意的推崇,我认为只消倡导不变,这些绪论就仅仅帮咱们达成倡导的技巧。

《智能涌现》:从3D转型作念视频生成,时期有遭逢什么用功吗?

Barkley:我认为悉数这个词过程如故比拟告成的,因为咱们在作念3D生成的时候,团队也就在十几东谈主的限制,但当咱们作念视频生成以后,引入了好多视频鸿沟的东谈主才,当今团队限制也曾进步了50东谈主。

这个过程其实是吸纳了更多新成员去股东倡导的罢了,而不是说原本巨匠就在往往地换地点。仅仅原本作念3D的东谈主,当今也在渐渐开动作念视频方面,比如数据等各方面的职责。

《智能涌现》:作念3D的阅历对视频生成有匡助吗?好多响应说Dream Machine的指点轨迹作念得很好,这和3D积蓄下的空间聚会智商筹商吗?

Barkley:我认为可能不一定有那么径直的关系。

但从咱们发布最早版块的视频模子开动,咱们对相机的轨迹指点,包括视频里有若干机位的变化,是十分侧重的。

是以那时用户也会普遍响应说,Luma AI的模子诚然偶然候生成末端不是那么剖判,然而它能给到好多的机位的挪动,以及复杂的东谈主物指点轨迹。

我认为昔时在3D上的一些教育,能够让咱们在作念视觉模子的时候,意志到进步机位的丰富度和指点轨迹的复杂度,能够提高用户对视频生成内容的浮滥意愿。

不外我认为昔时的教育,包括模子自己之间,其实莫得那么大的关联性和模仿兴味。

《智能涌现》:是以时期转型最遑急如故补充新的时期东谈主才是吗?

Barkley:是的。

连续住模子的爆火,需要有产物

《智能涌现》:6月份Dream Machine走红后,你们如何沟通用户留存的问题?

Barkley:咱们发布Dream Machine的时候,就知谈背面一定要有产物去连续用户络续剖判的需求。

比如你作为一个ChatGPT的历久用户,即便后续会出来好多智商作念得和GPT差未几的模子,你如故或者率会遴聘使用ChatGPT。因为ChatGPT通过历久的深度学习,也曾把抓了用户民俗,能够更好地聚会你的意图。

行业里永久会有更好的模子出现,但产物最终是能够让用户留存的点。

《智能涌现》:团队是从什么时候打行为念这样AI假想平台的?

Barkley:这个想法其确实咱们最开动作念视频模子的时候就有了。是以产物的想法是昨年(2023年)12月和视频模子同步股东的。

仅仅在产物的假想过程中,咱们自后意志到,要想把悉数这个词假想经过涵盖,也必须要作念到能够生成图片。是以在视频模子发布5个月以后,咱们认为图片模子也饱和好的时候,把两部分同期整合成一个产物。

《智能涌现》:平台的倡导用户是哪些东谈主?专科假想师如故巨匠?

Barkley:其实咱们认为原本的Dream Machine,更多的用户如故偏专科的,至少是有作念AI电影的教育,或者知谈如何用Prompt去生成更好的末端。

但其实咱们更但愿当今的产物,让之前没灵验过AI致使莫得假想教育的东谈主用起来。比如,如果他们在职责中需要用这样的经过,不错特地容易地通过一轮一轮地和AI进行对话去罢了。

咱们在6月份发布的视频模子Dream Machine,其实如故需要一些使用门槛的。咱们在那时候就在想,但愿广博东谈主也能access这些视觉器具,就好比视觉里的GPT。

但视觉是一个很小众的垂类鸿沟。咱们作念假想平台的想法等于,如何去扩大这个群体。唯独扩大群体,才气让视觉鸿沟的AI赢得更好的发展。

《智能涌现》:非专科假想师很难把一整套假想的职责流用得很深刻。我的大部分生图需求,可能输入一个通俗的Prompt,用GPT,或者Midjourney就能夸口。

Jiacheng:咱们的想法是,把用户能应酬感受到阔别的功能作念到最佳,比如咱们图像智商比GPT好,然而语言聚会智商比Midjourney要好。

我用团结个最基础、十足不复杂的Prompt,让Dream Machine和Midjourney对比一下:i want to make a poster for my brother band “crazy avocado”.(我想为我昆玉的乐队“豪恣牛油果”作念一张海报。)

△Dream Machine字据“i want to make a poster for my brother band ‘crazy avocado’”生成的乐队海报。

△Midjourney字据“i want to make a poster for my brother band ‘crazy avocado’”生成的乐队海报。

你看Midjourney生成的海报,既不Crazy,也莫得Avocado的元素,也看不出来是个乐队的海报。

语义聚会的智商其实比你想象的遑急,会影响好多场景的落地。因为生建设地的、颜面的图片,在实用场景中兴味不是很大。

如果要让Midjourney真确复原你的意图,你需要写好多Prompt,包括海报的假想、上头写的笔墨、阐明Crazy的作风等等。学会写Prompt,我或者花了两三个月时候。

但我信托ChatGPT的大部分用户是不会去学的,他们等于进来问一个问题,得到一个论断。

咱们作念假想产物的念念路,亦然一样的。按照之前市面上的产物,如果我想要得生成复原我意图的图片,当先,我要花20好意思金买Claude或者GPT,帮我生成Prompt;其次,我要再花20好意思金到40好意思金买Midjourney,生成图片;终末我还要花20好意思金的订阅,把这些图片形成视频。

算下来,文生视频起码要花60-80好意思元。当今用Dream Machine,可能10好意思元就能惩办了。

《智能涌现》:Dream Machine语言聚会智商的开头,亦然自研模子吗?

Barkley:语言模子用了第三方的API,咱们再去构建了一个Agent。这个Agent能够聚会用户意图,然后通过不同的Prompting的模样,把用户意图滚动为图像和视觉模子能够聚会的指示。

《智能涌现》:Luma AI当今既有模子,又有产物,如何去作念买卖化?

Barkley:产物如故会禁受订阅的模样。模子等于提供API。

《智能涌现》:不作念定制化?

Barkley:定制化不太相宜初创公司,会溜达元气心灵。

当前莫得专科视觉器具,在界说交互范式

《智能涌现》:一个俗套的问题,你们如何看待巨头下场?按照国内的情况,字节和快手的下场,也曾给好多初创公司带来了融资和获客上的压力。

Barkley:咱们发现,这个问题其实是公司和股东之间的问题。唯独股东才会温雅:如果哪天一个巨头把你这个事情作念了,会如何样?

但内容上,咱们公司好多Research齐有这样的嗅觉:当公司达到一定例模,需要你去相助各式千般的东西的时候,你股东的速率会变得特地慢,改进的速率也会掉下来。

诚然Luma AI的团队在昔时一年多的时候里也彭胀了好多,但如故保持着快速改进、快速迭代的节律。

我认为有一个类比特地好:其实你在大公司里,真确去作念视频模子和相应产物的团队,可能也唯独几十个东谈主。比如OpenAI看起来很大,但Sora的团队也就这样多。

天然说到更大的公司,比如Google,他们可能有比咱们更好的distribution channel(扩散渠谈),但他们雷同会受制于各式经过上,一个新产物会有买卖化等好多方面的concern,股东的速率不会那么快。

《智能涌现》:Luma AI的迭代节律有多快?

Barkley:举座迭代速率一直是以几个月,致使是1-2个月来计算的。时期会加入新的功能,底层模子的末端也在进步。

就像Dream Machine 1.0在2024年6月发布,1.5版块是在8月发布。1.6版块加了camera control(镜头适度)功能,在9月底发布。

《智能涌现》:一个新的假想器具型产物,如何去获客?

Jiacheng:我觉稳健先不错去分析ChatGPT是如何获客的。你会发现,ChatGPT不光最佳的身手员在用,你隔邻的大叔大妈也在用。

我认为AI器具带来的最大的变化是,由于它自己的可塑性和天真性,它不错行状险些悉数有视觉需求的东谈主。

我并不认为当前特定的视觉专科的软件,有特地好的交互,换句话说,当前莫得专科视觉器具界说了悉数这个词行业的交互范式。

《智能涌现》:你如何界说“好的交互范式”?

Jiacheng:比如ChatGPT就界说了悉数这个词行业ChatBot的交互范式,像当今好意思国的小孩齐不是说ChatGPT,他齐是说你有么有问你家的“Chat”。

这里的“Chat”,也曾成了一个像“Google一下”的行动。

咱们作念Dream Machine亦然一样的。谁能先把广博巨匠的想象,通过一个流通、通俗的治安,呈现出一个颜面真谛,然后能共享给别东谈主的或者灵验的图片,谁就能在这个鸿沟有上风。

《智能涌现》:从立项到上线,时期你们对交互样式进行了哪些探索?

Jiacheng:咱们当前来说,包括行业对咱们的贯通,齐是一个视频模子科研公司。

然而如今的AI时期是一个特地以用户体验为中枢的产物,时期型产物的倡导和迭代过程很彰着,等于最佳的用户体验。

咱们能猜想的最佳的用户体验,等于用最天然的交流模样,把Dream Machine当成一个创意助手或者Creative Partner。你如何和假想师互动,就如何和系统互动。

有了这样一个倡导,咱们就会去了解咱们的图片和视频模子,能够提供若何的智商。同期也去了解悉数这个词行业处于若何的发展阶段,第三方的语言模子能够给咱们若何的匡助。

时期,各式千般的Agent软件器具也在迭代,巨匠关于AI哄骗层的念念考也有变化。是以一年以来,咱们的产物等于一个络续迭代的过程,具体等于一个月字据行业变化打磨,再花一个月去修改。

这些东西总体统筹、交融起来,才有了当今这样的末端。

Barkley:时期咱们也发现,在AI视频生成鸿沟,当前图生视频比文生视频愈加受接待,因为用户在乎可控性。

是以悉数能够进步可控性的,齐是用户特地需要的功能点。

《智能涌现》:时期行业哪些产物或者贯通的动向,会对公司的产物研发节律产生影响?

Barkley:其实我认为昔时一年时候里,咱们的产物策略莫得变太多,如故一直想作念能让悉数东谈主镌汰使用模子的产物,不会跟着其他AI产物的发布去作念任何的策略调理。

我认为产物团队更温雅的事一些Research上的动态和进展,比如咱们想作念作风转移、作风转移的功能,就会去查有哪些最新的学术斟酌和论文,致使产物团队会加入Research团队的盘问,去看研发功能的可行性。

《智能涌现》:产物团队在日常职责中是如何和算法团队交流的?

Barkley:立项的时候,咱们会从用户的角度,认为作风模仿这样的功能很遑急。

然而从Research的角度,其实他们不细目这个功能能不行作念出来,以及能达到若何的末端。是以Research会先去作念好多的实验,直到他们把算法作念出来以后,咱们看到这个功能的极限,再去念念考如何把功能融入到举座产物和体验上。

是以其实Research是一个愈加不细倡导过程,常常需要比拟长的时候,也不知谈要花多万古候考验。

《智能涌现》:时期也会铁心好多暂时不够好的功能。

Barkley:对。是以其实好多功能咱们会从用户的角度去想,有的功能Research团队能够在短时候内作念出来,有的功能咱们又赓续插足,去作念更长的研判,体当今将来的产物里。

接待交流!



Powered by 开云「中国」Kaiyun·官方网站-登录入口 @2013-2022 RSS地图 HTML地图