栏目分类

热点资讯

新闻

你的位置：开云「中国」Kaiyun·官方网站-登录入口 > 新闻 > 开yun体育网最开动咱们的模子生成5秒的视频需要120秒-开云「中国」Kaiyun·官方网站-登录入口

开yun体育网最开动咱们的模子生成5秒的视频需要120秒-开云「中国」Kaiyun·官方网站-登录入口

发布日期：2025-12-30 14:53 点击次数：59

文｜周鑫雨开yun体育网

剪辑｜苏建勋

Luma AI在视频鸿沟叫板OpenAI故事，好比半途改打网球的杜兰特，打赢了网球男单大满贯纳达尔。

最近，这家建立于2021年的硅谷AI公司，在和《智能涌现》的交流中，复盘了视频生成模子Dream Machine AI爆火的过程。

在硅谷率先发布一款末端能对标OpenAI Sora的视频模子，对一家初创公司而言并拦阻易——更并且，Luma AI在视频生成鸿沟算得上是“进修有素”：

2024年前，这如故个主攻3D生成、限制在10东谈主傍边的小公司。Luma AI数据产物寂静东谈主Barkley Dai告诉《智能涌现》，2023年12月决定转型作念视频生成后，团队才推行了视频鸿沟的东谈主才，限制加多到了50东谈主。

他提到，Luma AI能成为视频生成鸿沟的蚂蚁大军，时期实力、发布时机和运营策略统筹兼顾。

东谈主才，是这家公司认为作念出视频模子最遑急的钞票。2023年12月，决定从3D转型作念视频生成后，Luma AI吸纳了40个AI鸿沟的东谈主才。

而和OpenAI、Google打擂台，Luma AI又对模子的算法和Infra作念了诸多优化。Barkley对《智能涌现》暗示，团队在Sora同款DiT架构的基础上，禁受了独家修订的架构，保证生成末端的同期，还精真金不怕火了考验和推理老本。

视频模子“Dream Machine AI”的发布时候，2024年6月13日，踩中了视频模子赛谈的空污点——这也让Dream Machine AI具有了稀缺性，除了快手“可灵”以外，这是独一真确对巨匠绽放的视频模子；

而模子的“限免”策略，又坐窝招引了多半试用者：上线4天，Dream Machine AI的用户量就破了百万。Barkley对《智能涌现》表露，Dream Machine AI的投流用度是0，全靠KOL自愿安利，和用户的口碑发酵。

爆火之后，提高用户留存，不让色泽好景不常，是Luma AI如今的命题。

2024年11月26日，在视频模子发布后近6个月，Luma AI在iOS和web端上线了Dream Machine AI创意平台。与之配套发布的，还有Luma AI自研的首款图像生成模子，Luma Photon。

△Dream Machine iOS界面。

Luma AI产物假想师Jiacheng Yang（杨家诚）告诉《智能涌现》，与Midjourney、Adobe等专科假想器具不同，Dream Machine不需要用户学习如何写Prompt（教导词），也不需要用户懂假想，“咱们的倡导等于作念一款AI小白和假想小白齐能应酬上手的AI视觉器具”。

据他先容，Dream Machine共有5个中枢功能：

（1）用天然语言进行对话，罢了图片的创作生成和剪辑；

（2）由AI提供创意点子，字据用户输入的Prompt，自动提供创意、作风选项；

（3）视觉参照，字据用户输入的相片，生成带有疏导主体或者作风的图片；

（4）将AI假想的图片滚动为视频，供用户检讨图片中主体在不同角度下呈现出的细节；

（5）将悉数AI生成的素材发布在面板上，并生成可供共享的链接，有助于团队进行头脑风暴。

△Dream Machine视觉参照功能。

为什么遴遴聘图像假想平台，去连续视频模子的用户？“想要扩大AI视觉鸿沟用户的盘子，唯独视频生成是不够的。图像生成的哄骗场景会更庸俗，是以咱们想作念一个很好上手的假想平台，用户能够应酬上手的同期，也能展现咱们的模子智商。”Barkley提到。

行业竞争，是作为初创企业的Luma AI不得不靠近的问题。他们认为，打出各异化上风，是让模子和产物在行业中具有辨识度和获客的关节。

比如靠近Midjourney等图像产物的竞争，Dream Machine把语言聚会智商作念到了“天花板”。以及，这亦然一个最会假想字体的模子——相较于Midjourney和GPT生成的带笔墨的图片，Dream Machine图片中笔墨的假想感和显著度是最高的。

△Dream Machine在图片中生成的配文。

和视频模子一样，Luma AI给Dream Machine破耗的投流预算，是0。在Barkley看来，烧钱营销看的是请问率，这意味着最终如故要用产物话语。以及，“AI阛阓还很小，我认为对AI公司来说，烧钱营销还为前锋早。还不如把营销的钱，投到产物研发上”。

以下《智能涌现》与Luma AI增长寂静东谈主Barkley Dai、Luma AI产物假想师Jiacheng Yang的交流，内容略经《智能涌现》剪辑：

烧钱营销，AI公司还为前锋早

《智能涌现》：2024年6月发布视频模子Dream Machine的时候，团队有莫答应象到会爆火？

Barkley：其实那时是远超咱们预期的，咱们一度出现行状器和GPU资源莫得办法承受的情况。

《智能涌现》：如果要回首爆火的教育，你认为是什么？

Barkley：其实最早发布的版块，还不是末端最佳的版块。但咱们决定全量免费放给悉数的用户去使用。

在那时，还莫得一个视频模子能够作念到这样。是以短时候内招引了好多用户的关注。

《智能涌现》：关于创业公司来说，作念免费的决定是不是还挺拦阻易的？

Barkley：其实咱们那时也给免费竖立了一个额度，我认为这是一个行业的standard practice（基本操作）。

仅仅那时的峰值对咱们来说过高，多半的用户在短时候内涌入，行状器后台收到了太多的request。

《智能涌现》：公司能包袱流量带来的推理老本吗？

Barkley：其实咱们如故在时期层面作念了好多老本的优化，比如不断去进步视频生成的速率，最开动咱们的模子生成5秒的视频需要120秒，当今只需要20秒。

以及在保持原有生成质料的情况下，视频模子的推理还有好多优化的空间。是以在半年时候里，视频模子的老本是鄙人降的。

是以我认为推理老本对咱们来说不是特地大的包袱，天然亦然一笔开支，但将来会变低。

《智能涌现》：你提到Dream Machine是有免费额度的，那么使用完免费额度后的用户付费率若何？

Barkley：说真话咱们拼凑费率十足莫得任何预期。因为那时咱们对Dream Machine的定位是锤真金不怕火用户的产物，让用户知谈Luma AI视频生成的后劲有多大。那时市面上还莫得一个视频模子是按照对标Sora的水平发布的，是以咱们拼凑费率十足莫得对标的对象。

但当今发布的AI假想平台，咱们的定位是最终去获客的产物。是以当今咱们对它的收入和付费率有更高的期待。

《智能涌现》：Dream Machine在营销上插足了若干？

Barkley：0，咱们在发布的时候莫得作念任何的营销付费。

天然咱们提前往筹商了好多创作家，他们试用后齐认为很兴盛，致使大多数东谈主之前用过Runway，还有东谈主用过可灵。但他们用了咱们的产物后，齐认为说“This is the next big thing”，在推特上自愿帮咱们践诺。

但咱们莫得作念任何的投放，因为咱们如故征服生效的成分等于产物自己。

《智能涌现》：烧钱营销，这一套移交在硅谷AI公司常见吗？

Barkley：我嗅觉硅谷大部分如故比拟产物驱动的，运营这一套主如果中国公司。

视觉鸿沟的阛阓还很小，我认为对AI公司来说，烧钱营销还为前锋早。即便ChatGPT的用户好多，然而像一些视觉模子，用户如故很少数。

这个时候如果你作念投流，去作念赛马圈地，留存肯定不高，还不如把这些钱插足到模子和产物的研发上，用更好的模子和产物吸援用户的增长。

《智能涌现》：在发布视频模子之前，Luma AI的时期和产物如故围绕3D生成的。团队是什么时候决定作念视频生成模子的？

Barkley：梗概在2023年12月。

《智能涌现》：为什么从3D转向作念视频和图像模子？

Barkley：咱们原本其实也不会说我方是一个3D公司，公司的定位如故视觉鸿沟的AI公司，咱们想去聚会这个天下在视觉上的构造，是如何匡助AI对天下进行聚会的。

从独创团队的斟酌布景来看，一开动3D是Luma AI比绝大多数公司和团队更擅长的事。后续咱们也如实作念了好多3D生成上的时期冲破。

然而3D不错被用于考验的数据量级，相较于图片和视频来说齐会少好多。同期在使用场景上，当前手机和电脑如故主要的产物载体，但3D也会比视频更受到纵容。

然而当咱们有更多的算力、更多的东谈主才，也有更多的智商去股东咱们的愿景，也等于更好地了解天下，咱们也天然地会从3D转向作念视频。

《智能涌现》：这会不会让公司看起来计策有些扭捏？

Barkley：从我作为一个里面成员的视角来看，我认为无论是3D如故视频生成，一直齐是合理的。

因为无论是3D，如故视频和图片，齐仅仅一种模态。如果咱们最终想作念到的是对这个天下的聚会，那么无论是一种模态、一种生成，如故一种创意的推崇，我认为只消倡导不变，这些绪论就仅仅帮咱们达成倡导的技巧。

《智能涌现》：从3D转型作念视频生成，时期有遭逢什么用功吗？

Barkley：我认为悉数这个词过程如故比拟告成的，因为咱们在作念3D生成的时候，团队也就在十几东谈主的限制，但当咱们作念视频生成以后，引入了好多视频鸿沟的东谈主才，当今团队限制也曾进步了50东谈主。

这个过程其实是吸纳了更多新成员去股东倡导的罢了，而不是说原本巨匠就在往往地换地点。仅仅原本作念3D的东谈主，当今也在渐渐开动作念视频方面，比如数据等各方面的职责。

《智能涌现》：作念3D的阅历对视频生成有匡助吗？好多响应说Dream Machine的指点轨迹作念得很好，这和3D积蓄下的空间聚会智商筹商吗？

Barkley：我认为可能不一定有那么径直的关系。

但从咱们发布最早版块的视频模子开动，咱们对相机的轨迹指点，包括视频里有若干机位的变化，是十分侧重的。

是以那时用户也会普遍响应说，Luma AI的模子诚然偶然候生成末端不是那么剖判，然而它能给到好多的机位的挪动，以及复杂的东谈主物指点轨迹。

我认为昔时在3D上的一些教育，能够让咱们在作念视觉模子的时候，意志到进步机位的丰富度和指点轨迹的复杂度，能够提高用户对视频生成内容的浮滥意愿。

不外我认为昔时的教育，包括模子自己之间，其实莫得那么大的关联性和模仿兴味。

《智能涌现》：是以时期转型最遑急如故补充新的时期东谈主才是吗？

Barkley：是的。

连续住模子的爆火，需要有产物

《智能涌现》：6月份Dream Machine走红后，你们如何沟通用户留存的问题？

Barkley：咱们发布Dream Machine的时候，就知谈背面一定要有产物去连续用户络续剖判的需求。

比如你作为一个ChatGPT的历久用户，即便后续会出来好多智商作念得和GPT差未几的模子，你如故或者率会遴聘使用ChatGPT。因为ChatGPT通过历久的深度学习，也曾把抓了用户民俗，能够更好地聚会你的意图。

行业里永久会有更好的模子出现，但产物最终是能够让用户留存的点。

《智能涌现》：团队是从什么时候打行为念这样AI假想平台的？

Barkley：这个想法其确实咱们最开动作念视频模子的时候就有了。是以产物的想法是昨年（2023年）12月和视频模子同步股东的。

仅仅在产物的假想过程中，咱们自后意志到，要想把悉数这个词假想经过涵盖，也必须要作念到能够生成图片。是以在视频模子发布5个月以后，咱们认为图片模子也饱和好的时候，把两部分同期整合成一个产物。

《智能涌现》：平台的倡导用户是哪些东谈主？专科假想师如故巨匠？

Barkley：其实咱们认为原本的Dream Machine，更多的用户如故偏专科的，至少是有作念AI电影的教育，或者知谈如何用Prompt去生成更好的末端。

但其实咱们更但愿当今的产物，让之前没灵验过AI致使莫得假想教育的东谈主用起来。比如，如果他们在职责中需要用这样的经过，不错特地容易地通过一轮一轮地和AI进行对话去罢了。

咱们在6月份发布的视频模子Dream Machine，其实如故需要一些使用门槛的。咱们在那时候就在想，但愿广博东谈主也能access这些视觉器具，就好比视觉里的GPT。

但视觉是一个很小众的垂类鸿沟。咱们作念假想平台的想法等于，如何去扩大这个群体。唯独扩大群体，才气让视觉鸿沟的AI赢得更好的发展。

《智能涌现》：非专科假想师很难把一整套假想的职责流用得很深刻。我的大部分生图需求，可能输入一个通俗的Prompt，用GPT，或者Midjourney就能夸口。

Jiacheng：咱们的想法是，把用户能应酬感受到阔别的功能作念到最佳，比如咱们图像智商比GPT好，然而语言聚会智商比Midjourney要好。

我用团结个最基础、十足不复杂的Prompt，让Dream Machine和Midjourney对比一下：i want to make a poster for my brother band “crazy avocado”.（我想为我昆玉的乐队“豪恣牛油果”作念一张海报。）

△Dream Machine字据“i want to make a poster for my brother band ‘crazy avocado’”生成的乐队海报。

△Midjourney字据“i want to make a poster for my brother band ‘crazy avocado’”生成的乐队海报。

你看Midjourney生成的海报，既不Crazy，也莫得Avocado的元素，也看不出来是个乐队的海报。

语义聚会的智商其实比你想象的遑急，会影响好多场景的落地。因为生建设地的、颜面的图片，在实用场景中兴味不是很大。

如果要让Midjourney真确复原你的意图，你需要写好多Prompt，包括海报的假想、上头写的笔墨、阐明Crazy的作风等等。学会写Prompt，我或者花了两三个月时候。

但我信托ChatGPT的大部分用户是不会去学的，他们等于进来问一个问题，得到一个论断。

咱们作念假想产物的念念路，亦然一样的。按照之前市面上的产物，如果我想要得生成复原我意图的图片，当先，我要花20好意思金买Claude或者GPT，帮我生成Prompt；其次，我要再花20好意思金到40好意思金买Midjourney，生成图片；终末我还要花20好意思金的订阅，把这些图片形成视频。

算下来，文生视频起码要花60-80好意思元。当今用Dream Machine，可能10好意思元就能惩办了。

《智能涌现》：Dream Machine语言聚会智商的开头，亦然自研模子吗？

Barkley：语言模子用了第三方的API，咱们再去构建了一个Agent。这个Agent能够聚会用户意图，然后通过不同的Prompting的模样，把用户意图滚动为图像和视觉模子能够聚会的指示。

《智能涌现》：Luma AI当今既有模子，又有产物，如何去作念买卖化？

Barkley：产物如故会禁受订阅的模样。模子等于提供API。

《智能涌现》：不作念定制化？

Barkley：定制化不太相宜初创公司，会溜达元气心灵。

当前莫得专科视觉器具，在界说交互范式

《智能涌现》：一个俗套的问题，你们如何看待巨头下场？按照国内的情况，字节和快手的下场，也曾给好多初创公司带来了融资和获客上的压力。

Barkley：咱们发现，这个问题其实是公司和股东之间的问题。唯独股东才会温雅：如果哪天一个巨头把你这个事情作念了，会如何样？

但内容上，咱们公司好多Research齐有这样的嗅觉：当公司达到一定例模，需要你去相助各式千般的东西的时候，你股东的速率会变得特地慢，改进的速率也会掉下来。

诚然Luma AI的团队在昔时一年多的时候里也彭胀了好多，但如故保持着快速改进、快速迭代的节律。

我认为有一个类比特地好：其实你在大公司里，真确去作念视频模子和相应产物的团队，可能也唯独几十个东谈主。比如OpenAI看起来很大，但Sora的团队也就这样多。

天然说到更大的公司，比如Google，他们可能有比咱们更好的distribution channel（扩散渠谈），但他们雷同会受制于各式经过上，一个新产物会有买卖化等好多方面的concern，股东的速率不会那么快。

《智能涌现》：Luma AI的迭代节律有多快？

Barkley：举座迭代速率一直是以几个月，致使是1-2个月来计算的。时期会加入新的功能，底层模子的末端也在进步。

就像Dream Machine 1.0在2024年6月发布，1.5版块是在8月发布。1.6版块加了camera control（镜头适度）功能，在9月底发布。

《智能涌现》：一个新的假想器具型产物，如何去获客？

Jiacheng：我觉稳健先不错去分析ChatGPT是如何获客的。你会发现，ChatGPT不光最佳的身手员在用，你隔邻的大叔大妈也在用。

我认为AI器具带来的最大的变化是，由于它自己的可塑性和天真性，它不错行状险些悉数有视觉需求的东谈主。

我并不认为当前特定的视觉专科的软件，有特地好的交互，换句话说，当前莫得专科视觉器具界说了悉数这个词行业的交互范式。

《智能涌现》：你如何界说“好的交互范式”？

Jiacheng：比如ChatGPT就界说了悉数这个词行业ChatBot的交互范式，像当今好意思国的小孩齐不是说ChatGPT，他齐是说你有么有问你家的“Chat”。

这里的“Chat”，也曾成了一个像“Google一下”的行动。

咱们作念Dream Machine亦然一样的。谁能先把广博巨匠的想象，通过一个流通、通俗的治安，呈现出一个颜面真谛，然后能共享给别东谈主的或者灵验的图片，谁就能在这个鸿沟有上风。

《智能涌现》：从立项到上线，时期你们对交互样式进行了哪些探索？

Jiacheng：咱们当前来说，包括行业对咱们的贯通，齐是一个视频模子科研公司。

然而如今的AI时期是一个特地以用户体验为中枢的产物，时期型产物的倡导和迭代过程很彰着，等于最佳的用户体验。

咱们能猜想的最佳的用户体验，等于用最天然的交流模样，把Dream Machine当成一个创意助手或者Creative Partner。你如何和假想师互动，就如何和系统互动。

有了这样一个倡导，咱们就会去了解咱们的图片和视频模子，能够提供若何的智商。同期也去了解悉数这个词行业处于若何的发展阶段，第三方的语言模子能够给咱们若何的匡助。

时期，各式千般的Agent软件器具也在迭代，巨匠关于AI哄骗层的念念考也有变化。是以一年以来，咱们的产物等于一个络续迭代的过程，具体等于一个月字据行业变化打磨，再花一个月去修改。

这些东西总体统筹、交融起来，才有了当今这样的末端。

Barkley：时期咱们也发现，在AI视频生成鸿沟，当前图生视频比文生视频愈加受接待，因为用户在乎可控性。

是以悉数能够进步可控性的，齐是用户特地需要的功能点。

《智能涌现》：时期行业哪些产物或者贯通的动向，会对公司的产物研发节律产生影响？

Barkley：其实我认为昔时一年时候里，咱们的产物策略莫得变太多，如故一直想作念能让悉数东谈主镌汰使用模子的产物，不会跟着其他AI产物的发布去作念任何的策略调理。

我认为产物团队更温雅的事一些Research上的动态和进展，比如咱们想作念作风转移、作风转移的功能，就会去查有哪些最新的学术斟酌和论文，致使产物团队会加入Research团队的盘问，去看研发功能的可行性。

《智能涌现》：产物团队在日常职责中是如何和算法团队交流的？

Barkley：立项的时候，咱们会从用户的角度，认为作风模仿这样的功能很遑急。

然而从Research的角度，其实他们不细目这个功能能不行作念出来，以及能达到若何的末端。是以Research会先去作念好多的实验，直到他们把算法作念出来以后，咱们看到这个功能的极限，再去念念考如何把功能融入到举座产物和体验上。

是以其实Research是一个愈加不细倡导过程，常常需要比拟长的时候，也不知谈要花多万古候考验。

《智能涌现》：时期也会铁心好多暂时不够好的功能。

Barkley：对。是以其实好多功能咱们会从用户的角度去想，有的功能Research团队能够在短时候内作念出来，有的功能咱们又赓续插足，去作念更长的研判，体当今将来的产物里。

接待交流！

上一篇：开云「中国」Kaiyun·官方网站-登录入口而非以往惯常的国外挥霍牌-开云「中国」Kaiyun·官方网站-登录入口

下一篇：没有了