首页 > 资讯
文字直通视频,Sora开启视频创作新纪元
THUIAIL综合新智元、新浪新闻、澎湃新闻等整理2024-02-18
北京时间2月16日凌晨,OpenAI发布旗下首个文生视频模型Sora。据介绍,该大模型可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

根据该产品官网上已更新的视频demo,Sora不仅能准确呈现细节,还能在一定程度上还原物体在物理世界中的存在,并生成具有丰富情感的角色。甚至可以根据提示填补原有视频中缺失的画面。

借助AI技术,用户无需技巧就可以天马行空地制作视频。在谷歌、Meta、阿里云、百度之后,OpenAI凭借Sora正式切入文生视频赛道,输出视频的时长与质量进一步提高,标志着AIGC视频时代正加速到来。有不少网友评价说,“这么强的吗?以后有视频也未必是真相了”。

在国外Reditt社区,有个网友提问,今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复,有网友称,起初ChatGPT的发布让用户看到了一切皆有可能,而现在人工智能正在不断进步发展,让用户看到了强大的技术能力。

一句话生成60秒视频

现实将被彻底颠覆

喜迎龙年春节,紧跟舞龙队伍掏出手机边跟边拍的人群;雨后东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上;城市轻轨穿越市区,车内的人物面朝窗外摆弄着手机……难以想象这些都是通过AI生成出来的视频。

60秒的一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了神一般的稳定性

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

显然,这个颠覆性技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt,我一一输出。

一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里,一位擅长利用社交媒体的奶奶,正在教你制作美味的自制诺奇面。

我们将带你进行一次未来城市的街头巡览,在这里,高科技与自然和谐共处,展现出一种独特的赛博朋克风格。

这座城市洁净无瑕,到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。

想象一下,一个来自未来的人类导游正带领一群好奇的外星访客,向他们展示人类极致创造力的结晶——这座无与伦比、充满魅力的未来城市。

根据官网介绍,OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。据官方公告描述,Sora是OpenAI在语言和图像生成领域先前工作的基础上发展而来的。该产品不仅能够理解详细的提示,还能通过动作和视觉叙事重新创造出物理世界的动态。在效果上,Sora引入了流动感和连贯性,能够在不同镜头之间无缝过渡,同时保持上下文和对原始文本提示的保真度。

仔细观看demo视频可以发现,其中充满了细节:跟紧舞龙队伍的海量人物各有各的行为;雨后街头,潮湿地面反射出堪比真实世界的光影效果;行驶中的窗外偶遇遮挡时,车内人物倒影在玻璃上真实地显现……而这些细节的呈现在原始文本中是没有的。

Sora是如何实现文生视频的呢?据介绍,该大模型使用了扩散模型的技术,它可以从类似于静态噪声的视频开始,通过AI逐渐去除噪声,把各种随机像素转化为一段清晰的场景。由于该大模型建立在Transformer架构上,而这一架构又以极强的扩展性著称,所以其能够把较小数据单位的视频和图像标记(Token),通过统一的数据表达方式,在更广泛的视觉数据上训练和扩散变化。这使得Sora能够处理各种持续时间、分辨率和纵横比的视频数据。

基于这一技术,Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

多项技术破纪录

借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。也因此,Sora创造出的角色,能够表达丰富的情感!

它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。

看,下图中人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,完全没有AI味儿。从此,视频和现实究竟还有什么差别?!

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外,Sora还能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。要知道,以前的AI视频,都单镜头生成的。

而这次OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这不得不说是个奇迹!

这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的……

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

举个例子:「雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」

Sora根据这个提示所呈现的,便是东京在冬日里梦幻的一幕。

无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的景象。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以说,Sora的效果已经领先到了恐怖的级别,完全跳出了用冷兵器短兵相接的时代,其他AI视频被彻底干趴。

世界模型成真了?

最最最可怕的一点来了,Sora身上,竟已经有了世界模型的雏形?

通过观察大量数据,它竟然学会了许多关于世界的物理规律。

下面这个片段太令人印象深刻了:prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月而这一点,Sora轻而易举地就实现了,而且从没有人教过它!「它学会了关于 3D 几何形状和一致性的知识,」项目的研究科学家Tim Brooks表示。「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。

这种能力体现在它对讲故事的独特才能上。

例如,在一个以「色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界」为主题的视频中,项目研究员Bill Peebles指出,Sora通过其摄影角度和拍摄时机,成功地推进了故事的发展。「视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成,而是模型一气呵成地生成的,」他解释道。「我们并没有特别指令它这么做,它却能自动完成。」

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

不过,当前的模型并不完美。OpenAI也透露,Sora还并不完善,目前它还难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。比如,某人吃掉饼干的一部分后,饼干可能看起来仍然完整无损。


此外,模型在处理空间细节,如区分左右时可能会出错,也可能在描述随时间变化的事件,如特定的摄影机动作轨迹时,表现不够精确。


上述视频中,篮球没有正确被篮筐阻挡。否则,虚拟和现实的界限,还能区分得清吗?
这不是现实?但是无可否认的是,可怕的事实已经就在面前:一个已经能够理解和模拟现实世界的模型,也就意味着AGI已经不远了。

「唯一真正的视频生成工作」

张启煊评价道,「Sora是我目前看到唯一跳脱出空镜头生成、真正的视频生成工作。」在他看来,目前看来Sora跟Pika、Runway是有代差的,视频生成领域终于被OpenAI支配。或许某天3D视频领域,有朝一日也能体会到这种恐惧。

网友们都被震惊到失语:「下一个十年会是疯狂的十年。」

「都结束了,我的饭碗要丢了。」

「整个素材行业都会随着这篇成果的发布而消亡……」

OpenAI就是没法停下干死初创公司的脚步,是吗?

「好莱坞即将发生核爆」。

AI电影制作人和他们目前的项目。

技术介绍

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。

通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。

这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础,对此OpenAI认为这是实现通用人工智能(AGI)的重要步骤。

强大的芯片(算力)支持

需要指出的是,实现AGI的背后需要大量的算力来支持,也就是足够多的GPU(图形处理芯片),目前英伟达是全球生产GPU的霸主,但芯片市场一直面临供不应求的局面。也正是因此大模型的算力需求,OpenAI首席执行官山姆·奥特曼(Sam Altman)正试图筹集万亿美元来重塑全球半导体产业。就在一周前,据外媒报道,奥特曼正与包括阿联酋政府在内的投资者洽谈,希望筹集到数万亿美元的资金来提高全球芯片制造能力,为其AI研发提供充足动力,有知情人士称,该项目可能需要5-7万亿美元。7万亿美元是什么概念?英伟达CEO黄仁勋12日曾在公开场合有些讽刺地回应称,“(7万亿美元)显然能买下所有的GPU……如果你认为计算机无法发展得更快,可能会得出这样的结论:我们需要14颗行星、3个星系和4个太阳来为这一切提供燃料。但是,计算机架构其实在不断地进步。”外媒援引知情人士的话称,奥特曼正在建议OpenAI、投资者、芯片制造商和能源供应商之间建立合作,将共同出资建造芯片工厂。最近数周时间,奥特曼已经与多位人士进行了会谈,包括软银和台积电等,甚至包括阿联酋的谢赫·塔农·本·扎耶德·阿勒纳哈扬(Sheikh Tahnoun bin Zayed Al Nahyan),他是阿联酋总统的兄弟,也是阿布扎比多个主权财富基金的主席。按照奥特曼的想法,未来数年内要建立数十家芯片代工工厂,建造所需的资金由中东投资者提供,而台积电来制造和运营这些工厂。

赛道保持快速发展趋势

AI文生视频渐成风口

事实上,AI文生视频并不算一个新鲜事物。

在Sora出现之前,谷歌的Imagen和Meta的“做个视频(Make-A-Video)”已经发布了相当长一段时间。就在上月底,谷歌还新发布了AI视频大模型Lumiere,该大模型同样可以通过联合空间和时间采样来实现生成,并且也显著增加了生成视频的持续时长和质量,甚至可以将静止图像转换为动态视频。

中国造AI大模型同样早已在文生视频赛道早早布局。去年3月,阿里达摩院就放出了“文本生成视频大模型”,并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上,在去年8月又上线了文本转视频原生插件。

不过,这些AI大模型生成的视频与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。另一方面是镜头的组合,绝大多数视频都是单镜头;而Sora已实现了在一个视频里面,多角度镜头的组合。例如,在剪影动画中,视频从一只狼对着月亮嚎叫,直到它找到狼群,切换了不同景别的多个镜头。

AI文生视频工具逐步增强,也难怪有网友表示,“图生视频的公司感觉要被冲击了”。国盛证券研报指出,AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态,下游应用的加速时刻也将到来。

“AI文生视频、图生视频等赛道将会继续保持快速发展的趋势。”资深人工智能专家郭涛分析称,未来一两年内,AI生成视频领域将会出现更多的创新和突破,包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时,他也指出,这个领域也将会面临一些挑战和难点,例如数据安全和隐私保护、商业化模式和市场接受度等问题。

AI文生视频的风险

有海外网友评论称,Sora的出现是一项改变世界的产品,但同时也指出,Sora生成的视频或许让人工智能专家也难以分辨真假,这或许是个棘手的问题。外媒援引布法罗大学Media Forensic Lab主任Siwei Lyu的话称,随着像Sora这样的人工智能程序不断出现,除了由图像和音频深度伪造构成的现有挑战之外,视频伪造技术将带来更多挑战。卡内基国际事务伦理委员会研究AI和监控技术的高级研究员Arthur Holland Michel则表示,当像Sora这样的工具落入那些确实想利用新技术迭代造成伤害的老谋深算者手中时,事情会变得更加糟糕,“每当有功能更强大的新产品发布时,其可能被滥用的方式也会越多。”不过,AI视频或许能给电影制造带来不少惊喜。电影导演和视觉特效专家Michael Gracey说,看看仅仅在图像生成的一年里就取得了如此成就。“一年之后,我们会在哪里?”Gracey预测,不久之后,像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出,从头开始制作各种视频。Gracey认为,以后或许不再需要一个由100-200名艺术家组成的团队来用3年时间完成动画长片,但他也提醒,AI工具是根据现实生活中艺术家的作品进行训练,而不给予他们补偿,这是一个大问题。“当它剥夺了其他人的创造力、工作、想法和执行力,而不给予他们应有的荣誉和经济报酬时,那就不好了。”OpenAI称,目前红队成员(red teamers)可以使用Sora来评估关键的危害或风险,还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。
阅读:
分享
用微信扫描二维码分享
请点击右上角分享给微信朋友或朋友圈