Sora来了，ChatGPT更牛了！

发表时间：2024-02-15 19:50

众所周知，我们的世界已经进入了一个读图时代，这是因为一张图片，其中所包含的信息可能胜过万语千言！

尽管人类文明交流的方式是通过语言和文字开始的，但我们周边的世界毕竟是彩色的、三维的、动态的，是包含有大量视觉信息的。

所以，倘若我们通过一段简单的描述性文字，便可以直接生成一幅在你心中想象出的、这世界上原本不存在的图片，而且这图片几乎可以满足现实世界中人们所有的观察习惯或逻辑的话，结果一定十分震撼。

人工智能OpenAI做到了，尽管仍然有着不少瑕疵。

那么，倘若将图片换成具有动态效果的视频，而且依然是通过一段简单的描述性文字直接生成的话，这无疑标志着AI又向前迈进了一大步！

这，就是OpenAI今天发布的“索拉”（Sora）。尽管它发布的不是产品、而是技术所达到的效果，但这已经令人震撼了。

就在不久前的2023年4月，纽约一家名为Runway AI的初创公司发布了一项技术，让人们只需在电脑屏幕上的方框中输入一句话，就能生成一段视频，比如：生日派对上的一头奶牛，或者使用智能手机正在聊天的一条狗……只是，这短短四秒的视频画面模糊，动态不流畅，还存在扭曲，但它却清楚地表明，AI技术在这个领域中的突破不远了。

果然，仅过了10个月，就在今天，OpenAI让我们看到了Sora！

人们在短短的时间里，就见证了ChatGPT的推进：从聊天机器人的GPT 4，到静态图像生成器DALL-E 3，到了现在的即时视频生成器Sora，一步一个脚印。人们现在已经开始期待着利用Sora可以大大提高经验丰富的电影制作人的工作效率，甚至完全取代经验不足的数字艺术家等目的。

当然，OpenAI在此领域里不乏竞争者，比如像Google、Meta（Facebook和Instagram）这样的科技巨头，以及像Runway这样的初创公司。

Sora是什么意思？它是OpenAI背后的技术团队为这一应用所起的名字，取自日语的“天空”一词。按照技术大牛布鲁克斯（Tim Brooks）和皮布尔斯（Bill Peebles）的说法，这名字“让人联想到无限的创造潜力”。

以下是通过简捷的描述性文字（放在视频的下面）生成的视频，所有视频均由Sora直接生成，未经任何修改：

https://vp.nyt.com/video/2024/02/14/115631_1_15OPENAI-VIDEO-3_wg_720p.mp4

视频1：几头巨大的长毛猛犸象踏着雪白的草地走来，它们长长的毛发随风轻扬，远处是白雪覆盖的树木和壮观的雪山，午后的光线加上飘渺的云朵和远处高高挂起的太阳营造出温暖的光晕，低机位的视角以精美的摄影和景深捕捉到了大型毛茸茸的哺乳动物，令人惊叹。

https://vp.nyt.com/video/2024/02/14/115628_1_15OPENAI-VIDEO-1_wg_720p.mp4

视频2：一个矮小蓬松的怪物跪在一根融化的红蜡烛旁。艺术风格为三维写实，注重光影和质感。画中的怪物睁大眼睛、张开嘴巴凝视着火焰，充满了惊奇和好奇。它的姿势和表情传达出一种天真和俏皮的感觉，仿佛是第一次探索周围的世界。暖色调和戏剧性灯光的使用进一步增强了画面的温馨氛围。

https://vp.nyt.com/video/2024/02/14/115630_1_15OPENAI-VIDEO-2_wg_720p.mp4

视频3：美丽的东京雪后热闹非凡。镜头穿过熙熙攘攘的城市街道，跟随几位正在享受美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣与雪花一起随风飞舞。

https://vp.nyt.com/video/2024/02/14/115632_1_15OPENAI-VIDEO-4_wg_720p.mp4

视频4：一个华丽渲染的珊瑚礁纸艺世界，到处都是五颜六色的鱼类和海洋生物。

视频5：一位时尚女性走在东京的街道上，街道上到处都是暖色调的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子，手拿黑色皮包。她戴着太阳镜，涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光，与五颜六色的灯光形成镜面效果。许多行人走来走去。

视频6：加州淘金热时期的历史镜头

目前，Sora可以生成一段大约1分钟的视频，其耗时仅为几分钟。如果你仔细观察，会发现它们并不完美，其中会包含某些奇怪的和不合逻辑的图像。这是未来技术需要完善的地方，当然这并不容易！

为了让公众能够实时体验到这项技术的真实感，公司CEO奥特曼今天还特意在X平台上直播了一段时间，网友可以提交自己想要生成的视频的描述性文字，奥特曼当场通过系统生成视频，从提交文字到视频上传完毕，大约耗时15—20分钟，这当中包括了输入、输出所占用的时间。至于效果，略低于上述官网给出的视频，应该说已经相当不错了。

该系统是生成式AI的一个范例，就像之前可以即时创建文本、图像和声音一样，系统通过分析数字数据进行学习，在本例中，分析的是视频和描述视频内容的字幕。

Sora的技术团队在接受采访时表示，公司尚未正式发布Sora，因为他们正在与一小群学者和其他外部研究人员分享这项技术，并且正在进行大量的测试。

布鲁克斯博士说：“发布Sora的目的是让人们通过预览这个即将出现的技术，让人们能看到它的能力，同时能给我们提供有益的反馈。”

Sora使用的是所谓的扩散模型（diffusion model），即从一个看起来像静态噪音那样的视频生成开始，然后通过多个限制条件和多个步骤去除噪音，逐渐变成特定的视频。它可以一次性生成整个视频，也可以将原有的视频进行扩展，生成更长的视频。有业内专业人士评价，与之前的静态图片生成技术相比，视频生成的技术难度在于：如何达到帧与帧之间在时间和空间上的关系一致性，并支持不断变化场景的真实性和逻辑性。特别是通过让模型可以一次预见多帧画面，来确保被摄体即使暂时离开视线也能保持不变，等等。

目前，公司在已经制作的视频上打上了水印，以识别其是由AI生成的，但你很难发现它们。

OpenAI 拒绝透露该系统是从多少视频中学到了知识、通过怎样的算力达到现在这样的速度以及这些视频的来源，只是说训练包括公开的视频和从版权持有者那里获得授权的视频。人们对该公司用于训练其技术的数据知之甚少，这很可能是因为它想保持对竞争对手的优势，同时避免因使用了受版权保护的材料而被起诉。

安全性始终是开发团队最关注的内容。目前技术人员正在与“红方”人员（他们都是错误信息、仇恨内容和偏见等领域的专家）合作，对模型进行对抗性测试，以便从中发现系统中潜在的危险性，以及可能被滥用的种种可能。

一旦进入产品阶段，其文本分类器将检查并拒绝输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容……

不可否认的是，这项技术无疑可能成为一种快速、廉价的制造网络虚假信息的方式，让人们更加难以辨别网上信息的真伪。有专家甚至警告，这种东西可能还会左右一场竞争激烈的选举！