Hotshot:可生成长达10秒720P视频
Hotshot 推出了一种ai模型,可以生成分辨率为 1280 x 720 像素的 10 秒剪辑。
该初创公司于周一推出了该模型,也称为 Hotshot,进入公共预览版。它加入了市场上不断增长的人工智能视频生成器的行列。 OpenAI、Runway ML Inc. 和许多其他初创公司同样提供能够根据用户提示生成短片的模型。
Hotshot 去年推出了一款面向消费者的人工智能图像生成应用程序。据VentureBeat 报道,该公司似乎已经关闭了该服务,以专注于新兴的视频生成领域。据报道,Hotshot 得到了 SV Angel、天使投资人 Lachy Groom 和 Reddit Inc. 联合创始人 Alexis Ohanian 的支持。
该公司花了几个月的时间开发了最新的视频生成模型。作为该项目的一部分,它创建了三个不同的神经网络:核心 Hotshot 模型和另外两个帮助准备 AI 视频生成器的训练数据集的神经网络。
Hotshot的主要功能:
文本到视频转换:用户可以输入文本描述,如场景、角色或动作,Hotshot将自动生成3秒的视频。
生成长达10秒的高清视频:该工具能够生成分辨率为1280 x 720像素的10秒剪辑。
生成GIF动画:使用最新的图像生成技术,Hotshot可以将复杂的文字描述转换为逼真的GIF动画。
无水印视频输出 :免费用户生成的视频没有水印,为创作者提供了更多的自由。
在该计划的第一阶段,Hotshot 整理了一个包含 6 亿个剪辑的存储库,并配有描述其内容的字幕。它将这些剪辑与十亿张图像结合起来,创建视频生成模型的训练数据集。 Hotshot 团队成员 John Mullan、Duncan Crawbuck、Chaitu Aluru 和 Aakash Sastry 表示:“我们知道我们希望联合在图像和视频上训练模型,以便利用比视频丰富得多的可公开访问的图像数据。”在一篇博文中解释过。
在该项目的下一阶段,该公司开发了一个人工智能模型,为其训练数据集中的视频生成字幕。字幕可以帮助神经网络更好地理解正在训练的剪辑。人工智能因此收集到的额外知识提高了其输出的质量。
Hotshot发现市场上现有的字幕生成模型并不能满足其要求。作为回应,该公司采用了其中一个现有模型,并在包含 300,000 个带有手动创建字幕的剪辑的训练数据集上对其进行了定制。 “几周后,我们就拥有了一个视频字幕器,我们很高兴用它来注释我们数亿个视频样本,”Hotshot 团队详细介绍道。
该公司为支持视频生成器的开发而构建的第二个辅助人工智能模型是自动编码器。这种算法可以获取一段数据(在本例中为视频),并删除人工智能训练不需要的细节。删除多余的信息可以降低存储要求,从而降低成本。
在准备好自动编码器和字幕模型后,Hotshot 花了四个月的时间训练其 AI 视频生成器。该公司使用了 Nvidia 公司的数千个 H100 图形处理单元,在该项目期间累计了数百万个处理小时。
Hotshot 的工程师应用了多项优化来降低训练运行的基础设施要求。该公司以 bfloat16 格式存储了项目中使用的许多文件,该格式可以将 32 位数据压缩为 16 位,以节省存储空间。此外,它还提前执行了一些通常在训练过程中执行的计算,以更好地利用 Nvidia 芯片的处理能力。
Hotshot 的新人工智能可作为其网站上免费视频生成服务的一部分进行访问。该公司还计划通过应用程序编程接口向开发人员提供该模型。
Hotshot AI视频生成模型目前已经进入了公开的 “预览” 阶段,用户可以在 Hotshot 的官方网站上免费体验这个模型,不过需要注意的是,每天的生成次数被限制在两个视频。
Hotshot官网地址:https://hotshot.co/