Tech

DeepMind的新AI为视频生成配乐和对话

Google的AI研究实验室DeepMind表示,他们正在开发AI技术来为视频生成配乐。

DeepMind在其官方博客上发布的一篇文章中表示,他们将这项技术命名为V2A(视频到音频),认为这是AI生成媒体拼图中不可或缺的一部分。尽管包括DeepMind在内的许多机构已经开发了生成视频的AI模型,但这些模型无法生成与其生成的视频同步的音效。

DeepMind写道:“视频生成模型正以令人难以置信的速度发展,但许多当前系统只能生成无声输出。”“V2A技术[可能]成为为生成电影注入生机的有希望的方法。”

DeepMind的V2A技术会根据视频的描述(例如“水下蜇海慢慢,海洋生物,海洋”)配对视频,创建符合视频人物和调调的音乐、音效甚至对话,由DeepMind的防制深度伪造的SynthID技术水印。DeepMind表示,驱动V2A的AI模型是一个扩散模型,经过了声音和对话文本以及视频剪辑的组合训练。

DeepMind称:“通过在视频、音频和其他注释上进行训练,我们的技术学会了将特定的音频事件与各种视觉场景相关联,同时响应注释或文本提供的信息。”

目前尚不清楚训练数据是否受版权保护,以及数据的创建者是否被通知DeepMind的工作。我们已联系DeepMind进行澄清,如果收到回复,将更新此文章。

AI驱动的音频生成工具并不新鲜。初创公司Stability AI上周发布了一个,ElevenLabs也在5月份推出了一个。创建视频音效的模型也并非新鲜。微软项目可以从静止图像生成说话和唱歌视频,而Pika和GenreX等平台已经训练了模型,将视频转换为在特定场景中适当的音乐或效果的最佳猜测。

但DeepMind声称,他们的V2A技术是独特的,因为它可以理解视频中的原始像素,并自动将生成的声音与视频同步,甚至可以不需要描述。

V2A并不完美,DeepMind承认这一点。由于基础模型没有在带有伪影或失真的大量视频上进行训练,因此在这些视频中,它无法生成特别高质量的音频。总的来说,生成的音频并不十分令人信服;我的同事Natasha Lomas形容它为“一堆老套的声音”,我也不得不同意。

由于这些原因,为了防止滥用,DeepMind表示暂时不会向公众发布这项技术,未来也未必会发布。

DeepMind写道:“为确保我们的V2A技术能对创意社区产生积极影响,我们正在汇集来自领先创作者和电影制片人的各种观点和见解,并利用这些宝贵的反馈来指导我们持续的研究和发展。”“在考虑向更广泛的公众开放之前,我们的V2A技术将经过严格的安全评估和测试。”

DeepMind推销其V2A技术作为一种特别有用的工具,适用于档案管理员和处理历史素材的人。但类似的生成AI也威胁到了电影和电视行业。要确保生成媒体工具不会淘汰工作岗位或整个职业,需要一些非常强有力的劳工保护措施。

Related Articles

Back to top button Back to top button