Tech

DeepMind的新AI为视频生成配乐和对话

瑪詩北歐 Monday, July 29 2024

Google的AI研究实验室DeepMind表示，他们正在开发AI技术来为视频生成配乐。

DeepMind在其官方博客上发布的一篇文章中表示，他们将这项技术命名为V2A（视频到音频），认为这是AI生成媒体拼图中不可或缺的一部分。尽管包括DeepMind在内的许多机构已经开发了生成视频的AI模型，但这些模型无法生成与其生成的视频同步的音效。

DeepMind写道：“视频生成模型正以令人难以置信的速度发展，但许多当前系统只能生成无声输出。”“V2A技术[可能]成为为生成电影注入生机的有希望的方法。”

DeepMind的V2A技术会根据视频的描述（例如“水下蜇海慢慢，海洋生物，海洋”）配对视频，创建符合视频人物和调调的音乐、音效甚至对话，由DeepMind的防制深度伪造的SynthID技术水印。DeepMind表示，驱动V2A的AI模型是一个扩散模型，经过了声音和对话文本以及视频剪辑的组合训练。

DeepMind称：“通过在视频、音频和其他注释上进行训练，我们的技术学会了将特定的音频事件与各种视觉场景相关联，同时响应注释或文本提供的信息。”

目前尚不清楚训练数据是否受版权保护，以及数据的创建者是否被通知DeepMind的工作。我们已联系DeepMind进行澄清，如果收到回复，将更新此文章。

AI驱动的音频生成工具并不新鲜。初创公司Stability AI上周发布了一个，ElevenLabs也在5月份推出了一个。创建视频音效的模型也并非新鲜。微软项目可以从静止图像生成说话和唱歌视频，而Pika和GenreX等平台已经训练了模型，将视频转换为在特定场景中适当的音乐或效果的最佳猜测。

但DeepMind声称，他们的V2A技术是独特的，因为它可以理解视频中的原始像素，并自动将生成的声音与视频同步，甚至可以不需要描述。

V2A并不完美，DeepMind承认这一点。由于基础模型没有在带有伪影或失真的大量视频上进行训练，因此在这些视频中，它无法生成特别高质量的音频。总的来说，生成的音频并不十分令人信服；我的同事Natasha Lomas形容它为“一堆老套的声音”，我也不得不同意。

由于这些原因，为了防止滥用，DeepMind表示暂时不会向公众发布这项技术，未来也未必会发布。

DeepMind写道：“为确保我们的V2A技术能对创意社区产生积极影响，我们正在汇集来自领先创作者和电影制片人的各种观点和见解，并利用这些宝贵的反馈来指导我们持续的研究和发展。”“在考虑向更广泛的公众开放之前，我们的V2A技术将经过严格的安全评估和测试。”

DeepMind推销其V2A技术作为一种特别有用的工具，适用于档案管理员和处理历史素材的人。但类似的生成AI也威胁到了电影和电视行业。要确保生成媒体工具不会淘汰工作岗位或整个职业，需要一些非常强有力的劳工保护措施。

瑪詩北歐