첫 페이지 › 美股新闻 › 본문

谷歌新技术可用AI模型为无声视频配音

稀土掘金发表于 2024-6-19 10:33:26

262 0 0

　　谷歌DeepMind近日公布了一项利用AI为无声视频生成背景音乐的“video-to-audio”技术。

　　当前DeepMind 这款AI模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”视频可能的声音，暂时不能直接根据视频画面添加具体音效。
　　据悉，该模型首先会将用户输入的视频进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与视频画面协调的背景声音，例如输入一条“在黑暗中行走”的无声视频，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示，相关模型就能生成恐怖风格的背景音效。
　　DeepMind同时表示，该“video-to-audio”模型可以为任何视频生成无限数量的音轨，还能够通过提示词内容判断生成的音频“正向性”或“反向性”，从而令生成的声音更贴近某些特定场景。

CandyLake.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of CandyLake.com, and does not constitute advice, please treat with caution.

Down

Favorite

Report

转播

谷歌新技术可用AI模型为无声视频配音

浏览过的版块