Internet

觀看並哭泣（或微笑）：Synthesia的人工智能視頻化身現在具有情感

瑪詩北歐 Tuesday, May 21 2024

生成式人工智能以創建複雜的，似乎是真實的文本和圖像而受到公眾的想像力。但問題在於，結果往往在仔細觀察時並不完美。

人們指出奇怪的手指，地磚滑落，數學問題確實就是問題，有時結果不符。

現在，Synthesia——一家雄心勃勃的人工智能初創企業，專門從事視頻，特別是為企業用戶設計的定製化化身，用於創建促銷、培訓和其他企業視頻內容——正在推出一個更新，希望有望越過其特定領域的一些挑戰。其最新版本功能包括基於其工作室中捕捉的實際人類而構建的化身，這些化身在被提供文本以生成視頻時會提供更多情感，更好的唇部跟踪，以及更表現自然且人性化的動作。

這一發布發生在該公司迄今取得了一些令人印象深刻的進展之後。與OpenAI等其他生成式人工智能參與者不同，OpenAI擁有一個雙管策略——通過消費者工具（如ChatGPT）提高廣泛的公眾認識，同時也構建B2B產品，其API被獨立開發者和巨型企業使用——Synthesia更傾向於採取其他一些知名人工智能初創企業採取的方法。

就像Perplexity專注於真正掌握生成式人工智能搜索一樣，Synthesia的專注點在於如何真正創建最接近人類的生成式視頻化身。更具體而言，它正致力於為業務市場和培訓、營銷等用例建立最具人性化的生成式視頻化身。這一重點幫助Synthesia在已經變得非常擁擠的人工智能市場中脫穎而出，當炒作穩定為像ARR，單位經濟和與人工智能實施相關的運營成本等更長期的問題時，這個市場可能會變得商品化。

Synthesia將其新的Expressive Avatars描述為一種開創性產品：“全球第一款完全由人工智能生成的化身。” Synthesia表示，其突破之處在於如何結合這些大型預訓練模型，以實現更接近實際人類說話方式的多模態分佈。

Synthesia表示，這些是即時生成的，旨在更貼近我們在生活中說話或反應的體驗。這與當今大多數基於化身的AI視頻工具的運作方式形成對比：通常這些工具實際上是許多視頻碎片，它們會被快速拼接在一起，以創造與腳本更多或更少吻合的面部反應。目的是看起來不那麼機械化，更具生命力。

先前版本：

新版本：