Internet

觀看並哭泣(或微笑):Synthesia的人工智能視頻化身現在具有情感

生成式人工智能以創建複雜的,似乎是真實的文本和圖像而受到公眾的想像力。但問題在於,結果往往在仔細觀察時並不完美。

人們指出奇怪的手指,地磚滑落,數學問題確實就是問題,有時結果不符。

現在,Synthesia——一家雄心勃勃的人工智能初創企業,專門從事視頻,特別是為企業用戶設計的定製化化身,用於創建促銷、培訓和其他企業視頻內容——正在推出一個更新,希望有望越過其特定領域的一些挑戰。其最新版本功能包括基於其工作室中捕捉的實際人類而構建的化身,這些化身在被提供文本以生成視頻時會提供更多情感,更好的唇部跟踪,以及更表現自然且人性化的動作。

這一發布發生在該公司迄今取得了一些令人印象深刻的進展之後。與OpenAI等其他生成式人工智能參與者不同,OpenAI擁有一個雙管策略——通過消費者工具(如ChatGPT)提高廣泛的公眾認識,同時也構建B2B產品,其API被獨立開發者和巨型企業使用——Synthesia更傾向於採取其他一些知名人工智能初創企業採取的方法。

就像Perplexity專注於真正掌握生成式人工智能搜索一樣,Synthesia的專注點在於如何真正創建最接近人類的生成式視頻化身。更具體而言,它正致力於為業務市場和培訓、營銷等用例建立最具人性化的生成式視頻化身。這一重點幫助Synthesia在已經變得非常擁擠的人工智能市場中脫穎而出,當炒作穩定為像ARR,單位經濟和與人工智能實施相關的運營成本等更長期的問題時,這個市場可能會變得商品化。

Synthesia將其新的Expressive Avatars描述為一種開創性產品:“全球第一款完全由人工智能生成的化身。” Synthesia表示,其突破之處在於如何結合這些大型預訓練模型,以實現更接近實際人類說話方式的多模態分佈。

Synthesia表示,這些是即時生成的,旨在更貼近我們在生活中說話或反應的體驗。這與當今大多數基於化身的AI視頻工具的運作方式形成對比:通常這些工具實際上是許多視頻碎片,它們會被快速拼接在一起,以創造與腳本更多或更少吻合的面部反應。目的是看起來不那麼機械化,更具生命力。

先前版本:

新版本:

Related Articles

Back to top button Back to top button