三星新 AI 系統隻用一張圖像就能生成換臉視頻－夏天的尾巴

機器學習研究人員開發了一套系統，它可以利用一個人臉部的單幀畫面呈現出逼真的動作。有了這樣的系統，我們不僅可以對照片進行動畫化處理，而且還能讓那些畫作 “活” 過來。該系統的效果還不完美，但它做出的成果——跟如今大多數人工智能作品一樣——既怪異又令人着迷。

三星人工智能研究中心（Samsung AI Center）在其發表的論文中描述了這個系統，該論文已經上傳到預印本網站 Arxiv。該系統使用了新的方法，將源面孔（即人在講話時的頭部特寫）上的面部標誌物與目標面孔的數據對應起來，從而讓目標面孔做出源面孔的動作。

這本身並不新鮮，而且這也是人工智能領域目前所面臨的合成圖像問題的組成部分（對於這個問題，我們最近在伯克利擧行的 “Robotics AI” 活動上進行過有趣的探討）。我們現在已經可以在一段視頻中生成一張面孔，讓它模仿另一張面孔在說話或觀望時的神情。但那些模型大多需要很多數據，例如對一兩分鍾的視頻數據進行解析。

然而，三星駐莫斯科的研究人員在他們的新論文中展示，隻使用單張人臉圖像，他們就能生成讓目標面孔轉動、說話或做表情的視頻，其效果雖遠非完美無瑕，卻具有令人信服的表現力。

為了做到這一點，這套系統預先使用大量數據饋入面部標誌物識别過程，從而讓模型能夠非常高效地在目標面孔中找到對應於源面孔的部份。系統掌握的數據越多，效果會越好，但它也可以透過一張圖像來生成視頻（這被稱為單張圖像學習），而且效果也說得過去。有了這樣的技術，我們就有可能使用愛因斯坦或瑪麗蓮·夢露的照片，乃至於《蒙娜麗莎》這幅畫作，讓圖像中的人物像真人那樣說話和做出動作。