在深度偽造領(lǐng)域,或者研究人員所謂的“合成媒體”領(lǐng)域,大部分注意力都集中在可能對現(xiàn)實造成嚴重破壞的換臉以及其他深度學習算法帶來的危害上,例如模仿某人的寫作風格和聲音。但是合成媒體技術(shù)的另一個分支正取得快速進步,即人體深度偽造。
2018年8月,美國加州大學伯克利分校的研究人員發(fā)布了名為《人人皆為舞王》(Everybody Dance Now)的論文和視頻,展示了深度學習算法如何將專業(yè)舞者的動作轉(zhuǎn)移到業(yè)余愛好者身上的場景。雖然這種技術(shù)依然處于早期階段,但它表明機器學習研究人員正在應對更困難的任務,即創(chuàng)建全身深度偽造視頻。
同樣在2018年,由德國海德堡大學圖像處理合作實驗室(HCI)和科學計算跨學科中心(IWR)的計算機視覺教授比約恩·奧默爾(Bj?rn Ommer)博士領(lǐng)導的研究小組,發(fā)表了一篇關(guān)于教授機器以逼真形態(tài)渲染人類身體運動的論文。今年4月,日本人工智能(AI)公司Data Grid開發(fā)了一種AI應用,它可以自動生成不存在的人的全身模型,并可以將其應用到時尚和服裝行業(yè)。
雖然很明顯,全身深度偽造技術(shù)具有有趣的商業(yè)應用潛力,如在深度偽造舞蹈視頻或體育和生物醫(yī)學研究等領(lǐng)域,但在當今社會中,惡意使用案例越來越令人擔憂。目前,全身深度偽造技術(shù)還不能完全愚弄人類的眼睛,但就像任何深度學習技術(shù)一樣,它正慢慢取得進步。全身深度偽造還需要多久就能變得與現(xiàn)實無法區(qū)分?這可能只是時間問題。
為了創(chuàng)造深度偽造視頻,計算機科學家需要使用生成性對抗網(wǎng)絡(luò)(GANS)。這是由兩個神經(jīng)網(wǎng)絡(luò)組成的,分別是合成器或稱為生成網(wǎng)絡(luò),以及檢測器或稱鑒別網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)在精煉的反饋回路中工作,以創(chuàng)建逼真的合成圖像和視頻。合成器利用數(shù)據(jù)庫創(chuàng)建圖像,而后者從利用其他的數(shù)據(jù)庫,確定合成器給出的圖像是否準確和可信。
第一次惡意使用深度偽造技術(shù)出現(xiàn)在Reddit上,像斯嘉麗·約翰遜(Scarlett Johansson)這樣的女演員的臉被換到色情演員身上。Fast.AI公司的雷切爾·托馬斯(Rachel Thomas)表示,當前95%的深度偽造旨在用合成色情行為圖像騷擾某些人。他說:“這些深度偽造視頻中,有些并不一定使用了非常復雜的技術(shù)。但是,這種情況正逐漸發(fā)生改變?!?/p>
達特茅斯大學計算機科學系主席、專門研究打擊視頻偽造的圖像取證專家哈尼·法里德(Hany Farid)指出,深度偽造應用Zao說明了這項技術(shù)在不到兩年的時間里發(fā)展的速度有多快。法里德說:“從Zao身上,我發(fā)現(xiàn)這種技術(shù)已經(jīng)變得非常好,并且抹掉了很多人工痕跡,比如電影版本中的臉部閃爍問題。雖然情況正在改善,但將其大規(guī)模運行,下載給數(shù)百萬人,依然很難。這也正是深度偽造技術(shù)成熟的標志?!?/p>
海德堡大學的奧默爾教授領(lǐng)導著一個研究和開發(fā)全身合成媒體的團隊。與該領(lǐng)域的大多數(shù)研究人員一樣,該團隊的總體目標是理解圖像,并教授機器如何理解圖像和視頻。最終,他希望團隊能夠更好地理解人類是如何理解圖像的。
合成面部和整個身體的過程之間存在著關(guān)鍵性差異。奧默爾說,對人臉合成已經(jīng)進行了許多研究,這其中有幾個原因:首先,任何數(shù)碼相機或智能手機都有內(nèi)置的面部檢測技術(shù),這項技術(shù)可用于微笑檢測等任務,或用于識別觀眾正在看的人的身份。這樣的用例可以產(chǎn)生收入,以支持更多的研究。但是,正如奧默爾所說,它們也導致了“大量的數(shù)據(jù)集組裝、數(shù)據(jù)整理和獲取面部圖像,這些都是深度學習研究的基礎(chǔ)?!?/p>
其次,也是奧默爾更感興趣的,雖然每個人的臉看起來都不同,但當把臉與整個人體進行比較時,它的變化可能更小。奧默爾解釋稱:“這就是為何對臉部的研究已經(jīng)到了瓶頸階段的原因,與整個人體相比,臉部研究已經(jīng)十分透徹,但身體有更多的可變性,處理起來也更復雜。如果你在朝那個方向研究,你會學到更多的東西?!?/p>
奧默爾不確定何時完全合成的身體將具有他和研究人員想要的質(zhì)量。然而,從惡意深度偽造技術(shù)的日益成熟來看,奧默爾注意到,即使沒有深度學習計算機視覺智能、AI或其他技術(shù)創(chuàng)建的虛假圖像或視頻,人類非常容易受到欺騙。美國眾議院議長南?!づ迓逦?Nancy Pelosi)放慢速度的視頻讓她看起來像是喝醉了酒。這段視頻向奧默爾表明,這種簡單扭曲的深度偽造技術(shù)即將出現(xiàn),并可能會被某些人所利用。
奧默爾說:“但是,如果你想讓它產(chǎn)生更大的吸引力,可能還需要幾年的時間,那時全身和其他深度偽造技術(shù)將變得更便宜,更普遍。研究社區(qū)本身已經(jīng)朝著這個方向前進,他們需要為我們看到的這種穩(wěn)定進步負責,算法很容易獲得,比如在Github上等等。所以,你可以從某些論文中找到可以下載的最新代碼,然后在沒有太多知識的情況下,應用它即可?!?/p>