新聞 > 科教 > 正文

☕打印版 ◪圖片版 ◫PDF

當普通人在AI換臉面前一敗塗地,他們用魔法打敗魔法

【阿波羅新聞網 2024-09-10 訊】

最近在韓國發生的「N號房2.0」事件，再次把 Deepfake（深度偽造）這個老生常談的話題帶到了台前。

加害人們聚集在 Telegram，用 AI將女性照片合成為裸照，昭示着，Deepfake的包圍圈，早已從娛樂明星、政治人物，擴張到你我這樣的普通人。

在這個 AI成為顯學的時代，我們想要了解，看似並不新鮮的、但近年越發普及的技術，如何影響了日常生活。

Deepfake進化到什麼程度了，會造成什麼危害？如何用技術反 Deepfake？普通人怎麼防範 Deepfake？

我們和瑞萊智慧算法科學家陳鵬博士聊了聊這些問題。瑞萊智慧成立於2018年，由清華大學人工智能研究院孵化，深耕 AI鑒偽多年。

陳鵬告訴我們，普通人在鑑別 Deepfake上已經一敗塗地，反 Deepfake還得看 AI。

一張圖，幾秒鐘，Deepfake越來越簡單

Deepfake最早興起於2017年的「美版貼吧」Reddit，主要形式是將明星的臉替換到色情視頻的主角身上，或者惡搞政界人物。

如今，造謠、搞黃色，仍然是 Deepfake的主流用途，只是變得更加容易。

陳鵬解釋，採集一張照片也足夠換臉，當然，採集的數據越多，痣、五官等人臉的細節也會被更好地建模，換臉的效果就越逼真。

今年4月，兩位德國藝術家的行為藝術項目，就是一個活生生的例子。

他們設計了一個 AI相機 NUCA，相機本體3D打印，內置37毫米廣角鏡頭，拍下的照片會被傳輸到雲端，由 AI「脫去衣服」，10秒鐘不到即可「出片」。

NUCA其實不知道你的裸體是什麼樣，只是通過分析你的性別、面部、年齡、體型等，呈現 AI眼裏你的裸體。

粗劣嗎？或許不重要，幾秒之間，你已經在 AI面前暴露無遺，別人說不定也會相信這是你。

韓國「N號房2.0」也被曝光出類似的細節：一個22.7萬人的 Telegram聊天室，內置一個將女性照片合成為裸照、並能調整胸部的機械人，5到7秒生成 Deepfake內容。

換臉、脫衣，只是 Deepfake的一種應用。

通過生成式 AI模型（GAN、VAE、擴散模型等），合成或偽造逼真的內容，包括文字、圖像、音頻、視頻，都可以稱為 Deepfake。

其中，音頻的 Deepfake也相當常見。

2023年初，科技記者 Joseph Cox撥打銀行的自動服務熱線，播放自己用 ElevenLabs克隆的 AI語音「我的聲音就是我的密碼」，要求檢查餘額，沒想到語音驗證成功了。

陳鵬表示這不奇怪，之前捕捉我們的聲紋信息，需要幾分鐘、幾十分鐘的語音，但現在可能半分鐘、幾十秒，就能捕捉個大概。多接幾個騷擾電話，我們的聲音或許就泄漏了。

當然，想要更精準地克隆，複製音調等說話風格，比如讓郭德綱說英文相聲、讓霉霉講中文，仍然需要更多的語料。

甚至，文本也是一個被 Deepfake的領域。AI生成的文本早已到處可見，被學生拿來作弊和應付作業讓老師頭疼，但我們或許還沒有意識到這背後的風險。

虛假消息和謠言，是文字 Deepfake的重災區，陳鵬說，以前還需要人類自己寫文案，但現在針對某個事件，AI可以生成各種言論，然後自動化地投放到社交媒體。

Deepfake更快速、更簡單，在陳鵬看來，主要有三個原因。

一是，文生圖、文生視頻等生成式 AI技術有了突破，二是，算力越發普及，消費級的顯卡已經能夠運行生成式 AI模型。

還有很重要的一點，Deepfake這項技術，被優化成了各種門檻更低的工具。

拿換臉舉例，Deepfake的開源項目不少，比如 Github的 DeepFaceLive和 Deep-Live-Cam，用戶可以從網站下載代碼，在本地配置運行環境。

▲AI馬斯克直播，用的是 Deep-Live-Cam

如果不懂技術的小白還是覺得有難度，也有專業人士直接把飯餵到嘴邊，對模型進行封裝，編寫成簡單好用的軟件供玩家免費下載，自己賺點廣告費，包括很多一鍵脫衣的 app。

至於音頻的 Deepfake，也已經有成熟的商業公司，以 SDK（開發工具包）或者 API（應用編程接口）的方式，讓用戶輕鬆使用服務。

用戶甚至不需要一台帶有顯卡的設備部署程序，而是將音頻等內容上傳到網站，等待生成結果，然後下載。

所以，複雜的技術原理隱藏幕後，在用戶面前的是一個個「開箱即用」的界面，連青少年們也能隨手製造虛假信息。

一言以蔽之，陳鵬的結論是：

Deepfake已經到了普通人唾手可得的地步了。

肉眼鑑別 Deepfake，人類可能已經一敗塗地

當一項技術「飛入尋常百姓家」，最可能被波及的，恰恰也是普通人。

詐騙是 Deepfake最常見的作惡方式之一。

今年年初，一家跨國公司香港分公司因為 AI被騙走了2500萬美元。受害人參加了一次視頻會議，其他人都是經過「AI換臉」和「AI換聲」的詐騙分子。

事已至此，我們可以做些什麼保護自己？

如果別人拿 Deepfake來騙你，鑽 AI的空子，是其中一種辦法，但有保質期。

舉個例子，我們在視頻通話時，如果懷疑對方是 AI換臉，可以引導對方做些特定的動作，比如把手放在面前快速划動幾下、大幅度地轉動頭部。

如果 AI換臉背後的模型沒有對手部遮擋做專門的優化，那麼就會露餡，臉可能會出現在手的背部，或者突然發生扭曲。

轉動頭部的原理也是一樣，如果在收集數據的階段，對方沒有特意採集大於45度的轉頭素材，那麼臉部貼合的形跡就會不自然。

但未來，這種肉眼可見的瑕疵，肯定會慢慢減少。

▲美國西北大學的「找茬」測試：AI-generated or Real?

陳鵬開玩笑說，如果詐騙分子覺得你是只待宰的肥羊，存了心要騙你，扒光你的社交媒體信息，花好幾天優化你的模型，那麼這些方法也不保證有用。

一個視頻如果沒有出現這些瑕疵的話，那就說明它是真視頻？這不是的。

至於說有效沒效，那肯定不能完全有效、百分百有效，就是一定程度上有效。

換成專業一些的說法，人類的視覺感知，在語義層次上表現得很好，比如能夠輕鬆分辨出物體或場景的含義，但在處理像素級別的、低層次的細微差別時，感知能力不如 AI模型。

從這個角度看，陳鵬認為，普通人在分辨 Deepfake上已經一敗塗地，專家或許還有一戰之力，因為看得太多，分析能力比較全面，可以看出某個地方不符合規律。

我們都不是列文虎克，也沒有火眼金睛，但人性亘古不變。所以，我們也可以拉起傳統的、和技術無關的心理防線——小心駛得萬年船。

詐騙往往萬變不離其宗：竊取私隱，利用恐懼、貪慾、情緒價值編故事，冒充熟人或包裝自己獲取信任，圖窮匕見以錢為最終目的。

▲瑞萊智慧旗下產品 RealBelieve，會在視頻通話時發出預警

牢記這點，然後提高戒心，不點陌生連結，不隨便給驗證碼，儘量不在互聯網過度暴露人臉、聲音、指紋等個人生物信息，接到可疑電話，談到錢就多個心眼，多種方式驗證對方身份，比如詢問只有彼此知道的事情。

古語有云，攻心為上，我們一旦意識到自己有可能被騙，那麼就有可能不被騙。

魔法對轟魔法，AI打敗 AI

提高防詐意識還不夠，韓國「N號房2.0」事件，展現了 Deepfake的另一種作惡形式。人在家中坐，鍋從天上來。

虛假裸照的受害者，可能遇上「復仇色情」——加害者以傳播 Deepfake材料為威脅，勒索和騷擾受害人，造成更嚴重的二次傷害。

但這把鐮刀也可能舉到我們頭上：想像一下，詐騙團伙不知道從哪裏拿到你的照片，合成到低俗視頻，發短訊威脅你，不轉賬，就全網曝光，你該如何自證？

陳鵬所在的瑞萊智慧，確實遇到過這類個人業務，對方說被視頻換臉，能不能還他個清白。

方法當然是有的：魔法對轟魔法，AI打敗 AI。

陳鵬介紹，AI鑒偽主要有兩條技術路線：主動式防禦，被動式檢測。

先說主動式防禦，當我們在社交媒體發了照片，不希望照片被別人利用，那麼可以在其中嵌入一些視覺上不可感知的噪聲。

如果別人拿我們的照片訓練模型，因為這種隱形的干擾，AI沒法很好地提取其中的視覺表徵，最終出來的結果可能扭曲或者變糊，這叫作「對抗樣本攻擊」。

「半脆弱性水印」，是另一種主動式防禦的方式。添加水印之後，如果別人編輯了我們的照片，這個水印會被破壞，我們就可以知道，這個圖片被處理過了，不太可信。

水印不能直接阻止圖片被 Deepfake，但可以檢測和認證圖片的真實性。

當然，主動式防禦的門檻較高，我們需要防患於未然，提前對圖片進行一些處理。

更常見的情況是，我們沒法未卜先知，收到自己的「裸照」，卻也是第一次和自己這樣「坦誠相見」。這時候，就要用上被動式檢測。

瑞萊智慧旗下有一系列負責鑒偽的 AI產品，包括生成式 AI內容檢測平台 DeepReal、人臉 AI安全防火牆 RealGuard等等。

簡單來說，用 AI鑑別 AI，分為兩個環節，先提取大量的偽造特徵，再基於這些樣本建模，讓 AI學習鑒偽的規律。

顏色的扭曲、紋理的不合理、表情的不自然、音畫的不同步、虹膜形狀的不規則、兩個瞳孔高光的不一致，都是 AI的學習素材。

其中，視頻的鑒偽，可能比圖像的準確率更高，因為視頻由一系列連續的圖像組成，相比單獨的圖像，提供了更多可以用於鑒偽的信息，比如人物在不同幀之間的動作連續性。

本質上，AI鑒偽有些像人類用肉眼找茬，也是在利用 AI模型本身的瑕疵。

但瑕疵肯定會逐漸改善，所以產生了一個很關鍵的問題：是先有偽造，後有鑒偽嗎？如果如此，鑒偽不是永遠落後偽造半拍嗎？

陳鵬回答，生成的技術，可能略微領先鑒偽的技術，但他們內部有紅藍對抗的攻防實驗室，一邊模擬 Deepfake，一邊防禦 Deepfake，不斷提高 Deepfake的檢測能力。

如果有什麼新的 Deepfake技術面世，他們可以很快復現，然後在檢測產品上進行驗證，「新的技術出來，即使我沒有見過，我還是能夠一定程度上檢測出來」。

而且，模型本身也有一定的泛化能力，見過的 Deepfake內容多了，碰上沒見過的，一定程度上也可以準確識別和檢測。

▲ B站等平台會對 AI換臉娛樂內容進行標註

總之，AI偽造和鑒偽，是一個長期對抗、互相博弈的「貓鼠遊戲」。

這也是為什麼，陳鵬一直在研究 AI鑒偽算法：

反 Deepfake對抗性太強了，需要長期投入，不像很多 AI產品，做完就不用管了。

儘管如此，他仍然比較樂觀：「用法律法規監管，平台進行內容治理，產業界提供技術和工具，媒體讓更多人意識到風險，多方面治理到一定程度，肯定會有緩和。」

以後上網，我們可能會陷入這樣一個有些荒謬的場景：驗證碼讓你證明「我是人」，Deepfake又讓你證明「我不是我」。

技術沒法完全檢測出所有的惡意，但人類也不必過於焦慮，Deepfake的得逞只是最後的結果，防範 Deepfake卻可以隨時開始。

就像陳鵬所說，即使一個非常簡單的 AI產品，也是一個很系統性的工程。

我們是更大的系統里的部分，讓受傷的人發聲，讓加害的人被罰，讓阻止惡行的技術介入，讓社會的觀念抬高一寸，我們才能共同走向一個技術不被恐懼而是被合理使用的未來。

責任編輯：李華　來源：愛范兒轉載請註明作者、出處並保持完整。

本文網址：https://hk.aboluowang.com/2024/0910/2101220.html

相關新聞