在不久前,Facebook 發起了 Deepfakes 檢測挑戰賽;而近日,谷歌 AI 就跟著強勢推出了 Deepfake 視頻檢測數據集,勢將一同與假視頻死磕到底。
(Deepfakes 檢測挑戰賽詳情:https://www.leiphone.com/news/201909/2T95wJf5RRTycmkT.html?type=preview&sign=g3d2q7B6dqqAdnGqs6V5YoCdn5aEh33agquWoQ)
該數據集一共包含了來自 28 個不同場景下,由真人演員現場拍攝的 3000 多段視頻。谷歌希望能夠通過這些視頻數據,更好的維護整個社會的網絡安全環境,并使得開發者能夠利用這些數據,開發新的 Deepfake 檢測工具,更高效地識別 Deepfake 假視頻。谷歌在博客上發表了相應的文章來介紹這一數據集,雷鋒網 AI 開發者將其整理編譯如下。
Deepfake 視頻檢測數據集背景
近幾年來,深度學習的發展催生了曾經被認為不可能實現的技術?,F代生成模型就是其中的一個例子,它能夠合成超現實主義的圖像、語音、音樂甚至視頻。這些模型已經被廣泛應用于各種各樣的應用中,包括:通過文本到語音的方式使世界各國的人變得更容易溝通,或者是用以生成醫學成像的訓練數據等。
與任何變革性技術一樣,這些技術也帶來了新的挑戰。所謂的「Deepfake」就是其中之一,它可以由能夠操縱視頻和音頻剪輯的深度生成模型制作而得。自從 2017 年底首次出現以來,就有許多開源的 Deepfake 生成方法流于市面,導致合成媒體剪輯視頻的數量不斷增加。雖然許多人可能只是出于趣味性的目的,但一旦落入不法分子手里,這一技術也可能對個人和社會造成極大的危害。
谷歌認真考慮了這些問題。正如他們去年在《人工智能原則》中發表的那樣:「我們致力于開發 AI 的最佳實踐,以減少技術的濫用所帶來的潛在危害?!?br />
去年 1 月,谷歌宣布發布一個合成語音數據集,以支持開發高性能合成音頻檢測器的國際挑戰賽。作為該挑戰賽的一部分,該數據集只供給共計有超過 150 個研究機構和工業組織進行下載;而從此刻刻起,數據集開始免費向公眾開發。
Deepfake 視頻檢測數據集介紹
谷歌現在開始與 Jigsaw 合作,并發布了一個自制的大型可視化數據集,該數據集已被納入 Face Forensics 視頻基準測試。這一基準測試是德國慕尼黑工業大學和意大利那不勒斯腓特烈二世大學開發的圖像測試。將這些數據納入 Face Forensics 視頻基準的是由包括 Matthias Niessner 教授、Luisa Verdriva 教授和 Face Forensics 團隊在內的主要研究人員合作進行開發。
谷歌對 Face Forensics 基準測試貢獻的視頻樣本。為了生成這些樣本,研究者隨機選擇了幾對演員,并利用深層神經網絡將一個演員的臉交換到另一個演員的頭上,詳細地址:https://www.youtube.com/watch?v=x2g48Q2I2ZQ
為了制作這個數據集,在過去的一年里,谷歌與眾多演員合作錄制了數百段視頻;并使用公開的 deepfake 生成方法,從這些視頻中創建了數千個 Deepfake 假視頻。
這些由真實視頻和虛假視頻組成的數據集組成了可用于 Deepfake 檢測和識別的素材。作為 Face Forensics 基準測試的一部分,該數據集現在已經免費提供給研究社區,研究者可以用來開發合成視頻檢測的方法。
演員在各種場景下拍攝的視頻。圖片中上圖為真實視頻下圖為生成的 deepfake 視頻,兩者之間可能存在或微妙或劇烈的變化,這取決于拍攝演員本身
Face Forensics++與 Deepfake 檢測數據集
Face Forensics++是一個由 1000 個原始視頻序列組成的檢測數據集,這些視頻序列通過四種自動面部操作方法進行操作,即 deepfakes、face 2 face、faceswap 和 Neural Textures。這些數據來源于 977 個 YouTube 視頻,所有視頻都包含一個可追蹤的大部分正面,沒有遮擋,這使得自動篡改方法能夠生成真實的偽造。
由于該方法提供了二進制掩碼,因此這一數據集可以用于圖像和視頻分類以及分割。此外,Face Forensics++還提供 1000 個 deepfakes 模型來生成和擴充新數據。有關更多信息,請參閱我們最新的文件。(https://arxiv.org/abs/1901.08971)
新版本改進內容包括
- Deepfake 檢測數據集——加入了谷歌與 Jigsaw 發布的 Deepfake 檢測數據集
數據集下載地址:https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html
- Neural Textures——加入了使用 GANs 和 Neural Textures 進行面部操作的方法
論文地址:https://arxiv.org/pdf/1904.12356.pdf
Deepfake 數據集的意義
隨著 DeepFake 技術的不斷發展,谷歌將添加更多內容到這個數據集中,并繼續與該領域合作伙伴合作。通過給蓬勃發展的 AI 研究社區提供支持,谷歌也希望能夠減輕合成媒體濫用的潛在危害,這也正是在 faceforensics 基準測試中加入 Deepfake 數據集的重要意義。
原文鏈接:
https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html
GitHub 地址:
https://github.com/ondyari/FaceForensics/
來源 | 雷鋒網 AI 開發者