數據可以說是人工智能的燃料。但隨著AI落地各個應用場景,數據隱私泄露問題日益嚴重。數據的交流使用和數據的隱私保護似乎成為了不可調和的矛盾。
如何在不泄露各自數據隱私的情況下實現數據的共享和模型的共建,同時連通數據割裂的孤島是當前所面臨的問題。目前各機構正試圖利用聯邦學習打通人工智能應用的最后一公里,促進人工智能落地。
數據孤島阻礙機器學習訓練
“互聯網時代產生的海量數據,其背后的價值如何能挖掘出來,又會對我們產生什么樣的影響?”近日,在由中國計算機學會發起的第四次聯邦學習 主題研討會上,微眾銀行人工智能首席科學家范力欣說,如何發掘和利用這些信息是現在一個非常熱門的研究方向,但要安全合規地發揮這些海量數據背后的價值,就涉及到隱私保護問題。
隨著人工智能的發展,其可能帶來的隱私泄露風險也日益凸顯。除了備受關注的臉書(Facebook)等巨頭公司的用戶隱私泄露事件外,目前用于算法訓練的數據的來源也讓人擔憂。有媒體日前報道,在網絡商城中有商家公開售賣“人臉數據”,數量達17萬條。目前網絡商城運營方已認定涉事商家違規,涉事商品已被下架處理。
為了應對隱私泄露風險,各國都采取了相應措施。如2018年歐盟出臺了首個關于數據隱私保護的法案《通用數據保護條例》;2019年5月美國舊金山禁用人臉識別,禁止政府機構購買和使用人臉識別技術,以此來消除技術帶來的隱患;從2009年開始到2019年十年間,我國也出臺了非常嚴格的隱私保護法案。
但同時,數據隱私的保護也對依賴數據的機器學習形成了巨大挑戰。如《通用數據保護條例》要求公司在使用數據前要先向用戶聲明模型的作用,這份條例的實行讓許多大數據公司在數據交流方面非常謹慎。
“人工智能需要通過大量的數據學習才能把數據后面的知識挖掘、整理出來,把價值發揮出來。但現實的情況是一方面很多數據質量不好,缺乏標簽;另一方面,數據完全分散在各個數據主體、企業的個案里面,是一個個數據孤島,無法把它們連接起來。”范力欣說,如何在保護數據隱私同時打破數據孤島是我們現在面臨的問題。
聯邦學習或將提供解決辦法
在人工智能領域,傳統的數據處理模式往往是一方收集數據,再轉移到另一方進行處理、清洗并建模,最后把模型賣給第三方。但隨著法規的完善和監控愈加嚴格,如果數據離開收集方或者用戶不清楚模型的具體用途,運營者都可能會觸犯法律。同時,數據是以孤島的形式存在的,解決孤島的直接方案就是把數據整合到一方進行處理。但目前粗暴地將數據聚合是法律法規所禁止的。
范力欣表示,聯邦學習正是針對數據孤島和隱私保護而產生的一種解決方式。值得一提的是,2019年4月,李開復也曾在演講中提到聯邦學習。他表示,為了防止最嚴重的數據濫用,需要制定相應的法規。與此同時也可以嘗試“以子之矛攻己之盾”——用更好的技術解決技術帶來的挑戰,例如同態加密、聯邦學習等技術。
作為一種分布式機器學習技術,聯邦學習可以實現各個企業的自有數據不出本地,而是通過加密機制下的參數交換方式共建模型,即在不違反數據隱私法規的情況下,建立一個虛擬的共有模型。由于數據本身不移動,因此也不會涉及隱私泄露和數據合規問題。這樣,建好的模型將在各自的區域僅為本地的目標服務。在這樣一個聯邦機制下,參與各方可以在不披露底層數據和底層數據的加密(混淆)形態下共建模型,各個參與者的身份和地位相同,這就是為什么這個體系叫做聯邦學習。
微眾銀行人工智能部高級研究員范濤介紹,如SecureBoost聯邦模型,核心是大家共同構建了一棵“樹”,每一方都可以看見這棵“樹”,但是每一方看見的東西是不一樣的。通過構建這樣一棵“樹”能夠實現算法的性能提升。
“聯邦學習所使用的數據是不能移動的,但數據背后的知識、數據背后的價值是可以移動、轉移、共建的。所有貢獻數據的參與者都有同等的權利、獲得同等的回饋,這是共同獲益的機制。”范濤說。
如此,大家就有了動力共建聯邦學習的生態。
“聯邦學習 大體可以分為橫向聯邦和縱向聯邦。橫向聯邦特征維度都一樣,通過擴充樣本的方式提升模型質量;縱向聯邦樣本相通,通過擴充特征的方式來實現數據的信息互通,提升模型質量。”范濤說,比如目前的傳統反洗錢模型存在樣本少、數據質量低的問題,使用橫向聯邦的技術可以解決這樣的問題,在橫向聯邦里面,不需要進行樣本對齊。
正在邁向積累經驗的落地階段
事實上,聯邦學習早在2015年就被提出了,當時只是作為一個算法工具。隨后,隨著聯邦學習切實地解決了上述問題,開始受到關注。“現在聯邦學習已經進入一個新的時期,就是落地時期。”微眾銀行首席人工智能官楊強表示,在經歷以隱私保護為重點的第一階段之后,目前的聯邦學習正在邁向積累經驗的落地階段。
“在聯邦學習這個生態之中,我們可以看到各種各樣的落地場景,比如智慧城市、智慧終端、智慧醫療等。”范力欣說,比如在醫療領域,健康監護需要在普適環境下實現開放域用戶行為的智能感知和理解,而面向疾病診斷的智能算法研究存在著限制移動、時空受限等缺陷。
針對以上難題,中科院計算所泛在計算系統研究中心主任研究員陳益強及其團隊利用聯邦學習技術,將范式驅動的限定場景下面向疾病的診斷模型向普適場景下的健康狀態監測進行聯邦遷移。
“此外云服務也是聯邦學習一個比較理想的落地途徑,聯邦學習其自身具備的特點,適合在云上和多個用戶進行部署和使用,例如可以把在公有云里面聯邦學習的機構組織加進來,形成一個異構系統或者生態系統,為不同的組織之間的數據對接提供平臺。”VMware中國研發中心技術總監張海寧說。
與此同時,聯邦學習也正面臨著諸多挑戰和機會。“工業實踐者在具體部署聯邦學習技術以滿足業務合規化的同時,還需要為現有的聯邦學習配置‘保護鎖’與‘疫苗’,以更好地保護自身的商業機密。”創新工場南京國際人工智能研究院執行院長馮霽介紹,聯邦學習框架內不同模塊可能會遇到的潛在攻擊方式,如數據下毒、信道監聽以及對抗樣本等都是聯邦學習需要面臨的挑戰。
范力欣表示,建立數據價值聯盟將是聯邦學習的最終愿景。“長期來看,聯邦學習的期望是把數據背后的知識和價值拿出來,參與各方共建一個數據價值聯盟,這個聯盟里有的成員作出了貢獻, 讓其他成員享受到其所提供的服務,當然其他成員也需要付出他們認為該付出的,來進行對等交換。”據了解,聯邦學習標準草案預計將于2020年2月推出。
來源 | 科技日報