<label id="qqrfm"><meter id="qqrfm"></meter></label>
      <span id="qqrfm"></span><label id="qqrfm"><meter id="qqrfm"></meter></label>

        從概念到技術,再到國際標準和開源社區,聯邦學習只用兩年時間

        8 月 16 日,第二十八屆國際聯合人工智能大會(IJCAI 2019)在澳門成功閉幕。

        本屆 IJCAI 正值 IJCAI50 周年,主辦方組織了一系列的主題活動。除了論文、Tutorial、Workshop、demo、展覽等常規環節之外,還舉辦了包括 IJCAI 50 周年紀念、AI in China、用戶數據隱私等極具特色的 panel 環節。而在這諸多內容中,「聯邦學習」無疑是最值得關注的內容之一。

        在 8 月 12 日的 Workshop Day 中,由微眾銀行與 IBM 等機構舉辦的「首屆聯邦學習國際研討會」成為了當天最受歡迎的 Workshop,研討會尚未開始就已爆滿,還有不少參會者擠在門外旁聽,聽眾的熱情超出了主辦方的預期。

        從概念到技術,再到國際標準和開源社區,聯邦學習只用兩年時間

        雷鋒網(公眾號:雷鋒網)了解,本次「首屆聯邦學習國際研討會」由微眾銀行、IBM Research 主辦,并得到了愛思唯爾、創新工場、松鼠 AI 的贊助和中國人工智能開源軟件發展聯盟(AIOSS)及 IEEE 等機構的支持。
        在 IJCAI 大會期間同時還舉辦了「IEEE P3652.1(聯邦學習基礎架構與應用) 標準工作組第三次會議」,另外「AI 安全專題研討會」、「AI 與用戶隱私」圓桌會上微眾銀行也分享了聯邦學習的相關內容。這恐怕也是自 2017 年聯邦學習概念提出以來,聯邦學習研究人員首次在人工智能國際頂會上如此密集的發聲,以微眾銀行為代表的諸多企業的參與也標志著聯邦學習已經逐步從基礎研究走向落地應用,而「首屆聯邦學習國際研討會」的召開則標志了聯邦學習國際社區的正式成立,聯邦學習進入了一個新的階段。

        聯邦學習為何成為備受產業界關注的熱點?

        2006 年以來,隨著深度學習神經網絡的提出、算法改善和算力的提升、以及大數據的廣泛應用,人工智能迎來了一波新的高峰。2016 年的「人機大戰」AlphaGo 戰勝圍棋世界冠軍李世石,不僅展示了以大數據驅動的人工智能的巨大潛力,也讓人們更加期待一個人工智能在各行各業中得以實現的新時代的到來。

        然而理想很豐滿,現實很骨感——在實際應用中,大多數應用領域均存在數據有限且質量較差的問題,在某些專業性很強的細分領域(如醫療診斷)更是難以獲得足以支撐人工智能技術實現的標注數據。同時在不同數據源之間存在難以打破的壁壘,「大數據」往往只是越來越多的「數據孤島」的總稱。

        同時隨著大數據的發展,重視數據隱私和安全已經成為一種世界性的趨勢,而歐盟「數據隱私保護條例」(General Data Protection Regulation,GDPR)等一系列條例的出臺更是加劇了數據獲取的難度,這也給人工智能的落地應用帶來了前所未有的挑戰。

        「聯邦學習」(Federated Learning)就是為解決傳統機器學習方法所面臨的數據困境的一種新的嘗試。這是一種在保護數據隱私、滿足合法合規要求的前提下,多參與方或多計算結點之間開展高效率的機器學習的新型人工智能基礎技術。聯邦學習具有以下特點:
        • 在聯邦學習的框架下,各參與者地位對等,能夠實現公平合作;
        • 數據保留在本地,避免數據泄露,滿足用戶隱私保護和數據安全的需求;
        • 能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數的加密交換,并同時獲得成長;
        • 建模效果與傳統深度學習算法建模效果相差不大。尤其在聯邦遷移學習過程中可做到「無損失」,避免了遷移學習的負遷移;
        • 聯邦學習是一個「閉環」的學習機制。模型效果取決于數據提供方對自己和他人的貢獻,有助于激勵更多機構加入數據聯邦。
        聯邦學習的上述特點對于打破數據孤島、推動人工智能在更多的行業落地上有著重要的意義。為了給用戶提供更好的服務,在人工智能應用中需要多方整合數據迫切性達到了一個前所未有的程度。

        但如果在公司間無法交換數據,除了少數幾家擁有海量用戶、具備產品和服務優勢的「巨無霸」公司外,大多數企業難以以一種合理合法的方式跨越人工智能落地的數據鴻溝,或者對于他們來說需要付出巨大的成本來解決這一問題。

        聯邦學習正是在現有的機制和流程無法改變的情況下,希望通過技術手段建立一個虛擬的共有模型,從而達到好像大家把數據聚合在一起建立的最優模型一樣的效果。

        從概念到技術,再到國際標準和開源社區,聯邦學習只用兩年時間

        值得一提的是,這種數據聚合并不是簡單地將各方數據進行合并,而是在各參與方自有數據不出本地、通過加密機制下的交換方式,從而在各參與方一端均建立起高質量的模型(例如說,企業 A 建立一個分類任務模型,企業 B 建立一個預測任務模型)。相比起各數據主體擁有私有數據「各自為政」的傳統方式,「聯邦」包含著將多方以平等的地位團結起來,有「君子和而不同」的意義。

        關于「聯邦學習」的名字還有一個故事:在早期國內將「FederatedLearning」大多翻譯為「聯合學習」,現多稱為「聯邦學習」。其中的區別是,如果用戶是個人,確實是把他們的模型「聯合」起來學習;而如果用戶是企業、銀行、醫院等大數據擁有者,這種技術則更像是將諸多「城邦」結合起來,「聯邦」一詞則更為準確。這一名字的變化,也反映著聯邦學習的研究主體從理論轉向實際應用的變化趨勢。

        聯邦學習的進化之路

        2017 年,為解決安卓手機用戶個人終端設備上的模型(如輸入法預選詞的推薦模型)訓練引發的數據安全和大量數據傳輸問題,谷歌提出了一種新的數據聯合建模方案,使得用戶在使用安卓手機時在本地更新模型參數,并將參數上傳到云上,從而使得具有相同特征維度的數據方聯合建立模型。它能夠解決兩個數據集的樣本特征重疊部分較大、樣本重疊部分較小的數據集分布情況。這種聯合建模方案被稱為橫向聯邦學習,也是最早的聯邦學習的方式。


        從概念到技術,再到國際標準和開源社區,聯邦學習只用兩年時間

        聯邦學習的分類

        針對不同的數據樣本類型,除了橫向聯邦學習,還有縱向聯邦學習和聯邦遷移學習兩種不同的方式。

        前者用于解決樣本重疊部分較大,而樣本特征重疊部分較小的數據集、需要縱向切分的情況,而針對數據集的樣本和樣本特征重疊部分都比較小、或沒有重疊部分的情況。

        香港科技大學講席教授、微眾銀行首席人工智能官楊強教授帶領微眾銀行 AI 團隊將遷移學習和聯邦學習結合起來提出了聯邦遷移學習,不是通過對數據進行切分進行訓練,而是通過遷移學習進行訓練。

        從業務場景上具體舉例來說,相同業務類型、不同區域的場景(如兩家不同地區的區域性銀行)適用橫向聯邦學習,同一區域、不同業務類型的場景(如深圳的一家銀行和超市)適合縱向聯邦學習,而區域和業務不同的機構(如一家美國超市和一家中國的銀行)則通過引入聯邦遷移學習來解決單邊數據規模和標簽樣本不足的問題。
        由此也可見,微眾銀行 AI 團隊提出的聯邦遷移學習針對的情景更加具有普適性,也更符合未來大數據、多企業、跨行業的應用需求。

        楊強教授領導下的微眾銀行AI團隊則是成為了中國乃至國際聯邦學習的主要推動者。

        從 2018 年起,微眾銀行 AI 團隊不僅在 CCAI、AAAI、CCF 青年精英大會、IJCAI 等各類學術交流會議上多次交流聯邦學習成果,還與 CCF、IEEE 等專業組織多次舉辦研討會,與業界共探聯邦學習的創新突破;在近期發表的多篇論文中,微眾 AI 團隊介紹的聯邦學習思路下針對有安全需求的有監督學習、強化學習、決策樹的具體方法,包括安全的聯邦遷移學習、聯邦強化學習以及 SecureBoost 安全樹模型受到了研究者和業界的關注。

        在技術落地上,微眾銀行還將聯邦學習應用于自身的信貸風控、客戶權益定價等多項金融業務流程;與此同時,微眾銀行還與鵬城實驗室、瑞士再保險、極視角等多家企業及機構簽署合作,將聯邦學習技術推廣應用于更多領域。
        微眾銀行 AI 團隊還致力于推動聯邦學習的標準化。這也是一項技術走向成熟并逐步落地時的必要過程,聯邦學習要想真正實現落地應用,就必須建立一種企業之間的對話語言,并且是得到國際法律法規體系支持的對話語言。

        去年 10 月份微眾銀行 AI 團隊向 IEEE 標準協會提交了關于建立聯邦學習標準的提案——「Guide forArchitectural Framework and Application of Federated Machine Learning」(聯邦學習基礎架構與應用標準),并于 2018 年 12 月獲批。

        隨后在楊強教授的主導下成立了 IEEE P3652.1(聯邦學習基礎架構與應用) 標準工作組,工作組在今年 2 月和 6 月分別召開了第一次、第二次會議,分別梳理了各自領域內的聯邦學習典型案例,對聯邦學習標準的具體形式及內容進行了討論,對標準草案的制定提出了建設性意見。

        在本次的 IJCAI 會議上,微眾銀行再次聯合 20 余家國內外企業、單位共同舉辦了 IEEE P3652.1(聯邦學習基礎架構與應用) 標準工作組第三次會議,這次會議的主要內容是聚焦聯邦學習各項指標的評估如何量化、標準如何體現聯邦學習技術的合規性、聯邦學習應用案例的分類歸納等議題。

        聯邦學習進入國際標準流程,其意義在于讓加入聯邦學習聯盟的企業能夠在同一個框架上對話,同時如果新的企業或機構想要加入聯邦學習,也必須按照這一標準的規定應用同樣的框架,這樣反過來又能夠推動聯邦學習生態的擴大,可以說是給整個聯邦學習的生態建設打下了一個基石,意義巨大。

        走出金融場景,用開源平臺打造AI大數據生態

        一直以來,金融行業是大數據與人工智能落地最具潛力的行業之一。金融行業是數據密集型行業,金融數據具有更高的實時性、安全性和穩定性的要求,結構化數據占比高,應用場景廣泛。但與此同時,金融行業還有賴于利用第三方數據來為客戶提供更好的服務,自身業務特點也對金融數據的數據安全和個人隱私保護帶來了極大的困難,數據孤島現象嚴重,這也是為何聯邦學習首先在微眾銀行這樣的創新金融企業落地和開花結果的原因。

        但聯邦學習所適用的場景不僅僅是金融行業。在其他行業,數據孤島的問題也同樣普遍存在。如何利用聯邦學習的能力做到「學習如何學習」,在積累了很多領域的學習經驗后將遷移的例子做成訓練集,讓人工智能來規劃如何在不同領域中實現遷移,對人工智能的落地具有指導性的意義。而在此過程中,積累的領域越多,可獲得的訓練集(即不同領域間相互遷移的例子)將會呈指數型的增長,因此建立一個聯邦學習的生態系統至關重要。

        基于此種思考,微眾銀行 AI 團隊發起了一個旨在開發和推廣安全和用戶隱私保護下的 AI 技術及其應用的項目「聯邦學習生態」(FedAI Ecosystem)。項目在確保數據安全及用戶隱私的前提下,建立基于聯邦學習的 AI 技術生態,使得各行業更充分發揮數據價值,推動垂直領域案例落地。

        對技術推進的另一種方式是開源。

        今年 6 月份微眾銀行開源了工業級聯邦學習技術框架 Federated AI Technology Enabler(簡稱 FATE)。之所以稱之為「工業級」,在于它能夠解決包括計算架構可并行、信息交互可審計、接口清晰可擴展在內的三個工業應用常見問題。

        FATE 項目并不僅僅提供了一系列開箱即用的聯邦學習算法、比如 LR、GBDT、CNN 等等,更重要的是給開發者提供了實現聯邦學習算法和系統的范本,大部分傳統算法都可以經過一定改造適配到聯邦學習框架中來,通過項目開源,對相關機構進行 AI 賦能,提升機構自身的建模技術和能力,為工業界人員快速開發應用提供一種簡潔有效的解決方案,支持在多場景下的開拓和應用采用聯合共建、平臺服務等方式進行解決方案落地。

        盡管聯邦學習為諸多之前人工智能難以落地的應用場景提供了一個可行的思路,在具體的落地上,不同行業也還存在一系列不同的問題。如在「首屆聯邦學習國際研討會」現場,一位來自華為的技術人員對雷鋒網表示,他來參加這個研討會的目的是希望解決他在實際應用中相關技術的兩個困惑,一是在智慧城市的場景中,如何利用有標注的數據,通過聯邦學習幫助利用本地攝像頭無標注數據進行學習,二是在醫療場景中,在拉通兩個醫院的交換模型之前,是否可能初步預測交換得到的性能得到提升。在聯邦學習進一步推廣的路上,還需要更多的人加入生態的建設。

        令人欣喜的是,本次研討會收到了很多來自各高校機構、企業的優秀論文,聯邦學習的社區在進一步壯大。同時在研討會第二天,微眾銀行再次升級了 FATE,推出首個可視化聯邦學習工具 FATEBoard,以及聯邦學習建模 pipeline 調度和生命周期管理工具 FATEFlow,并對 FederatedML 進行了重大升級,在算法上也有了更新。新版的 FATE 還加入可部分支持多方的功能,在后續版本中,微眾銀行 AI 團隊將會對支持多方功能做進一步的加強
        IJCAI 上舉辦的首屆聯邦學習國際研討會是聯邦學習的一個重要時間節點。

        在此之前,盡管關于聯邦學習有過許多論文、演講和新聞報道,但外界幾乎沒有一個能夠一窺全貌的機會,聯邦學習的研究者也極少能有機會匯聚一堂了解聯邦學習當前發展的全貌。IJCAI 上開展的首屆國際聯邦學習研討會,是聯邦學習社區的第一次集中發聲,也同時吸引了大量各界人士的關注。而在今年 12 月在溫哥華舉行的機器學習頂會 NeurIPS 上,微眾銀行也將再度舉辦聯邦學習研討會,向大眾分享更多聯邦學習方面的研究進展及實踐經驗。

        展望

        自從 2012 年的第三波人工智能浪潮洶涌而來,在最初的新鮮勁褪去后,我們與人工智能已遭遇「七年之癢」式的審美疲勞。

        盡管人工智能領域依然有持續性的進展,但在大眾的眼里,人工智能的承諾仍然大部分沒有實現。研究者已經意識到,在人工智能領域的突破極度依賴標注數據,像 ImageNet 這樣的開放式高質量數據集已經成為創新的動力之源。

        未來人工智能的挑戰依然在數據方面:隨著互聯網、5G 技術的進步和廉價傳感器的更多應用,未來的數據將會呈現海量碎片化的趨勢,在訓練數據集上要求更低的技術,包括生成對抗網絡、強化學習、遷移學習與聯邦學習,將會成為研究者們寄予厚望的方向。

        那么,聯邦學習未來是否可期?

        本次研討會爆滿的場面也是一個極強的信號,面向實際問題的人工智能解決方案要能有效解決數據不足、割裂、小數據的數據困境,更一定要解決安全、合規、隱私保護的問題,并且還要能夠提高模型的效率。目前這樣一個 AI 技術時代,用戶隱私保護將成為社會的一個強約束,越來越多的人和企業開始意識到「數據孤島」的嚴重性以及數據共享的迫切性。聯邦學習能夠同時兼顧解決這兩個問題(隱私保護與共享),為我們建立一個跨企業、跨數據、跨領域的大數據 AI 生態提供了良好的技術支持,而連接更多行業和應用場景的聯邦學習生態系統,也將是聯邦學習得以脫穎而出的利器。

        來源 | 雷鋒網
        作者 | camel

        上一篇:深度 | 劉群:基于深度學習的自然語言處理,邊界在哪里?
        下一篇:GPT-2的探究:對虛假新聞生成的恐懼,源于技術還是人?

        主站蜘蛛池模板: 青青草国产免费久久久下载| 亚洲无码视频在线| 一区二区三区免费在线视频| 精品亚洲永久免费精品| 99热在线精品免费全部my| 一区二区三区免费看| 亚洲精品欧洲精品| 亚洲成年人啊啊aa在线观看| 色欲A∨无码蜜臀AV免费播 | 四虎成人免费影院网址| jizz免费观看视频| 亚洲综合色区中文字幕| 综合亚洲伊人午夜网| 成人毛片免费观看视频| 十八禁在线观看视频播放免费| 亚洲自偷自偷在线成人网站传媒| 国产精品亚洲mnbav网站 | 国产午夜无码精品免费看| 亚洲欧美日韩中文二区| 久久精品国产亚洲av麻豆| 亚洲成年人啊啊aa在线观看| 蜜桃视频在线观看免费网址入口| 人妻免费一区二区三区最新| 国产精品亚洲专区无码WEB| 亚洲色图综合网站| 亚洲国产无套无码av电影| 又粗又硬免费毛片| 毛片a级三毛片免费播放| 日本在线免费观看| sihu国产精品永久免费| 亚洲Aⅴ在线无码播放毛片一线天| 亚洲色欲或者高潮影院| 国产v亚洲v天堂无码网站| 亚洲av无码天堂一区二区三区 | 中文字幕亚洲色图| 亚洲色精品88色婷婷七月丁香| 免费欧洲毛片A级视频无风险| 青青青国产在线观看免费网站 | 亚洲乱码中文字幕手机在线| 四虎影院在线免费播放| 国产在线观看片a免费观看|