12 月 20 日,新一代人工智能院士高峰論壇深度學習框架分論壇于深圳成功舉辦。百度飛槳作為我國首個自主研發、功能豐富、開源開放的產業級深度學習平臺,目前已經凝聚了 406 萬開發者,創建 47.6 萬個模型,服務 15.7 萬家企事業單位。飛槳助力開發者快速實現 AI 想法,創新 AI 應用,作為基礎平臺支撐越來越多行業實現產業智能化升級。
“崇尚技術,鼓勵創新”,本次深度學習框架論壇共邀請到 7 位嘉賓,向與會者們分享來自百度飛槳的技術干貨。
飛槳作為源于產業實踐的深度學習開源開放平臺,一直不斷從產業實踐中吸取經驗,進行各項性能的極致優化以滿足更多的業務落地。百度飛槳主任研發架構師吳志華基于產業級深度學習框架面臨的諸多挑戰,向大家介紹了飛槳的四大領先技術。
首先在編程模式上,飛槳采用動靜統一的方式,構建了開發便捷的深度學習框架。飛槳基于編程邏輯的計算描述,提供給開發者一個比較直觀的編程范式,并同時支持靜態圖和動態圖兩種模式。在超大規模分布式訓練技術上,飛槳目前重點解決了“同生活息息相關的推薦場景下的稀疏大模型”、“圖像和自然語言處理下的稠密大模型”兩大類。對于比較稀疏的推薦場景,飛槳也在不斷解決萬億參數存儲、萬億邊圖存儲和高性能通信及訓練等諸多挑戰。第三個領先技術來自多端多平臺部署的高性能推理引擎。飛槳針對推理提供多端多平臺的推理部署工具鏈,從模型準備到模型優化到推理部署,各個環節都有不同的工具組件。飛槳的第四個特點當屬其產業級的開源模型庫。另外,目前飛槳已經適配了 22 家企業,31 種芯片,飛槳套件更是多次登上 GitHub 創建的榜首。
會上,飛槳資深研發工程師 Jason 介紹了飛槳在深度模型應用中的產業級部署方案。在模型準備階段,開發者可以選擇基于飛槳的動態圖 API,也可以通過飛槳開源的產業級模型庫,或者 X2Paddle 快速遷移其它框架的模型。在部署階段,目前飛槳提供了包括服務端上的 Paddle Inference 推理引擎,快速服務化部署引擎 Paddle Serving,移動端和邊緣端上的部署引擎 Paddle Lite,以及支持在網頁前端上部署的 Paddle.js。而除了飛槳自研的全場景部署方案之外,飛槳也開源了 Paddle2ONNX,支持飛槳模型保存為開源的神經網絡交換格式 ONNX,可以滿足用戶更靈活的部署需求。
在講解完飛槳在各場景下產業級的部署方案后,Jason 還分享了飛槳在無人巡檢場景落地的產業案例。他表示,飛槳目前已在多個產業領域得到應用,歡迎大家攜手飛槳,共創中國 AI 未來。
“大規模預訓練技術旨在通過海量數據進行自監督訓練,使用統一的模型和方法解決所有任務。該技術打破了傳統方法對于大規模標注數據的依賴,顯著降低了人工智能的應用門檻。”百度資深研發工程師 Shawn 這樣說道。
今年 12 月,全球首個知識增強千億大模型——鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)正式發布。從 2019 年 3 月發布 ERNIE 1.0,到最新的產業級知識增強大模型文心全景圖,既包含基礎通用的大模型,也包含面向重點領域、重點任務的大模型,以及豐富的工具與平臺。ERNIE3.0 的創新點是知識增強,將 NLU 和 NLG 進行有機整合等。另外,ERNIE3.0 還針對模型的框架進行了優化,利用 4D 混合并行技術,縮短了模型的收斂時間。Shawn 強調道,現在的文心除了在百度搜索、好看視頻、百度地圖、小度音響等內部產品應用外,還在持續賦能包括保險、金融、醫療、人力資源在內的各行各業。
百度資深研發工程師周波介紹了飛槳強化學習框架的三個特性。一是提供了非常友好的初學者教程;二個是在框架層面做的設計以及算法開源工作。第三個是聚焦到強化學習的并行方向,提供了非常便捷且高效的并行接口。在實際性能上,百度的強化學習框架與其他開源框架對比,性能和收斂效果都更好。
“我們已經在飛槳算法庫里做了很多算法,相關的算法也經過了內部測試團隊在多個測試基準做了評估。我們開源的算法在最終效果上領先于主流的算法庫,有 70%多的指標比它們更好。”周波說道。
會上,OpenCV 中國團隊負責人于仕琪向大家介紹了 OpenCV 的發展歷程。他提到,OpenCV 對深度學習模型的支持是非常好的,非常擅長在嵌入式系統里部署。最近幾年 OpenCV 的變化,體現在它的運營變得更加國際化、社區化。
OpenCV 的未來是什么?于仕琪答道,作為一個有 21 年歷史的老庫,OpenCV 不僅在邊緣計算方面要發力,深度學習上要提升,更要對 Licence 有所關注。OpenCV4、4.5 和 5.0,在邊緣端和 ARM 的提速上不斷加入了很多新功能,后面 OpenCV 在部署上也會更加有優勢。中國在 OpenCV 用戶數量里排第一,但中國的貢獻量排名卻不是第一。針對這點,于仕琪表示:“希望在我們的共同努力下,使得中國對 OpenCV 的貢獻也達到世界第一。”
圖是描述復雜世界的通用語言,而圖神經網絡的發展從 2014 年開始。百度資深研發工程師 Yelrose 談到,目前基于空間的圖卷積算法主要是把圖的建模分成兩部分:一是怎么建模一個節點,二是怎么建模整張圖。PGL 2.2 按照消息傳遞的思路設計 API 接口。在編程算法上,它支持消息傳遞接口,包括不同的池化接口、采樣接口,方便用戶做圖神經網絡的研發。另外,PGL 上還有一些模型倉庫,讓用戶快速實現已有算法,真正做到推薦系統、搜索引擎、金融風控等場景的應用落地。
傳統機器學習有一個數據是相互獨立的假設,數據沒有相互關聯,但在圖網絡場景,樣本之間有相互關聯的關系。這些關系怎么充分利用上,是圖網絡的關鍵。飛槳圖神經網絡 PGL 的應用落地很多,例如百度 APP 和貼吧等推薦系統場景,搜索引擎內的語義索引算法,甚至是百度地圖的流量預測和興趣點檢索。
飛槳高級技術經理賴寶華分享了飛槳產業級模型庫產生的背景,作為一個 AI 應用開發者經常遇到這些問題——應該去哪里找模型,另外模型很多,模型應該怎么選,選哪種?很多模型只追求算法精度,不一定適用產業場景,此外模型優化和部署時可能遇到一系列問題。飛槳產業模型庫的目標就是希望解決用戶這三大難題。
飛槳產業級模型庫中包含了業界經典、前沿以及百度自研的一系列在產業實際場景中充分驗證的模型,覆蓋語音、圖像、自然語言處理、強化學習、圖神經網絡等多個方向,超過 400 種模型算法。針對產業場景,從數據準備到模型訓練到最終上線部署做了全流程的打通。針對用戶模型優化以及產業化落地需求,飛槳推出訓推一體認證以及端到端開發套件。在設計理念和架構上,每個開發套件都提供全流程支持、模塊配置化以及提供豐富的案例、示例代碼和文檔。此外還可以通過飛槳產業實踐范例庫中場景快速嘗試及實現業務快速驗證。隨后詳細介紹了飛槳產業級模型庫在巡檢、安防、互娛、電商等業務場景中的應用。業務場景是復雜多變的,飛槳不定時會開展產業落地賽,并提供技術培訓、賦能工具以及獎金,鼓勵各行各業開發者加入飛槳開源項目建設和豐富飛槳模型生態,共同推進人工智能繁榮生態。
上一篇:啟夢行動再揚帆 | 2021 啟智社區優秀項目 & 優秀開發者評選結果重磅揭曉
下一篇:智算未來 | 2021 新一代人工智能院士高峰論壇智算網絡分論壇成功舉辦