2019 年 8 月 19 日,SIGCOMM 2019 在北京開幕。在 8 月 24 日,由阿里巴巴和 ACM SIGCOMM 聯(lián)合舉辦的黑客馬拉松賽(Hackathon)將于北京阿里中心舉行,本屆 Hackathon 主席由阿里巴巴基礎(chǔ)設(shè)施網(wǎng)絡(luò)研發(fā)事業(yè)部高級技術(shù)專家劉洪強(qiáng)擔(dān)任。這場賽事一共吸引了來自世界各地的 8 個代表隊參加,角逐冠軍。
針對本次 Hackathon 如何賦能 AI 學(xué)術(shù)青年,以及阿里基礎(chǔ)設(shè)施網(wǎng)絡(luò)研發(fā)事業(yè)部的細(xì)節(jié),雷鋒網(wǎng) AI 開發(fā)者獨家訪問了劉洪強(qiáng)主席,并在不改變原意的情況下,將活動及采訪內(nèi)容整理如下。
Hackathon 如何賦能 AI 開發(fā)者?
雷鋒網(wǎng) AI 開發(fā)者:這次 ACM SIGCOMM 上的 Hackathon 的參賽主題是「Measuring and Debugging Real Network Systems」,為什么會選擇這個主題呢?這個主題對于行業(yè)或者現(xiàn)實生活都有哪些啟發(fā)?
劉洪強(qiáng):SIGCOMM 是 ACM 在數(shù)據(jù)通信中的旗艦會議,所以 SIGCOMM 上面的 Hackathon 也是以「網(wǎng)絡(luò)」為主題。今年是 SIGCOMM Hackathon 舉辦的第二屆比賽,相較于上一屆更廣泛的網(wǎng)絡(luò)主題,這次我們選擇了更聚焦的「測量和調(diào)試真實的網(wǎng)絡(luò)系統(tǒng)」作為本屆比賽主題。
我們主要希望能夠通過這一主題,讓參賽者意識到當(dāng)前的網(wǎng)絡(luò)系統(tǒng)中還存在著大量困難的問題有待解決,所以開發(fā)好的監(jiān)測工具和分析工具對提高網(wǎng)絡(luò)系統(tǒng)的整體穩(wěn)定性和性能至關(guān)重要。除此之外,我們還希望能夠通過這個主題讓計算機(jī)網(wǎng)絡(luò)和系統(tǒng)行業(yè)的人看到開發(fā)網(wǎng)絡(luò)測量和調(diào)試系統(tǒng)的價值和難度,提倡思考如何借助 AI 等新工具,從更高和更系統(tǒng)的層面了解現(xiàn)有的重要網(wǎng)絡(luò)系統(tǒng),從而為云計算等重要的基礎(chǔ)設(shè)施資源保駕護(hù)航。
雷鋒網(wǎng) AI 開發(fā)者:剛剛你提到的借助 AI 新工具,那么 AI 技術(shù)可以如何幫助解決這個主題所面臨的問題呢?
劉洪強(qiáng):本次 Hackathon 中,參加者可以利用前沿的 AI 技術(shù)來對測量所收集的數(shù)據(jù)進(jìn)行處理,這一方法能夠在一定程度上幫助我們發(fā)現(xiàn)工作人員難以發(fā)現(xiàn)的潛在問題。同時,本次 Hackathon 也鼓勵參加者能夠?qū)?AI 的計算集群和系統(tǒng)作為研究對象,來設(shè)計測量和調(diào)試的工具,通過深入了解 AI 訓(xùn)練中的網(wǎng)絡(luò)瓶頸,進(jìn)一步研究如何為 AI 系統(tǒng)設(shè)計更好的網(wǎng)絡(luò)。
雷鋒網(wǎng) AI 開發(fā)者:除了 AI 技術(shù),參賽還需要用到哪些技術(shù)?比賽中,賽會方能夠提供相應(yīng)的平臺或數(shù)據(jù)來輔助選手完成比賽嗎?
劉洪強(qiáng):本次比賽中,賽會方提供了幾個題目供選手選擇,技術(shù)領(lǐng)域涉及遠(yuǎn)程程序調(diào)用(RPC),RDMA 高速網(wǎng)絡(luò),WiFi 網(wǎng)絡(luò),4G LTE 網(wǎng)絡(luò),以及深度學(xué)習(xí)訓(xùn)練系統(tǒng)網(wǎng)絡(luò)。
其中,RPC 是遠(yuǎn)程程序調(diào)用的簡稱,它是被大量應(yīng)用于分布式系統(tǒng)中的網(wǎng)絡(luò)通信協(xié)議和接口的整體解決方案。它的特點就是將網(wǎng)絡(luò)底層的通信協(xié)議細(xì)節(jié)隱藏,讓應(yīng)用程序在訪問和調(diào)用遠(yuǎn)程資源的時候能夠像調(diào)用本地資源一樣方便。因此,RPC 是分布式系統(tǒng)開發(fā)的重要工具,它的性能和穩(wěn)定性對分布式系統(tǒng)整體的性能和穩(wěn)定性有著深刻的影響;而 RDMA(Remote Direct Memory Access)是一種數(shù)據(jù)中心中的高速網(wǎng)絡(luò)解決方案。它的特點是將所有的傳輸層協(xié)議是現(xiàn)在硬件里,直接打通網(wǎng)卡和內(nèi)存之間的讀寫訪問,可以極大地提高網(wǎng)絡(luò)帶寬,實現(xiàn)超低延遲,節(jié)省服務(wù)器上 CPU 的使用量;
WiFi 網(wǎng)絡(luò)和 4G LTE 網(wǎng)絡(luò)則是我們?nèi)粘I钪杏玫降膬煞N基礎(chǔ)的無線接入網(wǎng)絡(luò);而分布式深度學(xué)習(xí)則是人工智能的關(guān)鍵技術(shù),它利用網(wǎng)絡(luò)實現(xiàn)多臺服務(wù)器互聯(lián),將更多的計算資源聯(lián)合投入一個任務(wù)的計算,計算單元之間靠高速的網(wǎng)絡(luò)進(jìn)行大量通信交換計算結(jié)果,實現(xiàn)對 AI 訓(xùn)練的極大加速。
同時,賽會方還提供了免費的阿里云計算資源,包括阿里云所能提供的所有類型的服務(wù)。如果有團(tuán)隊要將自己的計算資源帶入會場,賽方也會提供場地、網(wǎng)絡(luò)和電力等支持。
雷鋒網(wǎng) AI 開發(fā)者:如果參賽選手要想在賽事中取得優(yōu)秀的成績,有哪些要點值得選手們參考嗎?
劉洪強(qiáng):如果能夠解決賽會方提供的更難難度的題目,那么該選手取得優(yōu)秀成績的幾率將大大提高;同時,完成更多的題目也能夠取得更優(yōu)異的成績。另外,所有的團(tuán)隊都會有 5 分鐘時間來講解他們的成果,團(tuán)隊報告的質(zhì)量、完成效果以及創(chuàng)新度都會視為評分參考要點。
雷鋒網(wǎng) AI 開發(fā)者:目前,我們身邊有很多 Hackathon,本次 ACM SIGCOMM 上的 Hackathon 與其它(比如最近京東舉辦的 Hackathon)相比,最大的亮點是什么?
劉洪強(qiáng):本次 Hackathon 的最大特點是它集中在了解和解決計算機(jī)網(wǎng)絡(luò)系統(tǒng)中的真實問題,并且這場比賽是由企業(yè)與 SIGCOMM 聯(lián)辦,因此比賽更偏向于學(xué)術(shù)研究方向,力在將開發(fā)和研究更充分的融合。
雷鋒網(wǎng) AI 開發(fā)者:那你認(rèn)為怎樣的選題最適合通過 Hackathon 的形式來進(jìn)行呢?
劉洪強(qiáng):Hackathon 的題目一定要有實際意義,同時也可以對未解問題具有探索意義。另外,題目的范圍既要要有一定的專業(yè)范圍,避免主題太泛而缺乏比較的標(biāo)準(zhǔn);同時也要有足夠的空間,來啟發(fā)參賽者發(fā)散思維進(jìn)行思考和創(chuàng)新。
雷鋒網(wǎng) AI 開發(fā)者:你認(rèn)為馬拉松賽事對開發(fā)者最大的鍛煉體現(xiàn)在哪里?
劉洪強(qiáng):Hackathon 賽事對開發(fā)者最大的鍛煉是能夠從平時的工作中暫時解放出來,通過解決 Hackathon 的問題來重新思考他們所關(guān)注領(lǐng)域當(dāng)前面臨的問題;同時,參賽者還能在短時間內(nèi)得出極具創(chuàng)新性和實用性的結(jié)果,在比賽中認(rèn)識更多志同道合的人。
雷鋒網(wǎng) AI 開發(fā)者:在本次整個 Hackathon 的籌備過程中,賽會方都面臨了哪些挑戰(zhàn)呢?
劉洪強(qiáng):主要挑戰(zhàn)有三點。
首先需要確定一個合適的題目,這個題目需要能夠足夠聚焦特定的專業(yè)背景,并且能夠有足夠大的空間供參賽者發(fā)揮。
第二就是能夠在這個大題目下確定出具體的挑戰(zhàn)題目供參賽選手選擇。因為這次 Hackathon 面向的對象包括所有對計算機(jī)網(wǎng)絡(luò)與系統(tǒng)感興趣的人,所以每個挑戰(zhàn)還要有不同難度的子挑戰(zhàn),這樣才可以讓不同背景的人參與。
最后是準(zhǔn)備足夠的計算資源,并且保證選手在 Hackathon 當(dāng)天也能流暢地訪問這些資源。
雷鋒網(wǎng) AI 開發(fā)者:能否結(jié)合你個人過去的參賽經(jīng)歷和我們談?wù)剠⒓颖荣悓τ趥€人成長有哪些幫助?
劉洪強(qiáng):我在 SIGCOMM 2018 也參加過 Hackathon,并且這次比賽也給我留下了非常深刻的印象;對我個人而言,主要收獲有兩點。
首先,通過對 Hackathon 的題目的了解,我能夠從側(cè)面了解到這個領(lǐng)域目前的狀態(tài),比如:什么「新技術(shù)、新工具」正在成為當(dāng)前領(lǐng)域的主流,實際系統(tǒng)中有什么重要的問題需要解決,人們是如何思考這些問題等方面,我能夠有更準(zhǔn)確的把握。
其次,在 Hackathon 的組隊和交流過程中,我交到了志同道合的朋友;而這些朋友,在之后的工作和生活中,有的成為了我的合作伙伴,有的成為了我的摯友,他們都對我的人生有著積極的影響。
阿里神秘組織——網(wǎng)絡(luò)研發(fā)事業(yè)部
雷鋒網(wǎng) AI 開發(fā)者:我們知道阿里有技術(shù)團(tuán)隊、運營團(tuán)隊、銷售團(tuán)隊,但是很少聽到阿里基礎(chǔ)設(shè)施網(wǎng)絡(luò)研發(fā)事業(yè)部,能否跟我們介紹一下這個團(tuán)隊的整體情況?
劉洪強(qiáng):阿里網(wǎng)絡(luò)研發(fā)事業(yè)部是阿里云智能事業(yè)群中負(fù)責(zé)整個阿里經(jīng)濟(jì)體的網(wǎng)絡(luò)架構(gòu)設(shè)計、運營、研發(fā)和研究的部門。其職責(zé)范圍覆蓋了阿里的全球數(shù)據(jù)中心網(wǎng)絡(luò)、城域網(wǎng)、骨干網(wǎng)、邊緣網(wǎng)絡(luò)、光網(wǎng)絡(luò)和無線網(wǎng)絡(luò)。
雷鋒網(wǎng) AI 開發(fā)者:阿里網(wǎng)絡(luò)研發(fā)事業(yè)部的核心技術(shù)是什么呢?目前團(tuán)隊都有哪些的研究成果或者技術(shù)成就,可以簡單向大家介紹一下嗎?
劉洪強(qiáng):阿里基礎(chǔ)設(shè)施網(wǎng)絡(luò)研發(fā)事業(yè)部研發(fā)了多項國際領(lǐng)先的核心技術(shù),例如高性能網(wǎng)絡(luò)、自研交換機(jī)、網(wǎng)絡(luò)智能化運營體系、IPv6 等等。通過系統(tǒng)化的技術(shù)創(chuàng)新,我們部門也為整個阿里經(jīng)濟(jì)體提供了非常可靠、靈活和高性價比的網(wǎng)絡(luò)。
圖 1 阿里云 NFV 網(wǎng)絡(luò)技術(shù)平臺
而在近幾年,阿里網(wǎng)絡(luò)研發(fā)事業(yè)部在研究上發(fā)展非常迅速。就在今年 SIGCOMM 上,阿里網(wǎng)絡(luò)研發(fā)事業(yè)部的兩篇研究成果被大會所收錄。
其中一篇介紹了阿里巴巴自研的新一代高速網(wǎng)絡(luò)擁塞控制協(xié)議(HPCC)。HPCC 利用了最新的交換芯片能力,將網(wǎng)絡(luò)擁塞延遲降低幾十倍至上百倍,同時擁有快速收斂,高效和高穩(wěn)定性等可以被理論證明的特性。
另一篇是業(yè)界首次實現(xiàn)的基于意圖語言驅(qū)動的 ACL(訪問控制)規(guī)則管理系統(tǒng)。該系統(tǒng)已經(jīng)在阿里的骨干網(wǎng)得到了應(yīng)用,能夠?qū)崿F(xiàn)將骨干網(wǎng)的 ACL 操作變得簡單而不易出錯,將網(wǎng)絡(luò) ACL 變更的計劃時間從幾周縮短為幾個小時。
雷鋒網(wǎng) AI 開發(fā)者:阿里網(wǎng)絡(luò)研發(fā)事業(yè)部的下一步發(fā)展計劃是什么呢?
劉洪強(qiáng):網(wǎng)絡(luò)研發(fā)事業(yè)部未來計劃繼續(xù)推進(jìn)國際化,隨著阿里經(jīng)濟(jì)體在全球業(yè)務(wù)的展開,提升阿里網(wǎng)絡(luò)在東南亞、歐洲、美洲的覆蓋面。
與此同時,我們會加大在技術(shù)上創(chuàng)新研發(fā)的力度,聚焦在未來 100G+的高性能網(wǎng)絡(luò)、自研機(jī)交換機(jī)、邊緣網(wǎng)絡(luò)、意圖驅(qū)動網(wǎng)絡(luò)、以及無線網(wǎng)絡(luò)(含 5G)等幾個關(guān)鍵領(lǐng)域。
雷鋒網(wǎng) AI 開發(fā)者:如果有一名 AI 學(xué)術(shù)青年希望能夠加入阿里網(wǎng)絡(luò)研發(fā)事業(yè)部,那么他需要具備哪些能力呢?
劉洪強(qiáng):網(wǎng)絡(luò)研發(fā)事業(yè)部是一個高度技術(shù)密集型的部門,我們非常歡迎在網(wǎng)絡(luò)創(chuàng)新研究、硬件研發(fā)、架構(gòu)設(shè)計、操作系統(tǒng)、高性能網(wǎng)絡(luò)、可編程網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等領(lǐng)域有專長的候選人加入。
而網(wǎng)絡(luò)智能化是未來發(fā)展的必然趨勢,AI 則是實現(xiàn)網(wǎng)絡(luò)智能化的核心手段。我們理想中的 AI 候選人,需要具備一定的網(wǎng)絡(luò)背景知識,兼具良好的開發(fā)能力和 AI 應(yīng)用能力,并且不懼困難和挑戰(zhàn)。
SIGCOMM 簡介
SIGCOMM 是由 ACM SIGCOMM 組織舉辦的通信網(wǎng)絡(luò)領(lǐng)域的旗艦型會議,也是目前國際通信網(wǎng)絡(luò)領(lǐng)域的頂尖會議之一。SIGCOMM 2019 吸引了來自全球計算機(jī)通訊網(wǎng)絡(luò)研究人員、學(xué)者及學(xué)生將近 1200 人參加了此次會議。
此次會議議題廣泛,包括物聯(lián)網(wǎng)、云計算、人工智能和5G給全球所帶來的巨大影響。同時,會議將從更廣泛的網(wǎng)絡(luò)研究和治理的視角出發(fā),重新審視互聯(lián)網(wǎng)高速發(fā)展所帶來的緊迫挑戰(zhàn)。
多年來,世界頂尖的大學(xué)和科技公司在 SIGCOMM 上發(fā)表的論文奠定了人們對先進(jìn)網(wǎng)絡(luò)技術(shù)的認(rèn)知,同時眾多網(wǎng)絡(luò)通信領(lǐng)域的具有里程碑意義的著作均是通過 SIGCOMM 發(fā)布。不過,SIGCOMM 對論文的質(zhì)量要求極高,必須具有基礎(chǔ)性貢獻(xiàn)、前瞻性影響和堅實系統(tǒng)實現(xiàn)的論文才會被收錄,因此每年只錄用 30 篇左右。
今年其中的兩篇論文由中國企業(yè)阿里巴巴拿下,論文題目分別為
《HPCC: High Precision Congestion Control》和
《Safely and Automatically Updating In-Network ACL Configurations with Intent Language》。
圖 2 SIGCOMM 2019 大會現(xiàn)場
來源 | 雷鋒網(wǎng) AI 開發(fā)者
作者 | 楊鯉萍