1 月 10 日,北京智源人工智能研究院聯合知乎、數據評測平臺 biendata 舉辦的「2019 智源·知乎看山杯專家發現算法大賽」正式收官。
大賽頒獎儀式暨算法交流會在清華大學 FIT 大樓多功能廳舉行,北京智源人工智能研究院副院長、清華大學計算機系副主任、教授唐杰,知乎技術副總裁李大任出席了該儀式,并為獲獎選手頒發了獲獎證書。清華大學計算機系長聘副教授、智源學者劉知遠,清華大學計算機系副教授、博士生導師張敏以及知乎算法團隊負責人孫付偉作為演講嘉賓也出席了活動。
獲獎者合影 圖片來源:知乎
大賽背景
截至 2019 年 1 月,知乎已擁有超過 2.2 億用戶,每天將產生海量的提問。為了讓內容和用戶更高效、精準地匹配,因此,「知乎專家推薦系統」也即「問題路由推薦系統」應運而生。「2019 智源·知乎看山杯專家發現算法大賽」的主題也源于該推薦系統。
知乎路由工作機制 圖片來源:知乎
比賽旨在從選手中征集高效精準的推薦算法,挖掘有能力且感興趣的用戶進行問題的精準推薦。從 2019 年 9 月正式啟動,比賽一共吸引了 711 支來自全球各個院校以及工業界的算法挑戰隊伍參與,參賽者達到 1631 人。
問題路由推薦系統每日對 10 萬+的問題進行分發,并保證問題提問后 3 日內的解答率達到 70% 以上;系統對千萬級的創作群體進行精準推薦,經由系統智能分發推薦下每日產生的回答數超過 20 萬。
知乎問題路由內部實踐形式 圖片來源:知乎
同時,相比國外的 ImageNet、Gigaword 等高質量數據集,中文互聯網相關的高質量數據集是相對缺乏的;而知乎累積了非常多的高質量文本語料和其他各種各樣的數據,正好彌補了這一空缺。
此次比賽,知乎從數據平臺中選出了一個月的邀請數據作為訓練數據,并開放近 200 萬用戶和 1000 萬邀請數據的 Link prediction 大型數據集(數據集均已脫敏)。
獲獎名單及算法展示
各個參賽團隊圍繞賽題「問題路由推薦系統」,并充分利用開放的 Link prediction 大型數據集不斷進行算法改進與優化。經過為期 3 個月的激烈角逐,最終 7 支隊伍脫穎而出,獲得大賽獎金。
大賽主題海報 圖片來源:知乎
其中,騰訊「test 團隊」獲得冠軍,重慶郵電大學、華南理工大學、電子科技大學、廣東工業大學組成的混合團隊獲得亞軍,季軍則由華南理工大學獲得。清華大學計算機系副主任、系教授北京智源人工智能研究院副院長唐杰,知乎技術副總裁李大任為獲獎選手頒發了獲獎證書。
- 冠軍
騰訊曹雄單人「test 團隊」,獲獎作品《特征工程在知乎推薦中的應用》。
通過抽取用戶特征、問題特征、用戶興趣命中特征、問題統計特征、用戶行為特征,融合 LightGBM 模型和 DeepFM 模型進行訓練,得到最終的預測結果。
北京智源人工智能研究院副院長、清華大學計算機系副主任、唐杰教授為冠軍獲獎者頒獎 圖片來源:知乎
- 亞軍
電子科技大學章凡、廣東工業大學劉岱遠、華南理工大學葉青照、重慶郵電大學林智敏組成的「Conquer 團隊」,獲獎作品《多模式專家發現算法》。
針對知乎 app 對問題尋找最佳匹配的專家回答任務,提供了一個多模式的解決方案。其中,對于特征工程考慮了全局特征,時間滑窗特征,匹配特征,句嵌入特征,圖特征,排序特征,Word2vec 等;對于模型,針對賽題的設計并修改了多種模型,最后進行融合,其中包括:LightGBM,CatBoost,Multi-ESIM,DSSM,LSTUR。
知乎技術副總裁李大任為亞軍團隊頒獎 圖片來源:知乎
- 季軍
華南理工大學的陳雄君、陳垂澤、黎瀟瀟組成的「MemoryError 團隊」,獲獎作品《基于用戶畫像和文本信息的問題推薦策略》。
基于用戶畫像和文本信息對新問題進行用戶推薦,高效地將用戶新提出的問題邀請其他用戶進行解答,以及挖掘用戶有能力且感興趣的問題進行邀請下發,優化邀請回答的準確率,提高問題解答率以及回答生產數。
清華大學計算機系副教授、博士生導師張敏為季軍團隊頒獎 圖片來源:知乎
大賽致辭與學術交流
作為一家知識內容平臺,知乎同樣重視技術創新價值的挖掘。自 2016 年引入機器學習技術以來,知乎已經將人工智能、算法技術應用到社區內容和產品體驗的各個環節中。目前,知乎算法團隊已經搭建了一套基礎生態體系,通過算法實現了用戶畫像、內容分析、內容個性化推送等,其效率比過去的人工運營方式提高了數十倍。
北京智源人工智能研究院副院長、清華大學計算機系副主任、教授唐杰在頒獎大會上表示,北京人工智能研究院采用新的科研組織形式和人才引進培養模式,推動人工智能發展方向和理論、方法、工具、系統等方面的關鍵性突破。2019 年智源先后組織了 10 次競賽,本次比賽是智源 2019 人工智能大賽的任務之一。
北京智源人工智能研究院副院長、清華大學計算機系副主任、教授唐杰 圖片來源:知乎
隨后,知乎技術副總裁李大任表示,此次與智源聯合舉辦算法比賽,一方面是為了吸引人工智能算法領域從業者和愛好者加入,產出更多技術成果。另一方面,知乎也希望通過比賽開放部分數據,為國內人工智能發展提供一些助力。接下來,知乎還將在開放數據方面做更多努力。
知乎技術副總裁李大任 圖片來源:知乎
在這之后,本次大賽頒獎現場隨即展開了一場產學研融合的技術分享會。來自清華大學計算機系長聘副教授、智源學者劉知遠,清華大學計算機系副教授、博士生導師張敏以及知乎算法團隊負責人孫付偉均圍繞推薦算法發表了相關的主題演講,為在場的學術青年們解析了推進算法背后的難點與優化切入點,現場提問不斷,學術氛圍非常濃厚。
圖片來源:知乎
大賽官網地址:
https://www.biendata.com/competition/zhihu2019/
來源 | 雷鋒網