6 月 18 日,三大世界頂級計算機視覺會議之一「計算機視覺與模式識別會議」(Conference on Computer Vision and Pattern Recognition 2019,CVPR 2019)在美國長灘拉開帷幕,頂會吸引全球超過9200位頂尖專家、學者以及產業界人士,共同推進 CV 技術的發展與落地。
相比 2018 年,本屆 CVPR 的論文提交數量增加了 56%,但論文接收率卻下降了 3.9%,可見論文入選難度加大;而學術比賽報名人數也保持持續增長。但無論在論文方面還是學術比賽中,今年多家中國企業都取得了可喜的成績,這些成績不僅體現了這些企業的發展水平,也代表了國人的科技進步。雷鋒網 AI 科技評論現將其成果整理報道如下。
商湯 62 篇論文入選 CVPR 2019,聯合研究團隊獲得 CVPR 2019 Workshop NTIRE 2019 視頻恢復比賽四個賽道冠軍
商湯科技 CVPR 2019 錄取論文在多個領域實現了突破,其中代表性論文有:《基于混合任務級聯的實例分割算法》、《基于特征指導的動態錨點框生成算法》(高層視覺核心算法——物體檢測與分割);《基于網絡參數插值的圖像效果連續調節》、《基于光流引導的視頻修復》(底層視覺核心算法——圖片復原與補);《PointRCNN: 基于原始點云的 3D 物體檢測方法》(面向自動駕駛場景的 3D 視覺);《基于人體本征光流的姿態轉換圖像生成》(面向 AR/VR 場景的人體姿態遷移);《基于條件運動傳播的自監督學習》(無監督與自監督深度學習前沿進展)等。這些突破性的計算機視覺算法不僅有著豐富的應用場景,也為 AI 行業的發展做出了巨大的貢獻。
而在 CVPR 2019 Workshop NTIRE 2019 視頻恢復比賽中(包含兩個視頻去模糊和兩個視頻超分辨率),來自商湯科技、香港中文大學、南洋理工大學、中國科學院深圳先進技術研究院組成的聯合研究團隊使用 EDVR 一套算法,獲得了全部四個賽道的所有冠軍,并且每個結果都大幅超越賽道第二名。
在論文《EDVR: Video Restoration with Enhanced Deformable Convolutional Networks》中,作者介紹了這種新型算法,通過一種新的網絡模塊 PCD 對齊模塊,使用 Deformable 卷積進行視頻的對齊,可以實現整個過程端到端的訓練;而在挖掘時域(視頻前后幀)和空域(同一幀內部)的信息融合時,作者又提出了一種時空注意力模型,來進行更好的信息融合。
EDVR 算法架構
因此,在將 EDVR 算法視頻超分辨率與目前行業最好的圖像超分辨算法 RCAN 恢復來對同一區域進行處理時,可以明顯看到 EDVR 算法視頻超分辨能給到更多的細節。(該方法的代碼已開源)
另外,商湯科技還在 AI CITY Challenge(CVPR 2019 Workshop)異常檢測賽道中獲得冠軍。城市智慧交通一直都面臨著數據質量差、標簽數據少、缺乏高質量算法模型以及從邊緣到云端的計算資源不足等挑戰,而比賽中,商湯科技的設計更多地通過遷移學習、無監督和半監督的方法檢測交通異常,如道路事故、車輛故障等,從而達到更好的幫助城市交通變得安全和智能這一目的。
EDVR 論文地址
https://arxiv.org/abs/1905.02716v1
EDVR GitHub 地址
https://github.com/xinntao/EDVR
百度 17 篇論文被大會收錄,獲 10 項 CVPR 2019 競賽冠軍
在今年的 CVPR 上,百度共有 17 篇論文被接收,內容涵蓋了語義分割、網絡剪枝、ReID、GAN 等諸多方向,并且其中很多技術都設計到無人駕駛相關場景。
其中包括《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》(https://arxiv.org/abs/1809.09478)中,提到了結合了聯合訓練和對抗訓練來處理虛擬圖像與真實圖像之間語義分割網絡訓練差異的問題,將該技術應用在自動駕駛中,可以大大減少數據標注和采集的工作量。
《Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation》(https://arxiv.org/abs/1904.03895)中提出的視覺特征適應模型和策略模擬模型,可以有效將機器人在虛擬環境中學習到的策略和特征遷移到實際場景中;《ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving》一文提出目前已知自動駕駛領域最大規模的三維車輛姿態數據集,可以更好的對單張圖像的車輛姿態估計。
而在 CVPR 相關競賽任務中,百度一共獲得了 10 項冠軍,涵蓋眾多熱門領域——
- 視覺領域下的視頻理解與分析:包括視頻動作提名、視頻動作檢測兩項任務的冠軍,以及新增任務 EPIC-Kitchens 動作識別挑戰賽中獲兩項測試集冠軍(Seen kitchens 和 Unseen kitchens);
- 目標檢測:「Objects365 物體檢測」國際競賽 Full Track 冠軍,NTIRE 競賽中獲得圖像超分辨項目冠軍;
- 人體檢測:Look Into Person 國際競賽中三項人體精細化解析競賽單元(Track1:Single-Person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,均獲得第一名;
- 人臉活體檢測:在 CVPR-19-Face Anti-spoofing Attack Detection Challenge 上,百度擊敗了 300 多個隊伍,最終獲得第一的好成績。
- 智能城市車輛識別:AI-city 公開賽城市范圍多攝像頭車輛重識別任務第一名;
在 CVPR 2019 上,百度 Apollo 還首次曝光 L4 級自動駕駛純視覺解決方案。Apollo 技術委員會主席王亮就 L4 級全自動駕駛(Fully Autonomous Driving)環境感知技術方案進行了講解,并公開了環視視覺解決方案百度 Apollo Lite。并表示經過前期的技術研發投入和 2019 年上半年的路測迭代,依靠這套 10 相機的感知系統,百度無人車已經可以在城市道路上實現不依賴高線數旋轉式激光雷達的端到端閉環自動駕駛。
曠視 14 篇論文被接收,并斬獲 CVPR2019 挑戰賽 6 項世界冠軍
在 CVPR 2019 上,曠視研究院通過 Oral、Poster、Workshop、Demo、Booth 等形式,同世界分享在計算機視覺理論與應用領域的最新進展。
相比去年曠視科技有 8 篇論文被收錄,今年他們又多了 6 篇被 CVPR 所接收。這 14 篇論文涉及行人重識別、場景文字檢測、全景分割、圖像超分辨率、語義分割、時空檢測等技術方向。
并在頂會的 CVPR 2019 WAD(Workshop on Autonomous Driving)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3 項挑戰賽中,擊敗 Facebook、通用動力、戴姆勒等國內外一線科技巨頭與知名高校,一舉拿下 6 項世界冠軍,內容涵蓋自動駕駛、新零售、智能手機、3D 等眾多領域。
其中挑戰賽 NTIRE 2019 真實圖像降噪比賽,致力于恢復與增強圖像質量。到目前為止,已連續舉辦了 3 年。今年 NTIRE 挑戰賽下設 11 項比賽,曠視研究院參賽的「真實圖像降噪(Real Image Denosing Challenge)」中,共有來自全球的 216 位選手、12 支隊伍。和往年不同,今年的圖像降噪賽是針對真實而非合成的圖像去評估圖像降噪器。該項比賽根據圖像儲存的兩種格式——原始傳感器數據(raw)和標準 RBG(sRGB),分為對應的兩項子賽。
曠視研究院參戰 raw 圖像去噪,提出了針對 raw 圖像的基于 U-Net 框架的「拜爾陣列歸一化與保列增廣」方法。團隊精心設計了一種數據預處理方法,使得不同輸入圖像間的數據能保持網絡輸入一致性,從而應用到具有不同拜耳模式的輸入上,在保證性能的前提下用更大的圖像集合訓練網絡。此外,團隊還提出了適用于 raw 圖像的數據增廣方法,這些優勢可以幫助網絡獲得更好的泛化能力。
而且曠視的冠軍算法已成功落地于 OPPO Reno 10 倍變焦版。OPPO Reno 10 倍變焦版搭載了基于曠視 MEGVII 超畫質技術研發的「超清夜景 2.0」功能,能夠為用戶提供更好的夜拍體驗。這也是曠視超畫質技術首次運用在大規模量產機型上。
京東 AI 在 CVPR 2019 共發表 12 篇論文,斬獲 3 項冠軍和 2 項亞軍
本次京東 AI 研究院在 CVPR 2019 上一共發表 12 篇論文,其中 4 篇論文入選了 oral presentation(oral presentation 的入選率只有 5%),入選 oral presentation 的四篇論文包含:
- 《ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch》(https://arxiv.org/abs/1810.08425v3)
- 《Transferrable Prototypical Networks for Unsupervised Domain Adaptation》(https://arxiv.org/abs/1904.11227)
- 《Unsupervised Person Image Generation with Semantic Parsing Transformation》(https://arxiv.org/abs/1904.03379)
- 《Gaussian Temporal Awareness Networks for Action Localization》(https://docs.wps.cn/view/p/35402862179?from=docs&source=docsWeb)
其中京東 AI 研究院提出的 ScratchDet,則從優化的角度出發,通過實驗解釋了梯度穩定手段之一的 BatchNorm 如何幫助隨機初始化訓練檢測器,進而結合了 ResNet 與 VGGNet 來加強對小物體的檢測。并將這一技術成功運用在了其他任務上,如人臉檢測、文字檢測等,這對于計算機視覺的發展有著重大的意義。
在學術比賽方面,京東 AI 研究院在 CVPR 2019 上共獲得三項第一,分別是:視頻動作識別、商品圖片識別,以及精細粒度蝶類圖片識別;而在多人人體解析、菜品類圖像識別競賽中獲得第二名。
視頻動作識別被視為 ActivityNet 中最核心、最基礎的任務。在本屆 ActivityNet 視頻動作識別任務(Kinetics)比賽中,共有 15 支來自于美國卡耐基梅隆大學、百度、Facebook 人工智能研究院、上海交通大學 MVIG 實驗室等國際知名研究機構的參賽隊伍。而京東 AI 憑借著他們所提出的一種新框架——通過局部和全局特征傳播(LGD)學習視頻中的空間、時間特征,最終在眾多強勁參賽者中脫穎而出。
在精細圖像識別 (Fine-Grained Visual Categorization) 學術比賽中,今年比賽圖片數量和商品數據類別分別是去年的 5 倍和 40 倍,挑戰性相應也有大幅度提升;全球共有 96 支隊伍、152 位選手通過 1600 次提交參加了競賽,而最終京東 AI 靠著基于自研的全新精細圖像分類算法獲得了冠軍。該算法通過按塊「破壞」圖像中的結構信息,然后再令已經訓練的神經網絡進行重點視覺區域識別與抓取,進而識別物品本身;更值得注意的是,這一技術不光可以達到高準確率,同時還有很強的兼容性。相關研究成果更多詳情可在論文《Destruction and Construction Learning for Fine-grained ImageRecognition》(https://docs.wps.cn/view/p/35402900346?from=docs&source=docsWeb)中獲得。
字節跳動 11 篇論文入選,并收獲兩個冠軍、一個亞軍
在 CVPR 2019 上,字節跳動一共有 11 篇論文被接收,其中有兩篇入選為 oral。而在學術比賽方面,字節跳動在人體姿態估計和人體分割比賽中,共收獲兩個冠軍、一個亞軍。
本屆 LIP(Look Into Person)國際競賽共吸引了超過 75 支隊伍參加,包括加州伯克利大學、NHN、悉尼科技大學、東南大學、上海交通大學、中國電子科技大學、香港中文大學等全球高校以及三星、百度、京東等科技企業的人工智能研究院機構。
比賽共包含五個競賽任務:單人人體解析分割(the single-person human parsing)、單人人體姿態估計(the single-person pose estimation)、多人人體解析(the multi-person human parsing)、基于視頻的多人人體解析(multi-person video parsing, multi-person pose estimation benchmark)、基于圖像的服裝試穿(clothes virtual try-on benchmark)。最終,字節跳動和東南大學組成的團隊、以及肖斌帶領的字節跳動團隊并列單人人體姿態估計比賽的國際冠軍;同時,字節跳動和東南大學組成的團隊還獲得了單人人體分割賽道的國際亞軍。
其中,在單人人體姿態估計比賽上,字節跳動和東南大學組成的團隊提出了基于增強通道和空間信息的人體姿態估計網絡,可參考 CVPR 2019 論文《Multi-Person Pose Estimation with Enhanced Channel-wise and Spatial Information》(https://arxiv.org/abs/1905.03466);而肖斌帶領的字節跳動團隊則提出了利用高分辨率網絡(HRNet)來解決人體姿態估計問題,參考 CVPR 2019 論文《Deep High-Resolution Representation Learning for Human Pose Estimation》(https://arxiv.org/abs/1902.09212);后一種方法已在 GitHub 上開源,感興趣的朋友可以進行更深入的研究。
Github 地址
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
阿里 AI 獲圖像識別競賽 WebVision 冠軍
阿里 AI 在該競賽由谷歌、美國卡耐基梅隆大學、蘇黎世聯邦理工大學等機構聯合全球視覺技術領域頂級學術會議 CVPR 發起的第三屆圖像識別競賽 WebVision 中獲得冠軍,要求參賽的 AI 模型將 1600 萬張圖片精準分類到 5000 個類目中,最終阿里的識別準確率 82.54%,將萬物識別領域的歷史紀錄提升了 3 個百分點。
而就在今年 3 月中,阿里與深圳大數據研究院、香港中文大學(深圳)、大連理工大學以及中國科學技術大學共同完成《Deep Reinforcement Learning of Volume-guided Progressive View Inpainting for 3D Point Scene Completion from a Single Depth Image》被收錄為 Oral Presentation。
之后與哈爾濱工業大學、香港理工大學、深圳鵬城實驗室聯合設計的超分辨率算法——能夠很好的應對模糊降質的 DPSR 技術(來自論文《Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels》),也被 CVPR 2019 所接收。并且該算法已經開源了代碼(https://github.com/cszn/DPSR);在另一篇被接收的論文《ODE-Inspired Network Design for Single Image Super-Resolution》中,阿里與中科院、中科院大學也展示了他們一起在圖像超分辨率方面做出相應研究。
深蘭科技斬獲 CVPR 2019 FGVC 挑戰賽冠軍
FGVC 全稱為 Fine-Grained Visual Categorization,即區分不同的動物和植物、汽車和摩托車模型、建筑風格等,是機器視覺社區剛剛開始解決的最有趣和最有用的開放問題之一。細粒度圖像分類在于基本的分類識別(對象識別)和個體識別(人臉識別,生物識別)之間的連續性;不同于傳統的廣義上的分類任務,FGVC 的挑戰致力于子類別的劃分,需要分類的對象之間更加相似,例如區分不同的魚類、同一植物不同形態、不同的生活用品等。
在今年 CVPR 的 FGVC6 Workshop 賽區,共有十個挑戰賽,每個都代表了細粒度視覺分類在某個細分領域的挑戰。今年此次挑戰賽共有來自全球 88 個團隊參與,提交了超過 1300 份方案。而在 Kaggle 上舉辦的 CVPR 2019 Cassava Disease Classification(根據木薯的葉子區分不同種類的木薯疾病的任務)挑戰賽中,DeepBlue AI 通過圖像增強方法來降低過擬合的風險,并提高模型的魯棒性,同時利用多個在 ImageNet 表現優異的模型,以集成方法提升精度,最終獲得了冠軍。
除了該項挑戰賽,同期深蘭科技還在在 CVPR 的另外兩項比賽 2019 Workshop on Autonomous Driving (WAD) D²-City & BDD100K Tracking Domain Adaptation Challenge and the D²-City & BDD100K Detection Domain Adaptation Challenge.(目標檢測遷移學習、目標跟蹤遷移學習挑戰賽和大規模檢測插值探索賽)分獲亞軍和季軍。
圖鴨科技,包攬圖像壓縮大賽四項指標全部冠軍
今年的 CVPR 上,機器學習圖像壓縮挑戰賽(CLIC)由 Google 聯合 twitter、Netflix 等贊助。如今由于手機像素的提升,占用大部分內存空間的圖片對于移動存儲設備和網站來說都是很大的負擔;而對圖片進行高效高質的壓縮處理,已經成了眾多互聯網企業的極大需求。因此,在本屆會議上,圖像壓縮也成了技術焦點之一。
在去年,圖鴨科技曾奪得過該挑戰賽的 MS-SSIM 與 MOS 兩項第一;而今年,他們也帶來了更強的技術,最終在 MS-SSIM、Transparent Track、PSNR、Perceptual Qualit 四項指標上均奪得桂冠,向世界展示了他們的技術硬實力,成為世界圖像壓縮歷史大滿貫贏家。
美團無人配送斬獲 CVPR 2019 軌跡預測挑戰賽冠軍
美團無人配送與視覺團隊在本屆 CVPR 上,也獲得了很好的成績,分別在障礙物軌跡預測挑戰賽(Trajectory prediction challenge)中斬獲第一名和商品識別挑戰賽(iMaterialist Challenge on Product Recognition)獲得第二名。
對于美團無人配送與視覺團隊來說,這不光只是一種榮譽,也向我們展現出了他們在自動駕駛技術和視覺圖像方面進行的大量研究和產品化探索,并在場景應用方面所積累的豐碩成果。
美圖影像實驗室 MTlab 獲 NTIRE 圖像增強賽冠軍
美圖影像實驗室 MTlab 此次參加了圖像增強和圖像去霧兩個比賽,兩個比賽均收到了超過 200 支團隊報名。
最終,在圖像增強賽道(Image Enhancement Challenge)中,美圖影像實驗室 MTlab 獲得了冠軍;在圖像去霧賽道(Image Dehazing Challenge),美圖影像實驗室 MTlab 獲得了季軍。
滴滴獲得 CVPR 2019 AI 城市大賽亞軍
本屆 AI 城市大賽(AI City Challenge)共有來自全球超過 200 支頂尖隊伍參與,滴滴在 CVPR AI 城市比賽(AI City Challenge)中最終獲得了亞軍,并攜手加州大學伯克利分校 DeepDrive 深度學習自動駕駛產業聯盟(BDD)一同舉辦了 CVPR 2019 自動駕駛研討會,詳細介紹了滴滴在自動駕駛領域的探索和實踐。
來源 | 雷鋒網
作者 | 楊鯉萍