2019年上半年,百度視覺技術(shù)團(tuán)隊(duì)已分別在 CVPR 2019活體、ICME 2019人臉 Keypoint、Widerface 等賽事獲得第一。此次 MOT 比賽是百度視覺技術(shù)團(tuán)隊(duì)又一次奪冠,是在實(shí)踐“領(lǐng)先且實(shí)用的 AI 視覺技術(shù)”,同時(shí)是視頻新領(lǐng)域的又一次突破。
▲MOT 16 評(píng)測(cè)集排名,百度位居榜首
Multiple Object Tracking Challenge 是國(guó)際多目標(biāo)跟蹤領(lǐng)域最權(quán)威的測(cè)評(píng)平臺(tái),由阿德萊德大學(xué)、蘇黎世聯(lián)邦理工學(xué)院以及達(dá)姆施塔特工業(yè)大學(xué)聯(lián)合創(chuàng)辦,是世界各大 AI 研究機(jī)構(gòu)必爭(zhēng)之地。
該平臺(tái)針對(duì)多行人對(duì)象在復(fù)雜場(chǎng)景下的運(yùn)動(dòng)軌跡,來評(píng)測(cè)算法同時(shí)進(jìn)行檢測(cè)及追蹤的性能,目前主要包含 MOT15、MOT16、MOT17 三個(gè)評(píng)測(cè)集,其中 MOT16 允許參賽隊(duì)自定義檢測(cè)器,并對(duì)目標(biāo)檢測(cè)、特征提取及追蹤等多模塊的綜合效果進(jìn)行測(cè)評(píng),因此更具有挑戰(zhàn)性和實(shí)用性。
此次,百度視覺技術(shù)團(tuán)隊(duì)正是在 MOT16 評(píng)測(cè)集中勇奪桂冠,超越來自平安科技、商湯科技、海康威視、騰訊優(yōu)圖、NEC 北美研究院、上海交大、斯坦福大學(xué)等多支實(shí)力強(qiáng)勁的世界知名公司團(tuán)隊(duì)和高校,技術(shù)實(shí)力不容小覷。
在檢測(cè)、重識(shí)別、多目標(biāo)追蹤等相關(guān)算法上,百度視覺技術(shù)團(tuán)隊(duì)做了諸多創(chuàng)新和改進(jìn)。
檢測(cè)部分,基于百度自主研發(fā)的開源深度學(xué)習(xí)平臺(tái) PaddlePaddle,選擇更強(qiáng)大的分類底座網(wǎng)絡(luò)并使用多尺度特征提取、改善物體模板以提升對(duì)微小目標(biāo)的召回能力、并利用級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)目標(biāo)框進(jìn)行更精細(xì)的回歸;行人重識(shí)別部分,采用自研的基于多樣例注意力方法,能夠進(jìn)一步挖掘樣本在“困難區(qū)域”的細(xì)粒度特征,從而提高相似樣本在特征空間的可區(qū)分性;追蹤部分,采用基于行人重識(shí)別的序列特征相似度模型進(jìn)行目標(biāo)軌跡匹配、并利用時(shí)空特征來降低密集多目標(biāo)跟蹤的軌跡交換問題。
除此之外,深度學(xué)習(xí)平臺(tái) PaddlePaddle 也是視覺技術(shù)團(tuán)隊(duì)披荊斬棘的利器之一。PaddlePaddle 是集深度學(xué)習(xí)核心框架、工具組件和服務(wù)平臺(tái)為一體的技術(shù)領(lǐng)先、功能完備的開源深度學(xué)習(xí)平臺(tái),而且 PaddlePaddle 在視覺技術(shù)上有深厚的積累,官方已開源覆蓋分類、檢測(cè)、語義分割、OCR、GAN、人體關(guān)鍵點(diǎn)檢測(cè)等類別,基于真實(shí)業(yè)務(wù)場(chǎng)景驗(yàn)證的優(yōu)質(zhì)模型。
上個(gè)月,PaddlePaddle 聯(lián)合視覺技術(shù)團(tuán)隊(duì)重磅發(fā)布了視頻識(shí)別工具集,覆蓋主流實(shí)用的序列建模算法與端到端視頻識(shí)別模型,可一鍵式任務(wù)啟動(dòng),公開數(shù)據(jù)集下載、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型 inference 一步到位。后續(xù)將會(huì)擴(kuò)展以解決視頻理解、視頻編輯、視頻生成等一系列視頻理解任務(wù)。
PaddlePaddle 還對(duì)深度學(xué)習(xí)模型訓(xùn)練中顯存占用及數(shù)據(jù)處理速度進(jìn)行專項(xiàng)優(yōu)化。以語義分割 Deeplabv3+ 為例,針對(duì)顯存消耗分析與解決、冗余前向計(jì)算、GPU CPU 內(nèi)存交換、使用16位浮點(diǎn)數(shù)等等,讓開發(fā)者可在相同的計(jì)算設(shè)備上訓(xùn)練更大的模型,還可以在消費(fèi)級(jí)別顯卡上完成訓(xùn)練。
在數(shù)據(jù)處理上,優(yōu)化分布式 IO,增加遠(yuǎn)程文件系統(tǒng)流式讀取能力。GPU 多機(jī)多卡同步訓(xùn)練通過增加稀疏通信能力提升帶寬不敏感訓(xùn)練能力,在低配網(wǎng)絡(luò)帶寬網(wǎng)絡(luò)環(huán)境下,例如10 G 網(wǎng)絡(luò)下,同步訓(xùn)練可提速10倍。
另外 PaddlePaddle 對(duì)單機(jī)多設(shè)備及多機(jī)分布式訓(xùn)練支持也非常友好,相對(duì)于單設(shè)備訓(xùn)練,用戶幾乎不用對(duì)模型進(jìn)行任何修改,可以低成本的實(shí)現(xiàn)單機(jī)多 CPU/GPU 訓(xùn)練;而對(duì)于多機(jī)分布式訓(xùn)練,也只需要簡(jiǎn)單的配置即可,使得用戶能方便地從模型構(gòu)建快速過渡到多種環(huán)境下的模型運(yùn)行。
從實(shí)際應(yīng)用角度,多目標(biāo)追蹤是視頻理解和分析領(lǐng)域的核心技術(shù)之一。近年來,隨著人工智能技術(shù)的不斷落地,多目標(biāo)追蹤在城市安防、客流分析、智慧零售、文體直播等多項(xiàng)重要應(yīng)用場(chǎng)景(尤其是 AI to B 場(chǎng)景)發(fā)揮出日益重要的作用。
基于對(duì)多目標(biāo)追蹤技術(shù)的重視,百度視覺技術(shù)團(tuán)隊(duì)已在此方向積累百萬量級(jí)的檢測(cè)、重識(shí)別、追蹤訓(xùn)練數(shù)據(jù);多項(xiàng)相關(guān)開放服務(wù),如人體檢測(cè)、人體追蹤、人體屬性識(shí)別、靜態(tài)/動(dòng)態(tài)人流統(tǒng)計(jì)等,已構(gòu)成完整的 B 端人體分析服務(wù)矩陣。對(duì)內(nèi)支持百度智能云、自動(dòng)駕駛等業(yè)務(wù);并通過百度大腦 AI 開放平臺(tái)對(duì)外開放,服務(wù)各行各業(yè)。
未來,百度視覺技術(shù)團(tuán)隊(duì)會(huì)繼續(xù)推進(jìn)多目標(biāo)追蹤領(lǐng)域的創(chuàng)新性工作,并爭(zhēng)取在更多實(shí)際應(yīng)用場(chǎng)景實(shí)現(xiàn)落地。
視覺技術(shù)是百度大腦核心技術(shù)能力之一,其領(lǐng)先國(guó)際的技術(shù)優(yōu)勢(shì)為開發(fā)者帶來了更多創(chuàng)新的機(jī)會(huì)。此次在 MOT 測(cè)評(píng)中的奪冠,是百度大腦技術(shù)實(shí)力的有力證明,也為百度人工智能“巨樹”再添碩果。百度視覺技術(shù)團(tuán)隊(duì)不僅獲得多項(xiàng)國(guó)際賽事的第一名,還在 CVPR、ICCV、ECCV、AAAI 等多項(xiàng)計(jì)算機(jī)視覺頂會(huì)上發(fā)表文章。
百度大腦是百度 AI 技術(shù)多年積累和業(yè)務(wù)實(shí)踐的集大成,除了視覺技術(shù)領(lǐng)跑國(guó)際,在深度學(xué)習(xí)領(lǐng)域也頻頻發(fā)力。一站式深度學(xué)習(xí)開發(fā)平臺(tái) AI Studio 更送出1億元免費(fèi)算力,為普通開發(fā)者破除算力桎梏。
未來,百度大腦將持續(xù)秉持 AI 普惠的價(jià)值理念,一面在產(chǎn)業(yè)實(shí)踐中不斷打磨,超越自我勇攀高峰,一面高瞻遠(yuǎn)矚、開山辟路,為開發(fā)者建立完善的 AI 生態(tài)環(huán)境,以技術(shù)改變生活、服務(wù)社會(huì),為推動(dòng)人類的文明與發(fā)展貢獻(xiàn)自己的 AI 之力。
來源 | 百度AI
上一篇:9大核心特性全新發(fā)布,百度大腦智能對(duì)話引擎“吹響號(hào)角”
下一篇:鵬城實(shí)驗(yàn)室支持開發(fā)的開源桌面操作系統(tǒng)OPENTHOS通過專家鑒定