近日,Facebook AI 宣布開源 SlowFast,一個在 CVPR 2019 上的 AVA 視頻檢測挑戰賽中排名第一所用的模型。這一開源旨在進一步提高系統識別與分類視頻內容的能力,并改善視頻個性化推薦應用。
SlowFast 是一個新型視頻識別方法,它可以模仿靈長類視覺中的視網膜神經運作原理,同時以慢速幀頻和快速幀頻提取視頻中的有效信息,從而提高動作分類及動作識別效果。與其他方法相比,SlowFast 的整體計算復雜度更低,準確度更高。
Slow?Or Fast?
第一眼看到 SlowFast 時,肯定有人會糾結這個模型到底是快,還是慢呢?但其實它的名稱正是源于它的實現原理,即通過兩條路徑——Slow 路徑和 Fast 路徑,同時以慢速和快速的幀速率,從視頻中提取信息來改進動作分類和動作檢測。因此,它既快又慢。
SlowFast 通用架構
具體而言,這兩條路徑由側連接(lateral connection)進行融合。一條專注于處理可以在低幀速率下觀看的類別語義(如:顏色、紋理和目標),它以低幀率運行,刷新速度緩慢,旨在捕獲圖像或幾個稀疏幀提供的語義信息;而另一條路徑則尋找在以較高幀速率顯示的視頻中更容易識別的快速變化的運動(如:鼓掌、揮手、搖頭、走路或跳躍),它的刷新速度快、時間分辨率高,用于捕獲快速變化的動作。
可盡管有兩條路徑,該模型的體量卻很輕,只占總計算資源的 20% 左右。這是因為第二個路徑通道較少,處理空間信息的能力較差,但這些信息完全可以由第一個路徑以一種簡單的方式來提供。
SlowFast 網絡的實例化示例
SlowFast 靈感之源
正常來講,很少有將兩種完全相反的概念融合為一體的模型;但于 SlowFast 而言,這一方法在很大程度上,受到靈長類視覺系統中視網膜神經節細胞的生物學研究的啟發。
研究發現,在靈長類的視覺系統中,約 80% 為是 P 細胞(P-cells),約 15-20% 是 M 細胞(M-cells)。M-cell 以較高的時間頻率工作,對時間變化更加敏感,但對空間細節和顏色的感知很弱;P-cell 則提供良好的空間細節和顏色,同時它的時間分辨率較低。
SlowFast 框架正是與此類似:
- 該模型有兩條路徑,分別以低時間分辨率和高時間分辨率工作;
- Fast 路徑用于捕捉快速變化的運動,但空間細節較少,類似于 M-cell;
- Fast 路徑為輕量級,類似于較小比例的 M-cell。
Facebook AI 也希望通過對這些關系的介紹,能夠啟發更多用于視頻識別的計算機視覺模型。
SlowFast 進展
通過合理的快慢分工,SlowFast 比之前的視頻識別系統都更加輕量級。目前,Facebook AI 已經在四個主要的公共基準數據集上建立了一個新的技術狀態。通過分析不同速度下的原始視頻,這一方法還可以使 SlowFast 網絡從本質上進行分治 (Divide-and-conquer)。
每個路徑都利用其在視頻建模中的特殊優勢,Slow 路徑以每秒兩幀(fps)的速度處理最初刷新為每秒 30 幀的視頻片段,在這一速度下,物體或人的顏色、紋理或身份等特征也不會改變;同時 Fast 路徑在相同的原始視頻剪輯上運行,但是在更高的幀速率下——給定 30 fps 的鏡頭,該路徑也可能以 16 fps 的速度處理它,這些更快的刷新速度允許更好地理解視頻中正在發生的運動類型。
SlowFast 應用于視頻檢測
這一設置的最主要優點在于提高 Fast 通道時間建模能力的同時,也降低了 Fast 通道的信道容量,最終呈現的是一個系統的整體計算復雜度和精度比其他更高,計算量更大的算法。
令人振奮的成果
Facebook AI 在 Kinetics-400、Kinetics-600 和 Charades 數據集,以及 Ava 數據集上檢測了 SlowFast 的實際能力。實驗結果表明該模型在視頻動作分類及檢測方面性能非常強大,SlowFast 網絡比預先訓練的系統更加精確,包括在動力學和特性上都比最新的模型高出幾個百分點:
- 在沒有使用任何預訓練的情況下,在 Kinetics 數據集上實現了 79.0% 的準確率;
SlowFast 網絡與當前最優模型在 Kinetics-400 數據集上的對比結果
- 在 AVA 動作檢測數據集上也實現了 28.3 mAP 的當前最佳水準,這一基于最慢速度的系統還在 CVPR 2019 上的 AVA 視頻檢測挑戰賽中取得了第一的優秀成績。
在 AVA 數據集上的 Per-category AP:Slow-only 基線模型 (19.0 mAP) 與對應的 SlowFast 網絡 (24.2 mAP)
SlowFast 應用前景
從已有的信息來看,Facebook AI 并沒有使用 SlowFast 或文中提到的公共數據集來訓練生產模型,但是這一研究可以在視頻分析方面有廣泛的應用,包括:改進系統如何自動識別、分類視頻內容,以及視頻推薦等應用。
同時,在視頻檢測方面的進展也有利于幫助公共平臺尋找和刪除有害視頻,也包括為視頻個性化提供更好的推薦建議。
原文參考:
http://t.cn/Ai1OPFAr
GitHub 地址:
https://github.com/facebookresearch/SlowFast
論文鏈接:
https://arxiv.org/pdf/1812.03982.pdf?
來源 | 雷鋒網 AI 開發者
作者 | 楊鯉萍