本文作者為華為諾亞方舟實(shí)驗(yàn)室鄒常青研究員。在本文中,作者從淺入深詳細(xì)講述了中山大學(xué)、華為加拿大諾亞方舟實(shí)驗(yàn)室、香港城市大學(xué)、谷歌公司等合作發(fā)表在 SIGGRAPH ASIA 2019的論文 “Language-based Colorization of Scene Sketches”,該論文研究了基于自然語言交互的草圖卡通化技術(shù),能夠在給定一個(gè)草圖下,計(jì)算機(jī)接收和分析用戶輸入語言指令,自動(dòng)地將草圖變成彩色卡通圖。

人們常說一圖勝千言。
手繪草圖數(shù)據(jù)因?yàn)槠渲庇^、易繪的特點(diǎn),被人們廣泛用于表達(dá)和總結(jié)對客觀事物的認(rèn)識(shí)和理解:如漫畫師用草圖來辛辣地表達(dá)某一個(gè)觀點(diǎn)或想法,小朋友用草圖來創(chuàng)作故事、設(shè)計(jì)師用草圖來記錄腦海中的瞬間的靈感。
而人類對客觀事物的認(rèn)識(shí)、理解深度也通常能夠反映在其所繪制的草圖上。心理學(xué)的研究領(lǐng)域的研究認(rèn)為 “The way children draw at the age of four can be a predictor of later intelligence”,即兒童的畫圖的方式能夠用來預(yù)測其未來的智力水平,而利用涂色或畫圖來訓(xùn)練兒童的認(rèn)知已被心理學(xué)家證實(shí)為幫助兒童智力發(fā)展的重要方式。
心理學(xué)研究表明兒童的草圖繪畫方式直接反映智商,而其智商發(fā)展也可以通過繪畫等方式訓(xùn)練
除了心理學(xué)領(lǐng)域,草圖數(shù)據(jù)因?yàn)榧捌洫?dú)特的魅力吸引了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、人機(jī)交互等領(lǐng)域的研究者的濃厚的興趣。
研究人類對于認(rèn)知草圖、用草圖表達(dá)思想背后的原理跟機(jī)制并用計(jì)算模型來建模,由此開發(fā)出新的應(yīng)用是研究人員一個(gè)重要的努力方向。
例如,
- 早在上世界七八十年代,現(xiàn)代計(jì)算機(jī)視覺領(lǐng)域奠基人Marr博士便開始致力于草圖的計(jì)算解釋研究;
- 現(xiàn)代反向工程之父、英國卡迪夫大學(xué)的Ralph R. Martin教授提出模擬人的視覺系統(tǒng)從線畫圖直接重建出三維模型;
- MIT的Department of Brain and CognitiveSciences (大腦與認(rèn)知科學(xué)系)的另外一個(gè)大佬Josh Tenenbaum教授更是把從少量數(shù)據(jù)、稀疏數(shù)據(jù)來研究人類潛在的認(rèn)知邏輯當(dāng)成為之奮斗終身的研究課題。
在11月20日剛剛結(jié)束的計(jì)算機(jī)圖形學(xué)領(lǐng)域最具影響力的國際頂級會(huì)議SIGGRAPH(ASIA) 大會(huì)上,中山大學(xué)、華為諾亞方舟實(shí)驗(yàn)室、聯(lián)手香港城市大學(xué)、谷歌公司發(fā)表了他們在復(fù)雜草圖的機(jī)器理解方向的最新進(jìn)展。
值得一提的是,SIGGRAPH/SIGGRAPH ASIA是計(jì)算機(jī)圖形學(xué)領(lǐng)域最具影響力的會(huì)議,因?yàn)闃O其專業(yè)的審稿以及對論文工作量的高要求,使得這個(gè)會(huì)議被認(rèn)為是計(jì)算機(jī)領(lǐng)域公認(rèn)的高難度頂級學(xué)術(shù)會(huì)議。
對Sketchy Scene數(shù)據(jù)庫中的實(shí)例的交互涂色展示
這篇題為《Language-based Colorization ofScene Sketches》的文章可以認(rèn)為是一個(gè)基于自然語言的人機(jī)交互涂色系統(tǒng):給定一個(gè)草圖,計(jì)算機(jī)接收和分析用戶輸入語言指令并自動(dòng)地將草圖變成彩色卡通圖。
這個(gè)問題看似簡單,其實(shí)非常具有挑戰(zhàn)性,涉及到兩種非常復(fù)雜的不同模態(tài)輸入數(shù)據(jù)(草圖及自然語言)的理解,而對于這兩種數(shù)據(jù)的理解,尤其在少量訓(xùn)練樣本的下如何同時(shí)處理這兩種數(shù)據(jù)的交互,目前計(jì)算機(jī)領(lǐng)域仍沒有很好的解決方案。
除了研究本身的價(jià)值,文章的作者期望這篇文章所提出的技術(shù)能夠?yàn)閮和J(rèn)知開發(fā)提供一個(gè)新的應(yīng)用軟件,或者為黑白漫畫書批量處理成卡通書提供參考方案。
對 Freehand草圖的交互涂色展示
在技術(shù)實(shí)現(xiàn)上,為了降低模型推理的難度,文章將涂色問題解耦為分割、涂色兩個(gè)子問題,并分步涂色整個(gè)草圖的前景跟背景。
具體地,一個(gè)新穎的參考實(shí)例分割算法(Referring Instance Segmentation)被首先用來根據(jù)用戶的文字輸入自動(dòng)分割出感興趣的前景物體,然后一個(gè)基于生成對抗網(wǎng)絡(luò)(GAN)以及圖-文特征融合算法的模型根據(jù)用戶的語言指令對分割出的前景物體進(jìn)行上色,這個(gè)過程會(huì)自動(dòng)執(zhí)行部件的分割以及顏色推理。
在完成部分或所有物體的涂色后,系統(tǒng)最后使用一個(gè)雙通道對抗網(wǎng)絡(luò)同時(shí)學(xué)習(xí)包括空白區(qū)域在內(nèi)的背景區(qū)域的分割和涂色。目前該論文的代碼以及數(shù)據(jù)已經(jīng)開源。
在技術(shù)脈絡(luò)上看,這篇論文是2018年計(jì)算機(jī)視覺頂級會(huì)議ECCV的一篇題《SketchyScene: Richly-Annotated Scene Sketches》的工作的進(jìn)一步的延伸。
在這篇文章中,由馬里蘭大學(xué)與倫敦瑪麗女王大學(xué)的SketchX Lab牽頭、聯(lián)合中山大學(xué)、山東大學(xué)以及加拿大Simon Fraser University 推出了第一個(gè)場景級別的草圖數(shù)據(jù)庫。
這個(gè)數(shù)據(jù)庫提供了8K張以上的場景級別的草圖的語義及實(shí)例分割的模板圖像數(shù)據(jù),基于提供的8K多張模板數(shù)據(jù),理論上其他用戶可以用實(shí)例替換的方式自動(dòng)生成無限多的帶標(biāo)注信息的場景草圖。
除了分割數(shù)據(jù),這個(gè)數(shù)據(jù)庫同時(shí)為每張草圖提供了對應(yīng)的參考卡通圖(草圖與參考圖的前景物體存在類別上的一一對應(yīng)關(guān)系)。
這個(gè)數(shù)據(jù)庫無疑是草圖理解這個(gè)問題上一個(gè)重要的工作,受這篇工作的啟發(fā),計(jì)算機(jī)圖形學(xué)的著名研究機(jī)構(gòu) MIT 跟法國國家信息與自動(dòng)化研究所 INRIA 更是在2019年的SIGGRAPH ASIA 推出了另一個(gè)用于概念設(shè)計(jì)的草圖數(shù)據(jù)庫《OpenSketch: A Richly-Annotated Dataset of Product Design Sketches》。
在實(shí)驗(yàn)驗(yàn)證方面,這篇文章通過用戶調(diào)查形式從定量與定性兩個(gè)方面分析和展示了其方法對于不同形式的指令及不同風(fēng)格的草圖的有效性跟魯棒性。
論文同時(shí)也指出雖然自然語言是一個(gè)非常有前途的輸入方式,但是自然語言輸入也存在固定的缺點(diǎn),比如比較難區(qū)分相近的顏色,因而作者認(rèn)為要獲得更加實(shí)用的系統(tǒng),有必要結(jié)合自然語言輸入與別的模態(tài)的用戶輸入。
系統(tǒng)對于輸入指令的容錯(cuò)能力展示
系統(tǒng)對于不同草圖風(fēng)格的魯棒性和泛化能力展示
論文還討論了一系列的不足之處,比如結(jié)果中存在顏色瑕疵,用戶指令理解泛化能力不足。草圖卡通化雖然是一個(gè)比較小的應(yīng)用,其作為復(fù)雜稀疏圖像數(shù)據(jù)理解的一個(gè)具體應(yīng)用,這篇文章作為一個(gè)開創(chuàng)性的工作充分地展示這個(gè)問題的難度、意義和應(yīng)用價(jià)值。相信在這篇文章的啟發(fā)下,在計(jì)算機(jī)視覺與計(jì)算圖形學(xué)領(lǐng)域?qū)?huì)出現(xiàn)越來越多的對于草圖的研究興趣。
來源 | 雷鋒網(wǎng)
作者 | camel