可視化:圖像的主題色提取算法,是不是太高端了?
浙江大學(xué)CAD&CG國家重點(diǎn)實(shí)驗(yàn)室可視化與可視分析小組特別將論文進(jìn)行了整理,以下為文章摘要。
斯坦福可視化組非常有必要介紹一下,領(lǐng)頭的兩個(gè)大牛一個(gè)是Pat Hanrahan教授,橫跨科學(xué)可視化和信息可視化兩個(gè)領(lǐng)域,即便不知道這個(gè)名字那今年紅得發(fā)紫的數(shù)據(jù)可視化上市公司Tableau應(yīng)該都是知道的,他就是聯(lián)合創(chuàng)始人,Tableau原生于他的Polaris系統(tǒng);另一個(gè)Jeffrey Heer是信息可視化和人機(jī)交互領(lǐng)域近幾年的當(dāng)紅炸子雞,論文兼顧創(chuàng)新性和實(shí)用性,驚才絕艷。
回到正題,這篇文章解決了圖像的主題色提取的問題,屬于顏色建模這個(gè)topic。論文的一作同一年在Eurovis、CHI和SIGGRAPH上都發(fā)表了顏色建模的文章(SIGGRAPH的論文現(xiàn)在處于conditionally accepted狀態(tài)),Eurovis和CHI都是最佳論文之一,真可謂厚積厚發(fā)。
這次真的是回到正題,回到這篇論文。一般的主題色提取方法有k-means和fuzzy c-means的按像素顏色值聚類的方法和顏色直方圖取峰值的方法。其實(shí)論文的思路并不復(fù)雜,對圖像定義一系列的特征,套用多元線性回歸模型LASSO,在眾包平臺亞馬遜土耳其機(jī)器人上建立任務(wù)收集訓(xùn)練集,LASSO通過訓(xùn)練集的學(xué)習(xí)增加關(guān)鍵特征的權(quán)重減小冗余特征的影響,從而生成一個(gè)比較好的主題色提取模型。下面分別說明特征定義、回歸模型和user study三個(gè)部分。
其實(shí)主題色這個(gè)概念真的是公說公有理,婆說婆有理,評判一張圖像的主題色是哪些,一千個(gè)看官不可能得到同一個(gè)答案,但是他們的答案大多近似。因此本文以用戶定義的主題色作為標(biāo)準(zhǔn)答案也算合理。對于每張圖像,文章以k=40用k-means方法計(jì)算圖像的40個(gè)顏色作為基準(zhǔn)色。用戶只能從這40個(gè)顏色中挑選5個(gè)顏色作為圖像的主題色。
文章定義了以下6個(gè)方面的特征,提取計(jì)算出79個(gè)特征變量,這里作簡單說明:
視覺顯著性 saliency:文章以用戶對圖像的眼動跟蹤數(shù)據(jù)取定義圖像中每個(gè)像素的視覺顯著性,定義某一套主題色在圖像中的視覺顯著性為所有主題色所在像素的視覺顯著性的疊加,同時(shí)定義某顏色視覺顯著性密度為疊加值對像素個(gè)數(shù)的比值。
覆蓋誤差 coverage error:覆蓋誤差定義為用主題色去覆蓋整張圖像所得到的圖像和原圖像的顏色誤差,分硬誤差和軟誤差兩種,區(qū)別在于一個(gè)像素點(diǎn)是由單一主題色覆蓋還是由多個(gè)主題色的線性疊加覆蓋。相似地,還定義了像素在亮度、飽和度、紅綠、藍(lán)黃等顏色通道的覆蓋誤差,以及對圖像進(jìn)行分割后按區(qū)域計(jì)算的覆蓋誤差。
顏色多樣性 color diversity:顏色多樣性考慮顏色之間的平均、最大、最小距離。
顏色集中性 color impurity:顏色集中性考慮與主題色相近的前5%的像素之間的距離。
顏色可命名性 color nameability與顏色統(tǒng)計(jì) color statistics:這兩個(gè)聽起來比較直觀,實(shí)際上非常模糊,文中也沒有詳細(xì)介紹。
定義好這79個(gè)特征之后,就要輪到LASSO上場了。LASSO(least absolute shrinkage selection operator)是一種多元線性回歸方法,在傳統(tǒng)的多元線性回歸式子之余,通過一個(gè)約束條件達(dá)到特征選擇的目的(下圖公式摘自于LASSO原文)。其中x是特征,β是特征的權(quán)重,如果約束t是一個(gè)無窮大的值,那么就跟一般多元線性回歸沒有差別,但是t逐漸減小的時(shí)候特征權(quán)重就收到擠壓(shrinkage),從而達(dá)到去除冗余特征的選擇(selection)作用。通過LASSO方法對訓(xùn)練集的學(xué)習(xí),所定義的79個(gè)特征就被減少到非常有限個(gè)。

移步這里有對這個(gè)方法的思想和發(fā)展比較詳細(xì)的介紹。
User study就是作者在這個(gè)眾包平臺上設(shè)置了40張圖像,每個(gè)用戶接受10張圖像的任務(wù),在基準(zhǔn)色中找到圖像的5個(gè)主題色。另外作為對比,作者又找了11個(gè)藝術(shù)系的學(xué)生執(zhí)行相同的任務(wù)。
下圖是一張圖像的user study結(jié)果統(tǒng)計(jì),可以看出用戶所選的主題色和藝術(shù)系同學(xué)的還是差不多的,但是和自動方法選出來的顏色相差較大。

對于建模得到的主題色,作者又以user study去鑒定是否和圖像真實(shí)主題相近,由用戶以評分的方式判斷,對給出主題給出1到5分,5分是非常接近而1分是非常不接近。從下圖可以看出建模得到顏色和用戶組的打分都廣受好評(左上角標(biāo)出平均分),而其它兩種方法則稍顯劣勢。

最后來看下對新圖像的建模情況對比:可以看出文章方法能夠提取出一些像素覆蓋度不是很高,但是在視覺上比較顯著的區(qū)域,如蝴蝶的白色以及海上的紅色太陽等等。

最后文章給出了這79個(gè)特征的權(quán)重,似乎就可以用于類似于基于主題色的圖像檢索一類的應(yīng)用。但實(shí)際上,由于視覺顯著性是通過用戶的眼動跟蹤數(shù)據(jù)得到的,所以無法對沒有視覺顯著性的圖像進(jìn)行建模,就大大降低了可用性。如果對這個(gè)特征進(jìn)行改進(jìn)的話,就能讓這個(gè)方法得到更廣泛的應(yīng)用。
幾點(diǎn)補(bǔ)充:
1.之前視物致知已經(jīng)報(bào)道過這篇文章,本博文則是從學(xué)術(shù)角度重新審視這篇文章。
2.Eurovis的文章針對數(shù)據(jù)實(shí)體本身的顏色語義和設(shè)計(jì)圖元所對應(yīng)顏色的一致性的問題,比如是水果的數(shù)據(jù),那藍(lán)莓就用藍(lán)色,香蕉就用黃色等,感興趣的看官可以看原論文。