從一大堆圖片中精準(zhǔn)找圖,有新招了!論文已經(jīng)中了ECCV 2024。
北京大學(xué)袁粒課題組,聯(lián)合南洋理工大學(xué)實驗室,清華自動化所提出了一種新的通用檢索任務(wù):通用風(fēng)格檢索(Style-Diversified Retrieval)。
一句話,這種檢索任務(wù)要求模型面對風(fēng)格多樣的查詢條件時,依然能精準(zhǔn)找圖。
傳統(tǒng)圖片檢索主要靠文本查詢,查詢方法單一不說,在使用其他檢索方案的性能也一般。
而論文提出的新圖像檢索方法,能夠根據(jù)多樣化的查詢風(fēng)格(如草圖、藝術(shù)畫、低分辨率圖像和文本等)來檢索相應(yīng)圖像,甚至包括組合查詢(草圖+文本、藝術(shù)+文本等)。
同時,模型在與其他檢索基線之間的性能比較中達到SOTA。(最外圍藍色)
目前,論文已在arXiv公開,相關(guān)代碼和數(shù)據(jù)集也已開源。
新圖像檢索方法
當(dāng)前,圖像檢索的一大痛點是:
讓檢索模型具備理解多樣化用戶查詢向量的能力
通俗點說就是,不管用戶用哪種方式檢索查詢,最后都能命中用戶想要的圖像。
為了實現(xiàn)這一點,團隊進行了兩項工作:
- 構(gòu)建專有的檢索數(shù)據(jù)集,包括多種類型的查詢圖片。
- 提出即插即用的框架,使傳統(tǒng)檢索模型也能快速具有通用檢索能力。
數(shù)據(jù)集構(gòu)建
針對多種查詢風(fēng)格的圖片文本檢索任務(wù),團隊生成并構(gòu)建了細粒度檢索數(shù)據(jù)集DSR(Diverse-Style Retrieval Dataset)。
展開來說,數(shù)據(jù)集包括10,000張自然圖片以及對應(yīng)的四種檢索風(fēng)格(文本、草圖、低分辨率、卡通藝術(shù))。
其中的草圖標(biāo)注由FSCOCO數(shù)據(jù)集提供,卡通藝術(shù)圖片和低分辨率圖像由AnimateDiff生成。
同時,團隊也采用ImageNet-X作為大尺寸粗粒度的多風(fēng)格檢索數(shù)據(jù)集。
ImageNet-X包括100萬張帶有各種風(fēng)格標(biāo)注的自然圖片,相較于DSR,ImageNet-X數(shù)據(jù)集的圖片更加簡單,便于檢索。
提出FreestyleRet框架
概括而言,F(xiàn)reestyleRet框架通過將圖片風(fēng)格提取并注入,有效解決了當(dāng)前圖片檢索模型無法兼容不同類型的檢索向量的問題。
在構(gòu)建FreestyleRet框架時,團隊主要考慮到兩個問題:
- 如何有效地理解不同風(fēng)格的查詢向量的語義信息。
- 如何有效利用現(xiàn)有的圖文檢索模型,實現(xiàn)優(yōu)秀的擴展能力。
圍繞這兩個核心問題,團隊設(shè)計三個模塊來組成FreestyleRet框架:
(1)基于格拉姆矩陣的風(fēng)格提取模塊用于顯式提取未知查詢向量的風(fēng)格表征;
(2)風(fēng)格空間構(gòu)建模塊,通過對風(fēng)格表征聚類從而構(gòu)建檢索的風(fēng)格空間,并將聚類中心作為風(fēng)格的一致性表征;
(3)風(fēng)格啟發(fā)的提示微調(diào)模塊,通過對檢索模型的Transformer layer進行風(fēng)格初始化的插值,實現(xiàn)對現(xiàn)有檢索模型的多風(fēng)格查詢能力擴展。
風(fēng)格提取與風(fēng)格空間的構(gòu)建
格拉姆矩陣被驗證為有效的圖像風(fēng)格提取方案,在本論文中團隊采用基于格拉姆矩陣的風(fēng)格提取模塊對不同類型的查詢向量進行風(fēng)格提取。
團隊采用凍結(jié)的VGG輕量化網(wǎng)絡(luò)對查詢向量進行表征編碼,并選取淺層卷積表征作為風(fēng)格提取的基特征,具體公式如下:
在得到查詢向量對應(yīng)的風(fēng)格表征集合后,團隊為查詢向量集合構(gòu)建整體的風(fēng)格空間。
具體來說,采用K-Means聚類算法,迭代式的計算四種不同風(fēng)格的查詢向量集合對應(yīng)的聚類中心,然后再對每個風(fēng)格表征計算其所屬的風(fēng)格中心,并根據(jù)新的風(fēng)格表征集合重新調(diào)整聚類中心的位置。
當(dāng)聚類中心位置不再發(fā)生變化即為迭代完畢,公式如下:
在風(fēng)格空間中,團隊將不同查詢向量風(fēng)格對應(yīng)的不同聚類中心作為風(fēng)格空間的基向量。
而在推理過程中面對未知風(fēng)格的查詢向量,風(fēng)格空間將計算查詢向量在基向量上的投影,通過對基向量投影與基向量的加權(quán)求和,風(fēng)格空間實現(xiàn)對未知風(fēng)格的量化。
高效風(fēng)格注入的提示微調(diào)模塊
在圖像文本檢索領(lǐng)域,基于Transformer結(jié)構(gòu)的ALBEF, CLIP, BLIP等基礎(chǔ)檢索模型受到廣泛的使用,很多下游工作采用了這些基礎(chǔ)檢索模型的編碼器模塊。
為了讓FreestyleRet框架能夠便捷且高效的適配這些基礎(chǔ)檢索模型,團隊采用風(fēng)格表征初始化的token對基礎(chǔ)編碼器的Transformer結(jié)構(gòu)進行提示微調(diào)。
具體來說,在encoder layer的每層都插入使用量化風(fēng)格表征初始化的可學(xué)習(xí)token,從而實現(xiàn)風(fēng)格向編碼器注入的流程。
實驗性能展示
在定量實驗角度,團隊分析了基于FreestyleRet架構(gòu)的BLIP和CLIP模型在DSR數(shù)據(jù)集以及ImageNet-X數(shù)據(jù)集的Recall@1, Recall@5性能。
實驗證明,面對多種風(fēng)格的查詢向量時,F(xiàn)reestyleRet框架可以顯著增強現(xiàn)有檢索模型的泛化能力,具有2-4%的提升。
而團隊也進一步驗證FreestyleRet框架對于多個不同風(fēng)格的查詢向量共同輸入的性能,共同輸入的查詢向量可以進一步提升模型的檢索精度。
通過對特征分布進行可視化,團隊發(fā)現(xiàn)使用FreestyleRet結(jié)構(gòu)的基礎(chǔ)檢索模型能夠有效分離查詢向量中的風(fēng)格信息與語義信息,并實現(xiàn)語義角度的高維空間聚類。
團隊也對實際的檢索推理流程進行了示例的可視化,以驗證模型的泛化性。
總之,模型在5種不同類型的檢索向量上都取得了良好效果,而且還在多種檢索向量共同檢索的子任務(wù)上表現(xiàn)了良好的擴展性。
更多詳情歡迎查閱原論文。
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)