国产日韩欧美这里,欧美色图性插图色欲久久网,日韩亚洲欧美国产另类,日韩精品在线一区-亚洲中文字幕人

長春市晟峰源景觀工程有限公司

北大新突破!ECCV 2024發(fā)布圖像檢索新方法

從一大堆圖片中精準(zhǔn)找圖,有新招了!論文已經(jīng)中了ECCV 2024。

北京大學(xué)袁粒課題組,聯(lián)合南洋理工大學(xué)實驗室,清華自動化所提出了一種新的通用檢索任務(wù):通用風(fēng)格檢索(Style-Diversified Retrieval)。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖1

一句話,這種檢索任務(wù)要求模型面對風(fēng)格多樣的查詢條件時,依然能精準(zhǔn)找圖。

傳統(tǒng)圖片檢索主要靠文本查詢,查詢方法單一不說,在使用其他檢索方案的性能也一般。

而論文提出的新圖像檢索方法,能夠根據(jù)多樣化的查詢風(fēng)格(如草圖、藝術(shù)畫、低分辨率圖像和文本等)來檢索相應(yīng)圖像,甚至包括組合查詢(草圖+文本、藝術(shù)+文本等)。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖2

同時,模型在與其他檢索基線之間的性能比較中達到SOTA。(最外圍藍色)

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖3

目前,論文已在arXiv公開,相關(guān)代碼和數(shù)據(jù)集也已開源。

新圖像檢索方法

當(dāng)前,圖像檢索的一大痛點是:

讓檢索模型具備理解多樣化用戶查詢向量的能力

通俗點說就是,不管用戶用哪種方式檢索查詢,最后都能命中用戶想要的圖像。

為了實現(xiàn)這一點,團隊進行了兩項工作

  • 構(gòu)建專有的檢索數(shù)據(jù)集,包括多種類型的查詢圖片。
  • 提出即插即用的框架,使傳統(tǒng)檢索模型也能快速具有通用檢索能力。

數(shù)據(jù)集構(gòu)建

針對多種查詢風(fēng)格的圖片文本檢索任務(wù),團隊生成并構(gòu)建了細粒度檢索數(shù)據(jù)集DSR(Diverse-Style Retrieval Dataset)。

展開來說,數(shù)據(jù)集包括10,000張自然圖片以及對應(yīng)的四種檢索風(fēng)格(文本、草圖、低分辨率、卡通藝術(shù))。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖4

其中的草圖標(biāo)注由FSCOCO數(shù)據(jù)集提供,卡通藝術(shù)圖片和低分辨率圖像由AnimateDiff生成。

同時,團隊也采用ImageNet-X作為大尺寸粗粒度的多風(fēng)格檢索數(shù)據(jù)集。

ImageNet-X包括100萬張帶有各種風(fēng)格標(biāo)注的自然圖片,相較于DSR,ImageNet-X數(shù)據(jù)集的圖片更加簡單,便于檢索。

提出FreestyleRet框架

概括而言,F(xiàn)reestyleRet框架通過將圖片風(fēng)格提取并注入,有效解決了當(dāng)前圖片檢索模型無法兼容不同類型的檢索向量的問題。

在構(gòu)建FreestyleRet框架時,團隊主要考慮到兩個問題

  • 如何有效地理解不同風(fēng)格的查詢向量的語義信息。
  • 如何有效利用現(xiàn)有的圖文檢索模型,實現(xiàn)優(yōu)秀的擴展能力。

圍繞這兩個核心問題,團隊設(shè)計三個模塊來組成FreestyleRet框架:

(1)基于格拉姆矩陣的風(fēng)格提取模塊用于顯式提取未知查詢向量的風(fēng)格表征;
(2)風(fēng)格空間構(gòu)建模塊,通過對風(fēng)格表征聚類從而構(gòu)建檢索的風(fēng)格空間,并將聚類中心作為風(fēng)格的一致性表征;
(3)風(fēng)格啟發(fā)的提示微調(diào)模塊,通過對檢索模型的Transformer layer進行風(fēng)格初始化的插值,實現(xiàn)對現(xiàn)有檢索模型的多風(fēng)格查詢能力擴展。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖5

風(fēng)格提取與風(fēng)格空間的構(gòu)建

格拉姆矩陣被驗證為有效的圖像風(fēng)格提取方案,在本論文中團隊采用基于格拉姆矩陣的風(fēng)格提取模塊對不同類型的查詢向量進行風(fēng)格提取。

團隊采用凍結(jié)的VGG輕量化網(wǎng)絡(luò)對查詢向量進行表征編碼,并選取淺層卷積表征作為風(fēng)格提取的基特征,具體公式如下:

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖6

在得到查詢向量對應(yīng)的風(fēng)格表征集合后,團隊為查詢向量集合構(gòu)建整體的風(fēng)格空間。

具體來說,采用K-Means聚類算法,迭代式的計算四種不同風(fēng)格的查詢向量集合對應(yīng)的聚類中心,然后再對每個風(fēng)格表征計算其所屬的風(fēng)格中心,并根據(jù)新的風(fēng)格表征集合重新調(diào)整聚類中心的位置。

當(dāng)聚類中心位置不再發(fā)生變化即為迭代完畢,公式如下:

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖7

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖8

在風(fēng)格空間中,團隊將不同查詢向量風(fēng)格對應(yīng)的不同聚類中心作為風(fēng)格空間的基向量。

而在推理過程中面對未知風(fēng)格的查詢向量,風(fēng)格空間將計算查詢向量在基向量上的投影,通過對基向量投影與基向量的加權(quán)求和,風(fēng)格空間實現(xiàn)對未知風(fēng)格的量化。

高效風(fēng)格注入的提示微調(diào)模塊

在圖像文本檢索領(lǐng)域,基于Transformer結(jié)構(gòu)的ALBEF, CLIP, BLIP等基礎(chǔ)檢索模型受到廣泛的使用,很多下游工作采用了這些基礎(chǔ)檢索模型的編碼器模塊。

為了讓FreestyleRet框架能夠便捷且高效的適配這些基礎(chǔ)檢索模型,團隊采用風(fēng)格表征初始化的token對基礎(chǔ)編碼器的Transformer結(jié)構(gòu)進行提示微調(diào)。

具體來說,在encoder layer的每層都插入使用量化風(fēng)格表征初始化的可學(xué)習(xí)token,從而實現(xiàn)風(fēng)格向編碼器注入的流程。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖9

實驗性能展示

在定量實驗角度,團隊分析了基于FreestyleRet架構(gòu)的BLIP和CLIP模型在DSR數(shù)據(jù)集以及ImageNet-X數(shù)據(jù)集的Recall@1, Recall@5性能。

實驗證明,面對多種風(fēng)格的查詢向量時,F(xiàn)reestyleRet框架可以顯著增強現(xiàn)有檢索模型的泛化能力,具有2-4%的提升。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖10

而團隊也進一步驗證FreestyleRet框架對于多個不同風(fēng)格的查詢向量共同輸入的性能,共同輸入的查詢向量可以進一步提升模型的檢索精度。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖11

通過對特征分布進行可視化,團隊發(fā)現(xiàn)使用FreestyleRet結(jié)構(gòu)的基礎(chǔ)檢索模型能夠有效分離查詢向量中的風(fēng)格信息與語義信息,并實現(xiàn)語義角度的高維空間聚類。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖12

團隊也對實際的檢索推理流程進行了示例的可視化,以驗證模型的泛化性。

北大新突破!ECCV 2024發(fā)布圖像檢索新方法-圖13

總之,模型在5種不同類型的檢索向量上都取得了良好效果,而且還在多種檢索向量共同檢索的子任務(wù)上表現(xiàn)了良好的擴展性。

更多詳情歡迎查閱原論文。

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們,第一時間獲知前沿科技動態(tài)

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 [email protected]舉報,一經(jīng)查實,本站將立刻刪除。 轉(zhuǎn)載請注明出處:http://m.yqrh.com.cn/post/23211.html

分享:
掃描分享到社交APP
x

注冊

已經(jīng)有帳號?
沾化县| 定边县| 盐边县| 阜宁县| 盱眙县| 湖北省| 米林县| 原阳县| 巴东县| 黑水县| 图木舒克市| 凤阳县| 诸暨市| 招远市| 黄浦区| 卓资县| 浦县| 汉川市| 金塔县| 旬阳县| 出国| 桃园市| 巩义市| 甘德县| 屏东市| 灵武市| 津市市| 汕头市| 广丰县| 罗山县| 油尖旺区| 儋州市| 莱州市| 青冈县| 枣阳市| 南和县| 徐汇区| 蕉岭县| 丰都县| 县级市| 青海省|