[論文導讀]Back to the Source: Diffusion-Driven Adaptation to Test-Time Corruption
CVPR2023,本篇論文主要探討如何用diffusion來做test-time adaptation
Introduciton
Task
本篇論文的task主要是針對image classification,我們希望分類器訓練在高品質、乾淨的資料上(下圖中間)。但又能再低品質、破壞的資料(下圖的blur、noise、elastic等等)上進行分類。往往分類模型對於沒有看過的這些破壞資料沒辦法很好的進行分類,因此許多針對這種議題的研究被提出,而這樣的研究議題也稱作test-time adaptation。顧名思義就是在測試時(test-time),可以去對模型做某種調整(adaptation)來讓模型可以在這些訓練時沒看過的資料表現變好。
Two main idea of test-time adaptation
首先我們先定義模型的訓練資料叫做source domain(高品質、乾淨的圖)。而模型的測試資料叫做target domain(低品質、破壞的圖)。在這種test-time adaptation的議題中,主要有兩種研究方向。
- Updating model to target domain
針對模型進行某種fine-tune來讓模型可以fit到target domain。優點:針對任何的target domain都能很好的fine-tune。缺點:計算資源高、表現容易被target domain的資料量影響。
- Adapting input data to source domain
針對輸入的資料進行某種轉換,把這些資料通通轉到source domain。缺點:現有的方法往往需要成對的source/target資料來學習如何轉換。除此之外,一次只能針對一種domain進行轉換,沒辦法一次解決多種domain的轉換問題。
This paper
本篇論文提出了第一個diffusion-driven adaptation method(DDA)。透過訓練一個diffusion model在source domain上,那麼測試時就能直接拿這個diffusion model將輸入的target domain(低品質、破壞)的資料轉成source domain(高品質、乾淨)。
Proposed method
以下是本篇論文提出的diffusion-driven adaptation method(DDA)。
首先我們會先用source domain的資料訓練一個diffusion model,這個diffusion model就是原始、沒有condition的那個版本。
我們的目標是根據這個diffusion model將target domain(低品質、破壞)的資料轉成source domain(高品質、乾淨)。
根據下圖,首先我們將輸入資料根據diffusion model的forward process加入一些高斯雜訊(綠色箭頭)。接著我們根據backward process一步一步的去除這些雜訊(橘色箭頭denoise)。而這個去除的過程中會有一個guidance的操作來引導每一次denoise的的結果(藍色箭頭),目的是希望這個diffusion model產生的圖片的content可以跟輸入的資料一樣。舉例來說,輸入的是一張金色的鳥,那希望輸出也一樣是金色的鳥。而具體怎麼進行guidance,會在後面進行介紹。
最後,透過上面這一系列forward process, guidance, backward process,我們就能產生輸入的圖片的乾淨的版本。最後我們將這張圖片喂給預訓練在source domain的分類器進行分類。(後面那個ensemble只是將原圖和新圖都進行分類,再將分類結果進行加權而已)
以下是怎麼pipeline的細節。首先定義我們輸入的圖片為reference image x0、我們希望產生的圖片為generated image x0^g、N為diffusion model的加躁的次數。Phi D為一個low-pass filter、xN為x0經過forward process後的加了雜訊的圖。
我們仿照原始diffusion model的方式進行denoise,而pseudo code的第七行就是原始的ddpm的denoise公式。接著我們希望這個denoise的結果可以被引導至跟x0相似,也就是說我們希望reference image的content可以跟generated image相同。因此第8行這裡我們使用當前的xt去預測出x0,並標為x0 head(這裡的公式是直接將ddpm裡的forward process的公式進行移項)。接著我們將這個x0 head和x0都經過low-pass filter去取得low-level、structural的資訊。最後我們根據這個structural的差異來對xt-1 head進行微調。這個微調方法就是直接計算這個structural的差異的gradient,並根據這個gradient進行調整,最後就得到一個經過guidance的xt-1。
重複這個過程N次最後就能得到一張source domain的圖片,且這個圖片保有和target domain相同的content。
Experimental results
實驗結果證明此方法比以往的方法都還要好
Ablation Study
作者有針對diffusion的訓練過程進行ablation study。
首先是forward+reverse,意思是沒有使用reference image來對每一次denoise的過程做guidance。reverse+guidance,意思是直接從一張random noise去denoise,並且加上作者設計的guidance方法。DDA則是前面介紹的,先加上N次noise,在denoise N次,過程中加上reference image的guidance。最終結果顯示DDA是最佳的。
下圖為ablation study的視覺化結果,可以發現如果沒有guidance的話,產出的圖片的content會和原來的圖片差異非常大。
Conclusion
•We propose DDA as the first diffusion-based method for test-time adaptation to corruption and include a novel self-ensembling scheme to choose how much to adapt.
•We experiment on the ImageNet-C benchmark to show that DDA improves over existing test-time adaptation methods across corruptions, models, and data regimes.