買不起P30 Pro，我的舊iPhone能當望遠鏡么？陳啟峰團隊CVPR論文

情感導師 2023-05-28 8550

添加導師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復技巧戀愛脫單干貨

花栗子郭一璞發(fā)自凹非寺量子位報道 | 公眾號 QbitAI

華為“單反”P30 Pro，從遠處拍到的埃菲爾鐵塔，連設計師們的名字都看得清。

這樣的變焦技能，奢侈到讓人心生嫉妒。

不過現(xiàn)在，就算不是P30 Pro，沒有徠卡四攝，沒有4,000萬像素，只靠深度學習，iPhone也可以把50米之外的細節(jié)，拍得清楚明白。

比如，你在街上走著，望到了對面的店鋪，墻邊立著像梯子一樣的東西：

這時候，如果用普通的數(shù)碼變焦拍一張?zhí)貙?，約等于自暴自棄：

那么，讓超分辨率的大前輩ESRGAN試一下。

還是有些力不從心：

是時候展現(xiàn)真正的技術了。

主角出場，超進化的數(shù)碼變焦：

原來它長這樣啊。每一道銀色的線條，都堅定地橫在畫面上，沒有被黑暗的背景消融掉，細節(jié)比前輩生成的清晰許多。

走著走著，又看到了20米以外的小幅海報，上面細小的網(wǎng)址，不用走過去拍也能看清：

這只眼力上佳的AI，微調(diào)一波之后，已經(jīng)在iPhone X的相機上測試可用。

論文還中了CVPR 2019。作者有四位，一作是伯克利的博士生張璇兒，二作是港科大的助理教授陳啟峰。

團隊說關鍵在于，不能只用RGB圖像數(shù)據(jù)來訓練，要用原始數(shù)據(jù)。

不一樣的數(shù)據(jù)集

在超分辨率的世界里，有些標準操作，大家已經(jīng)習以為常。

卻沒發(fā)現(xiàn)，原本常用的數(shù)據(jù)集，帶來了兩個嚴重的問題。

第一，因為神經(jīng)網(wǎng)絡需要成對的圖片，一張高分辨率一張低分辨率，來解鎖從低清里恢復高清的技能。通常的做法是，對高清圖片做降采樣(Downsampling) ，得到對應的那張低清圖片。

降采樣，會間接減少圖像的噪點。

而超分辨率通常是要把遠處的物體放大，離鏡頭越遠的物體，它所在的區(qū)域噪點會越多，因為進入光圈的光子少了。

這樣說來，用降采樣炮制的數(shù)據(jù)，不太適合拿來訓練超分辨率的技能。

第二，現(xiàn)有的大多數(shù)方法，都是直接用8位RGB圖像當訓練數(shù)據(jù)的。

但RGB圖像，不是攝像頭的原始數(shù)據(jù) (Raw Sensor Data) ，是圖像信號處理器 (ISP) 加工過的。

這加工步驟會損失一些高頻信號，其中一個目的也是降噪。

相比之下，原始數(shù)據(jù) (12-14位) 保留了這些高頻信號，可能對恢復圖像質(zhì)量有幫助：

總結一下，一要拋棄降采樣，二要用原始數(shù)據(jù)來訓練。于是，研究人員拿起了單反，用光學變焦鏡頭去拍成對的照片。

簡單來說，短焦拍下低分辨率圖像，長焦拍下高分辨率圖像。

復雜一點說，24-240毫米的變焦鏡頭，可以拍出許多種不同焦距的照片。對畫面上的一個物體來說，就是不同的分辨率了：

任意兩張圖像，只要分辨率不同，都可以組成一對。

SR-RAW數(shù)據(jù)集就這樣誕生了。每張圖像都是原味，低清不是由高清粗暴轉(zhuǎn)化得來，原始數(shù)據(jù)也都在。

訓練的時候，是用低清照片的原始數(shù)據(jù)，加上高清照片的8位RGB圖：高清是低清的Ground Truth。

那么，是不是有了數(shù)據(jù)集，就得到了天下？

還差一點：

圖像對不齊怎么辦

訓練超分辨率，首先需要圖像對齊(Alignment) 。就是把低清圖像的每一個像素點，和高清圖像里的像素點對應起來。

因為高清和低清圖像，是在同一枚鏡頭的不同配置下拍攝的，對齊的時候會出現(xiàn)不可避免的問題。

比如，透視問題。調(diào)了焦，物體之間的距離變了，很難對齊了：

比如，景深問題。調(diào)了焦，物體和背景之間的距離也變了，更難對齊了：

另外，高清圖像里面，物體邊緣會更加鋒利，而低清圖像里的邊界比較模糊，原本就很難對齊。

于是，團隊提出了一種新的損失函數(shù)，叫做CoBi。

這個損失，是在去年發(fā)表的Contextual Loss(簡稱CX) 基礎上進化而生。

CX可以解決圖像不對齊的問題，卻不考慮圖像的空間特征，在執(zhí)行超分辨率任務的時候會出現(xiàn)重大的瑕疵 (下圖B) ：

△ 左起：CoBi訓練成果、Ground Truth

所以，CoBi比CX多加了一項有關空間坐標的損失。這樣，便可以訓練出優(yōu)秀的超分辨率網(wǎng)絡了。

原始數(shù)據(jù)，真的更有效

訓練完成之后，要和其他網(wǎng)絡比一場。那么，先用肉眼評判一下。

一道題目是，限時段停車的指示牌：

△ 左下是低清輸入，右下是Ground Truth

比賽結果是 (看不清可以把手機橫過來) ：

主角恢復的文字，比前輩們都要清晰一籌。

如果，你感覺它和ESRGAN的表現(xiàn)差不多，我們來單獨對比一下：

優(yōu)勢還是可見的。

數(shù)據(jù)，也支持了肉眼的判斷：

不論4倍還是8倍變焦，主角的各項指標，都要明顯優(yōu)于其他選手。

上面的數(shù)據(jù)表里，SSIM是結構相似性，PSNR是峰值信噪比，都是和Ground Truth相比，越大越好。

LPIPS是一個新近提出的指標，是用一個預訓練的網(wǎng)絡，來測量圖像之間的感知相似度 (Perceptual Image Similarity) ，越小越好。

打敗了對手之后，團隊又用人工合成的傳感器數(shù)據(jù) (C) ，以及8位RGB圖像 (B) ，分別訓練了一下自家的模型，看原始數(shù)據(jù)(D) 訓練的模型是不是真比它們更優(yōu)秀。

其中一道題目，是40米之外的馬里奧：

左是用合成數(shù)據(jù)訓練的，右是用原始數(shù)據(jù)訓練的：

原始數(shù)據(jù)的訓練之下，畫質(zhì)更加美好。

對比一下，這是Ground Truth (來自光學變焦鏡頭，就是單反) ：

各項指標也認為，投喂原始數(shù)據(jù)的模型表現(xiàn)更出色：

△ Ours-syn-raw=合成數(shù)據(jù)訓練后，Ours=原始數(shù)據(jù)訓練后

不過，合成數(shù)據(jù)上訓練的成果，雖然比不上用原始數(shù)據(jù)養(yǎng)成的模型，但還是比直接用RGB圖像訓練的模型，要爭氣一些。

終究，還是要用原始數(shù)據(jù)訓練的好。

結論令人振奮，但還不是結局。研究人員希望這只用單反傳感器養(yǎng)成的AI，也能適應手機的傳感器。

于是，他們選了iPhone X做小白鼠，用一個小數(shù)據(jù)集微調(diào)了一番。5000次迭代之后，模型在手機上獲得了新生：

實驗室里的人類們

研究團隊，來自伯克利、港科大和英特爾。

一作是來自伯克利的張璇兒，高中畢業(yè)自人大附中，本科畢業(yè)于萊斯大學，如今已是四年級的博士生。

主攻計算機視覺的她，先后在Adobe、Facebook和英特爾實習過。張璇兒一作且有陳啟峰參與的CVPR論文，已經(jīng)不止一篇了。

比如，這項畫風綺麗的研究成果，可以去除照片上的“鬼影”。

二作，大家可能比較熟悉了。

陳啟峰，1989年生，高中獲得IOI金牌，本科就讀于香港科技大學。在密大交換期間獲得過全球ACM總決賽的亞軍 (北美第一) 。

2012年，陳啟峰獲得了包括斯坦福、哈佛、MIT在內(nèi)9所學校的PhD錄取信，最終選擇了斯坦福。

2017年博士畢業(yè)，2018年便成了港科大的助理教授。2018年他獲得Google Faculty Research Award，被麻省理工評論選為中國35歲以下科技創(chuàng)新35人。

三作吳義仁 (Ren Ng) ，伯克利的助理教授，張璇兒便是在他的實驗室里做研究。

吳教授出生在馬來西亞，8歲移民澳大利亞。2006年斯坦福大學博士畢業(yè)，還獲得了當年ACM的博士論文獎。

他的主要研究方向是數(shù)字光場攝影技術，還創(chuàng)辦了光場相機公司Lytro，把這項技術引入消費級電子產(chǎn)品。

四作是Vladlen Koltun，來自英特爾的資深科研主管，是智能系統(tǒng)實驗室Intelligent Systems Lab的負責人。張璇兒和陳啟峰，都曾經(jīng)在他的實驗室里工作過。

One More Thing

要是你既買不起P30 Pro，又不會訓練深度學習模型，別擔心，還可以直接上望遠鏡。

貼心的量子位，替你找到了這個：

咦，你怎么用了品如的望遠鏡？

買不起P30 Pro，我的舊iPhone能當望遠鏡么？陳啟峰團隊CVPR論文

買不起P30 Pro，我的舊iPhone能當望遠鏡么？陳啟峰團隊CVPR論文