花栗子 郭一璞 發(fā)自 凹非寺量子位 報道 | 公眾號 QbitAI
華為“單反”P30 Pro,從遠處拍到的埃菲爾鐵塔,連設計師們的名字都看得清。
這樣的變焦技能,奢侈到讓人心生嫉妒。
不過現(xiàn)在,就算不是P30 Pro,沒有徠卡四攝,沒有4,000萬像素,只靠深度學習,iPhone也可以把50米之外的細節(jié),拍得清楚明白。
比如,你在街上走著,望到了對面的店鋪,墻邊立著像梯子一樣的東西:
這時候,如果用普通的數(shù)碼變焦拍一張?zhí)貙?,約等于自暴自棄:
那么,讓超分辨率的大前輩ESRGAN試一下。
還是有些力不從心:
是時候展現(xiàn)真正的技術了。
主角出場,超進化的數(shù)碼變焦:
原來它長這樣啊。每一道銀色的線條,都堅定地橫在畫面上,沒有被黑暗的背景消融掉,細節(jié)比前輩生成的清晰許多。
走著走著,又看到了20米以外的小幅海報,上面細小的網(wǎng)址,不用走過去拍也能看清:
這只眼力上佳的AI,微調(diào)一波之后,已經(jīng)在iPhone X的相機上測試可用。
論文還中了CVPR 2019。作者有四位,一作是伯克利的博士生張璇兒,二作是港科大的助理教授陳啟峰。
團隊說關鍵在于,不能只用RGB圖像數(shù)據(jù)來訓練,要用原始數(shù)據(jù)。
不一樣的數(shù)據(jù)集
在超分辨率的世界里,有些標準操作,大家已經(jīng)習以為常。
卻沒發(fā)現(xiàn),原本常用的數(shù)據(jù)集,帶來了兩個嚴重的問題。
第一,因為神經(jīng)網(wǎng)絡需要成對的圖片,一張高分辨率一張低分辨率,來解鎖從低清里恢復高清的技能。通常的做法是,對高清圖片做降采樣(Downsampling) ,得到對應的那張低清圖片。
降采樣,會間接減少圖像的噪點。
而超分辨率通常是要把遠處的物體放大,離鏡頭越遠的物體,它所在的區(qū)域噪點會越多,因為進入光圈的光子少了。
這樣說來,用降采樣炮制的數(shù)據(jù),不太適合拿來訓練超分辨率的技能。
第二,現(xiàn)有的大多數(shù)方法,都是直接用8位RGB圖像當訓練數(shù)據(jù)的。
但RGB圖像,不是攝像頭的原始數(shù)據(jù) (Raw Sensor Data) ,是圖像信號處理器 (ISP) 加工過的。
這加工步驟會損失一些高頻信號,其中一個目的也是降噪。
相比之下,原始數(shù)據(jù) (12-14位) 保留了這些高頻信號,可能對恢復圖像質(zhì)量有幫助:
總結一下,一要拋棄降采樣,二要用原始數(shù)據(jù)來訓練。于是,研究人員拿起了單反,用光學變焦鏡頭去拍成對的照片。
簡單來說,短焦拍下低分辨率圖像,長焦拍下高分辨率圖像。
復雜一點說,24-240毫米的變焦鏡頭,可以拍出許多種不同焦距的照片。對畫面上的一個物體來說,就是不同的分辨率了:
任意兩張圖像,只要分辨率不同,都可以組成一對。
SR-RAW數(shù)據(jù)集就這樣誕生了。每張圖像都是原味,低清不是由高清粗暴轉(zhuǎn)化得來,原始數(shù)據(jù)也都在。
訓練的時候,是用低清照片的原始數(shù)據(jù),加上高清照片的8位RGB圖:高清是低清的Ground Truth。
那么,是不是有了數(shù)據(jù)集,就得到了天下?
還差一點:
圖像對不齊怎么辦
訓練超分辨率,首先需要圖像對齊(Alignment) 。就是把低清圖像的每一個像素點,和高清圖像里的像素點對應起來。
因為高清和低清圖像,是在同一枚鏡頭的不同配置下拍攝的,對齊的時候會出現(xiàn)不可避免的問題。
比如,透視問題。調(diào)了焦,物體之間的距離變了,很難對齊了:
比如,景深問題。調(diào)了焦,物體和背景之間的距離也變了,更難對齊了:
另外,高清圖像里面,物體邊緣會更加鋒利,而低清圖像里的邊界比較模糊,原本就很難對齊。
于是,團隊提出了一種新的損失函數(shù),叫做CoBi。
這個損失,是在去年發(fā)表的Contextual Loss(簡稱CX) 基礎上進化而生。
CX可以解決圖像不對齊的問題,卻不考慮圖像的空間特征,在執(zhí)行超分辨率任務的時候會出現(xiàn)重大的瑕疵 (下圖B) :
△ 左起:CoBi訓練成果、Ground Truth
所以,CoBi比CX多加了一項有關空間坐標的損失。這樣,便可以訓練出優(yōu)秀的超分辨率網(wǎng)絡了。
原始數(shù)據(jù),真的更有效
訓練完成之后,要和其他網(wǎng)絡比一場。那么,先用肉眼評判一下。
一道題目是,限時段停車的指示牌:
△ 左下是低清輸入,右下是Ground Truth
比賽結果是 (看不清可以把手機橫過來) :
主角恢復的文字,比前輩們都要清晰一籌。
如果,你感覺它和ESRGAN的表現(xiàn)差不多,我們來單獨對比一下:
優(yōu)勢還是可見的。
數(shù)據(jù),也支持了肉眼的判斷:
不論4倍還是8倍變焦,主角的各項指標,都要明顯優(yōu)于其他選手。
上面的數(shù)據(jù)表里,SSIM是結構相似性,PSNR是峰值信噪比,都是和Ground Truth相比,越大越好。
LPIPS是一個新近提出的指標,是用一個預訓練的網(wǎng)絡,來測量圖像之間的感知相似度 (Perceptual Image Similarity) ,越小越好。
打敗了對手之后,團隊又用人工合成的傳感器數(shù)據(jù) (C) ,以及8位RGB圖像 (B) ,分別訓練了一下自家的模型,看原始數(shù)據(jù)(D) 訓練的模型是不是真比它們更優(yōu)秀。
其中一道題目,是40米之外的馬里奧:
左是用合成數(shù)據(jù)訓練的,右是用原始數(shù)據(jù)訓練的:
原始數(shù)據(jù)的訓練之下,畫質(zhì)更加美好。
對比一下,這是Ground Truth (來自光學變焦鏡頭,就是單反) :
各項指標也認為,投喂原始數(shù)據(jù)的模型表現(xiàn)更出色:
△ Ours-syn-raw=合成數(shù)據(jù)訓練后,Ours=原始數(shù)據(jù)訓練后
不過,合成數(shù)據(jù)上訓練的成果,雖然比不上用原始數(shù)據(jù)養(yǎng)成的模型,但還是比直接用RGB圖像訓練的模型,要爭氣一些。
終究,還是要用原始數(shù)據(jù)訓練的好。
結論令人振奮,但還不是結局。研究人員希望這只用單反傳感器養(yǎng)成的AI,也能適應手機的傳感器。
于是,他們選了iPhone X做小白鼠,用一個小數(shù)據(jù)集微調(diào)了一番。5000次迭代之后,模型在手機上獲得了新生:
實驗室里的人類們
研究團隊,來自伯克利、港科大和英特爾。
一作是來自伯克利的張璇兒,高中畢業(yè)自人大附中,本科畢業(yè)于萊斯大學,如今已是四年級的博士生。
主攻計算機視覺的她,先后在Adobe、Facebook和英特爾實習過。張璇兒一作且有陳啟峰參與的CVPR論文,已經(jīng)不止一篇了。
比如,這項畫風綺麗的研究成果,可以去除照片上的“鬼影”。
二作,大家可能比較熟悉了。
陳啟峰,1989年生,高中獲得IOI金牌,本科就讀于香港科技大學。在密大交換期間獲得過全球ACM總決賽的亞軍 (北美第一) 。
2012年,陳啟峰獲得了包括斯坦福、哈佛、MIT在內(nèi)9所學校的PhD錄取信,最終選擇了斯坦福。
2017年博士畢業(yè),2018年便成了港科大的助理教授。2018年他獲得Google Faculty Research Award,被麻省理工評論選為中國35歲以下科技創(chuàng)新35人。
三作吳義仁 (Ren Ng) ,伯克利的助理教授,張璇兒便是在他的實驗室里做研究。
吳教授出生在馬來西亞,8歲移民澳大利亞。2006年斯坦福大學博士畢業(yè),還獲得了當年ACM的博士論文獎。
他的主要研究方向是數(shù)字光場攝影技術,還創(chuàng)辦了光場相機公司Lytro,把這項技術引入消費級電子產(chǎn)品。
四作是Vladlen Koltun,來自英特爾的資深科研主管,是智能系統(tǒng)實驗室Intelligent Systems Lab的負責人。張璇兒和陳啟峰,都曾經(jīng)在他的實驗室里工作過。
One More Thing
要是你既買不起P30 Pro,又不會訓練深度學習模型,別擔心,還可以直接上望遠鏡。
貼心的量子位,替你找到了這個:
咦,你怎么用了品如的望遠鏡?
評論列表
現(xiàn)代年輕人的情感問題很多,需要這樣的情感咨詢師,很專業(yè)
如果發(fā)信息不回,怎麼辦?