技術探索

AI-ISP:基於RAW資訊之圖像生成與強化技術

工業技術研究院 資訊與通訊研究所 陳昭宏 徐銘駿 陳昭偉 蔡文嘉 白炳川 劉志尉 鄭良加 許鈞瓏


利用深度學習技術,可透過端到端學習方式直接將RAW資訊還原出高品質的RGB圖像

 

圖像信號處理器(Image Signal Processor, ISP)是一種需經過手工客製調整的裝置,以用於從CMOS影像感測器的像素信號中產生RGB圖像。為了實現此功能,須利用一系列處理單元來解決因從照相設備所引入的各種偽影,例如像素缺陷、色偏、信號雜訊、摩爾紋效應等約莫十幾道程序。然而,針對每個處理單元進行調整是非常複雜的,而且通常需要圖像領域專家的大量經驗和精力來完成。

本文探討利用深度學習技術,進行端到端方式來學習ISP一系列處理任務,提出了一種兼顧推理速度和圖像生成品質的神經網絡架構(Channel Spatial Attention Network, CSANet)。此提出的CSANet中應用了一種雙重關注力模組(Double Attention Module, DAM),該模組同時引入了通道關注力(channel attention, CA)和空間關注力(spatial attention, SA)2種機制,可強化影像中不同物件的特徵並對物件的細節處做校準。特別的是,針對空間關注力這裡將其設計為輕量化的空洞深度卷積(Dilated Depth-wise Convolution)運算,除了可提升推論速度外並仍可有出色的圖像生成表現。

精彩內容

1. 圖像生成與強化處理流程
2. CSANet模型設計探討
3. 消融測試與成像結果比較

圖像生成與強化處理流程

如今,智慧型手機已經成為人們日常生活中的一部分,如何使手機的拍照質量,盡可能接近或超越專業單眼相機的品質,已成為客戶關注的焦點。眾所周知,經過精心設計和調整的成像演算法,可以為智慧型手機拍攝的圖像帶來具有競爭力的質量,例如像是Google的星空模式、Apple的人像模式,皆為其產品帶來獨門特點。
現今圖像生成的基本流程,首先由鏡頭接收景物的光反射,接著通過彩色濾波陣列(Color Filter Arrays, CFA)投射到CMOS影像感測器上,然後透過將光能轉換為電信號,並經由類比數位轉換器將連續訊號轉換為數位訊號資訊,而此數位訊號資訊通常是由紅、綠、綠、藍4個分量的信息組成棋盤狀影像,俗稱為Bayer Raw原始圖像,之後透過ISP對此Bayer Raw圖像進行後處理,便可產生人類所見之彩色圖像。
其中ISP的圖像後處理程序,是影響彩色圖像輸出是好或壞的關鍵步驟,其基本流程可達約莫十幾道程序,例如去噪、白平衡、曝光校正、去馬賽克、色彩變換、伽馬編碼……等。傳統上,每個處理單元皆是以標準範本圖片獨立進行開發、測試,需耗費圖像領域專家的大量經驗和時間透用啟發式的方法進行繁瑣的參數調整來完成,此外實際ISP運作時,必須依賴整條流水線程序進行處理,因此一旦某個處理單元的參數配置有了微小變化,便會導致不同品質的RGB圖像生成。
隨著硬體方面在運算力與記憶體上的推進,以及深度學習應用於計算機視覺、圖形和計算攝影在內的幾個研究領域取得了重大進展,使得透過深度神經網路(DNN)取代ISP處理程序的想法因應而生[1]。如圖1所示,透過端到端的方式來學習ISP一系列處理任務,並利用該模型產生高品質的RGB圖像,將可有效減少人們需要投入的大量經驗和時間在各處理單元的參數調整上,並吸引消費者的目光。

 


圖1 基於DNN模型取代ISP之圖像處理程序

CSANet模型設計探討

為了透過DNN模型來取代ISP任務以產生高品質圖像,同時考慮模型後續將部署至手機晶片上進行推論的使用情境,本研究發展了一種兼顧圖像生成品質和推論速度的神經網絡架構CSANet。如圖2所示,其訓練方式是利用手機相機上所獲得的Bayer Raw原始圖像作為模型的輸入,並以Fujifilm GFX100單眼相機的高品質RGB圖像作為標準答案,以此要求模型學習產生相同品質的RGB圖像。其最終模型成像的結果,相較單眼相機圖片可達PSNR=23.7dB(評量兩張圖間的像素誤差比)、SSIM=0.85dB(基於圖像間的亮度、對比、結構進行計算,該指標較貼近人眼觀看感覺)之效果,並可在聯發科的天璣1000+平台上達到生成一張圖像僅需90.8ms的推論時間。底下將針對CSANet的結構設計進行細部說明。

 


圖2 CSANet網路結構與模型訓練方式

CSANet主要結構設計說明

如圖2所示,整體的CSANet結構主要由3個部分所組成,首先為了減少運算量,模型第一部分的設計策略是考慮將輸入之Bayer Raw圖像進行下採樣處理,這裡串聯使用2個帶有激活函數為relu的卷積層,以縮減一半輸入IRAW的圖像尺寸並執行特徵值提取。第二部分著重在強化影像空間中的各個物件,並突顯各特徵圖中物件的細節,這裡串聯使用2級帶有殘差連接[2]的DAM來實現此功能,而採用殘差連接的意義不僅避免梯度消失之問題,還可保持不同模塊所學習到的特徵圖之相似性,最終DAM的輸出再經過1個卷積層,並與原始特徵圖進行合併後輸出。第三部分則負責處理圖像放大與還原之功能,這裡使用轉置卷積(convolution transpose)和深度轉空間模塊(depth to space)將特徵圖放大到目標圖像尺寸,最後再利用1個帶有激活函數為sigmoid的卷積層來輸出RGB圖像。

 

雙重關注力模組設計說明

如圖3所示,整個DAM的結構設計靈感來自文獻[3]所述,首先通過2個卷積層獲得特徵圖,接著透過並聯使用通道關注力與空間關注力兩種機制,藉此自我學習如何強化特徵圖中不同物件的特徵以及對各物件的細節處做校準,最終將兩邊的關注力結果進行合併後,再經過1個卷積層輸出。

通道關注力
該模組起源於文獻[4],主要利用squeeze-excite運算來自適應完成在通道維度上,對原始特徵圖進行強化重要或抑制不重要的物件特徵,其中squeeze運算的實現是透過計算特徵圖中各通道間的平均值,藉以將全域性空間資訊壓縮為各通道的特徵響應值 ,接著再由excite運算利用2個分別帶有激活函數為relu與sigmoid的卷積層來校準出新的權重比例 ,最終再由校準後的權重比例與輸入特徵圖進行相乘以獲得通道關注力的輸出。

空間關注力
該模組主要用來強化原始特徵圖中關鍵區域的部分,概念上是將輸入特徵圖中的空間信息通過空間轉換模組後,藉以對每個像素位置生成加權值,之後再對原始特徵圖進行加權後輸出,從而增強感興趣的特定目標區域並弱化不相關的背景區域。這裡嘗試使用1個帶有激活函數為sigmoid的5x5空洞深度卷積作為空間轉換模組,以對各像素產生其權重比例 ,最終再由該權重比例與輸入特徵圖進行相乘以獲得空間關注力的輸出。

 


圖3 DAM細部設計結構

消融測試與成像結果比較

為了剖析所提出之DAM結構可有效兼顧圖像生成品質和推論速度性能,底下透過消融實驗進行測試。如圖4所示,這裡提出4種DAM變型結構進行比較,其所有變型結構均使用相同超參數進行訓練,並在基於MAI 2021 Learned Smartphone ISP Challenge 的驗證數據集上進行測試。作為基礎的比較對象,這裡的ResBlock*4是串聯使用4個3×3殘差結構來代替2個串聯的DAM結構,而結果如圖4所見,僅只保留通道關注力的結構(only CA),其PSNR指標可等效於4個殘差結構。而若添加空間關注力組成DAM結構後,其PSNR指標相較只保留通道關注力的結構可再提高約0.43dB,且運行時間則比ResBlock*4只增加約1ms。因此,最終的CSANet決定採用串聯2個DAM結構來建立,以此達到圖像生成品質與運行速度上的平衡。


圖4 DAM結構之消融實驗比較

實際成像結果如圖5所示,以人眼感覺來說大體上各圖像的色澤均可將Bayer Raw恢復到RGB圖像。而從細節處來看,所提出的方法在圖像紋路上會模糊一些,雖然缺乏直接的實驗證據,但這可能是由於CSANet的第一部分設計對提取特徵圖的尺寸急劇縮小所致。有趣的是,在某些情況下CSANet傾向於「修復」輸入Bayer Raw中的物件,例如,仔細觀察第四列單眼相機所拍攝出的圖像中,右下方牆壁上有一條彎曲的水管,然而CSANet卻將這條水管修復為一條直線。再例如,第五列單眼相機所拍攝的圖像中,箭頭號誌的左下方有斷裂的情況,同時圖的左下角“Adam Touring”招牌字樣被部分遮擋,然而,CSANet所還原出的RGB圖像卻修復了箭頭號誌的角落,並將缺失的招牌字樣補足回來。這種行為可能是由於模型從訓練數據集中學習到許多正常的相似物件,因此,當遇到這種罕見的圖像時,模型傾向於修改圖中內容以降低其預測損失。從正確還原RGB圖像的目標來看,這種不必要的修復或許是需要進一步改進的缺點,然而,這也為其他可能的應用帶來了新的契機。


圖5 CSANet與單眼相機之成像結果比較

最終,關於CSANet與相關RAW to RGB研究之比較,可參考CVPR 2021 Mobile AI Workshop所舉辦的Learned Smartphone ISP競賽[5],該競賽目標要求參賽者將Sony IMX586影像感測器上所採集到的Bayer Raw原始圖像,透過深度學習模型來產生像Fujifilm GFX100單眼相機所拍攝的RGB圖像,同時該模型必須可在聯發科天璣1000+平台上進行推論,且推論時間需小於200ms,否則將予以扣分。而本研究之CSANet在該競賽中順利榮獲第二名佳績,其PSNR指標更為最佳之成績(如圖6所示)。


圖6 MAI 2021 - Learned Smartphone ISP競賽成績

結論

ISP的圖像後處理程序是影響圖像輸出品質的關鍵主因,其基本流程可達約莫十幾道程序,且各程序經常需耗費圖像領域專家的大量經驗和時間進行繁瑣的參數調整來完成。本文探討利用深度學習技術,進行端到端方式來學習ISP一系列處理任務,提出了一種兼顧推理速度和圖像生成品質的神經網絡架構CSANet,其最終模型成像的結果,相較單眼相機圖片,可達PSNR=23.7dB、SSIM=0.85dB之效果,並可在聯發科的天璣1000+平台上達到生成一張圖像僅需90.8ms的推論時間,同時該研究成果也在MAI 2021 - Learned Smartphone ISP競賽中榮獲第二名佳績。

參考資料

[1] Andrey Ignatov, etc., “DSLR-Quality photos on mobile devices with deep convolutional networks”. In Proceedings of the IEEE International Conference on Computer Vision(ICCV), pages 3277–3285, 2017.
[2] Kaiming He, etc., “Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR), pages 770–778, 2016.
[3] Sanghyun Woo, etc., “CBAM: Convolutional block attention module. In Proceedings of the European conference on computer vision(ECCV), pages 3–19, 2018.
[4] Syed Waqas Zamir, etc., “CycleISP: Real image restoration via improved data synthesis. In Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR), pages 2696–2705, 2020.
[5] Andrey Ignatov, etc., “Learned smartphone isp on mobile npus with deep learning, mobile ai 2021 challenge: Report. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops(CVPRW), pages 0–0, 2021.