中國教育電視臺
北京大學計算機科學技術研究所
隨著多媒體技術和計算機網絡的迅猛發展,圖像和視頻作為一種重要的多媒體信息載體形式在實際生活中得到越來越廣泛的應用。多樣化的圖像和視頻多媒體應用催生了多元化和個性化的圖像采集與顯示設備。例如,在視頻監控領域,密集型低分辨率視頻監控得到了大量應用;在多媒體通訊領域,隨著Web2.0的興起,集成了攝像頭的手機、PDA等個人手持終端所采集的低質量小尺寸的圖像和視頻逐漸成為一種重要的信息來源;在數字家庭娛樂方面,高清電視正在逐漸取代傳統的標清電視設備成為大眾的主流選擇。在這些不同的多媒體應用中,多數都面臨著同樣的一個問題:如何從質量不高、分辨率較低的圖像信號轉換到具有較好質量、更高分辨率的圖像信號以滿足獲取高分辨率顯示的潛在需求。
中國教育電視臺的基于教育“新媒體”學習超市全民學習平臺—果實網中,為了適應視頻信號在不同終端上的無縫鏈接發布,使用了圖像分辨率增強技術,本文對圖像分辨率增強技術進行簡要地介紹。
一.圖像分辨率增強的必要性
在數字圖像的采集與處理過程中,存在著許多因素導致圖像分辨率的下降。例如光學成像系統中由于受到光學衍射的影響導致高頻信息丟失,導致圖像發生模糊。此外,在成像、傳輸和存儲過程中,會引入不同類型的噪聲,也會直接影響圖像分辨率的下降。從應用需求的角度來看,消費者對具有高分辨率的清晰圖像有著較大的需求。例如,將家用照相機中拍攝相片的分辨率放大用來大尺寸的高清打印,視頻監控錄像中對感興趣區域的放大顯示等。因此,對于具有較高分辨率需求的應用場合,亟需尋求更多有效的方法來突破當前成像系統的分辨率極限限制以及消除圖像在采集和傳輸過程中的圖像降質,獲得更高分辨率的圖像。
提高圖像分辨率的較為直接的方法是改進傳感器制作工藝,減少像素的大小,從而實現空間分辨率的增強(即增加每單位面積內的像素個數),但由于減少了有效采光的能力而容易產生散粒效應從而嚴重地降低圖像質量。此外,傳感器的制造工藝已經幾乎達到了極限,例如在0.35μm的CMOS水平下,一個像素的面積為40μm2,已經難以進一步減小。最后,以硬件升級方式提高圖像空間分辨率的做法其技術成本十分昂貴,極大地限制了該方法在實際情況中的應用。
因此,基于信號處理的軟件技術來提高圖像空間分辨率的技術得到了廣泛地研究。這種技術被稱作是分辨率增強(Resolution enhancement, RE)或超分辨率圖像重建(Super resolution reconstruction, SRR)。圖像分辨率增強是目前信號處理領域中最為活躍的研究方向之一。它通過將輸入的低分辨率圖像中的高頻細節復原,產生一幅接近退化前的理想高分辨率圖像,從而達到提高圖像分辨率的目標。這種方法的優點是不涉及硬件,成本相對較低,并且可以在諸多應用中重復再利用已有成像系統,因此是一種較為經濟的過渡方案。
二.分辨率增強方法分類
分辨率增強是一種將輸入的低分辨率圖像(或圖像序列)進行處理,已獲得具有更高分辨率大小的圖像輸出的軟件技術。由于輸入的低分辨率圖像(圖像序列)中已經丟失了所要恢復的高分辨率圖像中的大部分高頻信息,因此為了進行分辨率增強處理,需要對丟失的高頻細節信息進行合理的建模和預測。預測高頻細節的信息來源主要包括三個方面,分別是高分辨率圖像特征的先驗知識、具有互補信息的低分辨率圖像序列以及通過大量樣本學習得到的具有高-低分辨率圖像特征間對應關系的數據庫,如圖1所示。根據這三個方面的信息來源,可以將圖像分辨率增強方法大致分為三類,分別為基于插值的方法、基于多幀圖像融合的方法和基于學習的方法。

圖 1 圖像分辨率增強中的高頻預測信息的主要來源
三.基于插值的分辨率增強
基于插值的分辨率增強方法通常在無法獲得更多關于高分辨率圖像高頻細節信息的情況下,利用已知的圖像先驗知識(如圖像平滑性、邊緣方向連續性等)對高分辨率圖像中未知像素點進行估計重建。在這個過程中,主要采用的技術手段是圖像插值,相關方法可以大致分為傳統插值方法和邊緣自適應插值方法兩類。
1.傳統插值方法
傳統插值方法認為圖像在二維平面空間內具有高階連續性,因而可以根據已有低分辨率圖像的離散規則采樣點對未知高分辨率像素點的值進行預測(也可理解為先重建為連續平滑信號,再進行重采樣的過程)。常見的方法包括最近鄰插值,線性插值和三次卷積插值等。傳統插值方法可以看作是基于核函數(也可稱作基函數)的插值方法,通過選取不同的核函數形式,可以實現不同的傳統插值方法。傳統插值方法在進行圖像放大時通常會在邊緣處產生鋸齒、模糊和振鈴效應。但由于其計算復雜度較低,在實際應用中也得到了廣泛的應用。
2.自適應插值方法
人類視覺系統對于邊緣特征上所產生的圖像瑕疵十分敏感。因此,降低和消除插值圖像的視覺瑕疵并較好地保持圖像邊緣特征對圖像插值方法十分重要。針對傳統插值方法的問題,一些空間自適應的插值算法被相繼提出。這些算法根據圖像局部特征對插值系數進行自適應調整以更好地匹配圖像邊緣結構。根據獲取邊緣特征信息的方式,可以將這些算法分為顯式和隱式兩類方法。
顯式方法的基本思想是將圖像的邊緣特征顯式地表達出來,引導插值過程沿著邊緣方向取得較好的效果[1,2]。顯示提取的邊緣特征包括邊緣圖、等照度線和紋理方向圖等。對于理想邊緣特征,由于邊緣方向信息的檢測十分準確,顯式方法可以取得較好的插值效果。但在實際應用中,低分辨率圖像通常受到噪聲、模糊等多種降質效應的干擾,因此對高分辨率圖像邊緣特征信息的檢測和提取是一項較為困難的工作。
隱式方法可以較好地克服上述顯式方法的問題。其基本思想是對局部圖像鄰域內統計量進行估計,該統計量隱式地包含有邊緣特征信息,從而利用該統計量對圖像插值系數進行自適應調整。代表性方法包括基于馬爾科夫隨機場的方法[3]和基于協方差的方法[4]等。
3.基于插值方法的局限性
如前所述,基于插值的方法在進行分辨率增強的過程中,由于所能獲取的信息或者計算復雜度要求所限,僅能夠依靠一些高分辨率圖像通用先驗模型來引導插值過程完成分辨率的轉換,因此在恢復圖像的高頻細節的性能表現方面,往往不能取得較為滿意的效果,尤其是當圖像放大倍數較大(例如四倍放大)時容易產生過于模糊和平滑的現象。為了實現更好的分辨率增強效果,需要提供更多的額外信息來指導高頻細節的預測和建模,這方面的工作將在后續章節中進行介紹,主要包括基于多幀圖像融合的方法和基于學習的方法兩大類。
四.基于多幀圖像融合的分辨率增強
基于多幀圖像融合的方法的技術思路是將輸入低分辨率圖像序列所包含的互補信息進行融合,從而恢復得到高分辨率圖像中所應包含的高頻細節信息。基于多幀圖像融合的超分辨率重建的基本框圖如圖2所示,從圖中可以看出,基于多幀圖像融合的方法能夠成功的一個基本前提是可以獲得關于相同場景的不同角度或不同時刻的序列圖像。這些低分辨率圖像間具有亞像素尺度的偏移,從而為實現分辨率增強(高頻信息預測)提供了可能。從處理的對象域上可以將基于多幀融合的方法分為頻域處理方法和空域處理方法兩大類。

圖 2 基于多幀圖像融合的方法示意圖
頻域方法最早是由Tsai和Thomas Huang[5]于1984年提出,其基本思想是將低分辨率圖像的離散傅里葉變換(DFTs)與待估計的高分辨率圖像的連續傅里葉變換(CFT)的系數進行關聯,在假設所要估計的高分辨率圖像為帶限信號的情況下,根據傅里葉變換的平移特性以及CFT和DFTs之間的頻譜混疊關系建立一個聯立的系統方程進行求解,最終求得CFT系數,通過反變換得到高分辨率圖像信號。頻域方法理論直觀簡單,可并行加速計算,但是僅能處理圖像間具有全局平移運動和線性空間不變模糊的情況。
空域方法是在圖像空間域進行處理的算法。相比頻域方法,空域方法具有較好的靈活性和適應性。最重要的一點是空域方法可以結合較好的空域圖像先驗知識來對圖像重建的結果進行約束和增強。代表性的方法包括非均勻插值,迭代反向投影法,凸集投影法(POCS)[6]和基于最大后驗估計法(MAP)[7]等。由于處理的圖像信號維度往往較大,因此在具體求解過程中,空域方法的計算復雜度相對較高。
五.基于學習的分辨率增強
近年來,基于模式匹配和機器學習的圖像分辨率增強方法逐漸興起,得到較為廣泛地關注。基于學習的方法的提出主要是針對輸入信息十分有限的情況下(甚至僅有一張低分辨率圖像作為輸入)來獲得較為理想的高分辨率圖像,取得分辨率增強的效果。在這種情況下,上述基于多幀圖像融合的方法的性能迅速下降,尤其是在圖像放大倍數較大的情況下。而基于學習的方法則充分利用了自然圖像中包含著大量的重復和冗余結構這一重要的特性,利用學習的手段來捕獲不同分辨率間的特征對應關系,從而能夠根據輸入的中低頻信息通過模式匹配搜索的方式來尋找到最佳的高頻信息預測。基于學習的方法的基本框架圖如圖3所示。

圖 3 基于學習的方法的基本框架
基于學習的分辨率增強方法最早由Freeman等人[8]提出。在Freeman等人的方法中,由于直接根據圖像塊間的相似匹配來進行細節復原,因此需要提供足夠大的樣本集來保證這種相似匹配關系的存在性。隨后,常虹等人[9]借鑒了機器學習領域的鄰域嵌入思想,提出了一種簡單有效的方法,極大地降低了對樣本集容量的需求。這種方法認為圖像塊在其特征空間上的局部鄰域關系在不同分辨率層次上保持一致。因此通過找到低分辨率圖像塊間的鄰域關系,將其映射至高分辨率圖像塊間,通過線性組合來得到高分辨率圖像。近年來,信號的稀疏冗余表示理論取得了較大的進展。Yang等人[10]將信號稀疏表示理論引入到圖像分辨率增強領域中,取得了較好的效果。根據壓縮感知理論,Yang等人認為高分辨率圖像塊可以較為稀疏地由一組預先訓練好的冗余字典中的元素通過線性組合進行重建,而這個元素間的線性關系可以較好地由低分辨率圖像塊和對應的字典進行恢復。
總體來講,基于學習的方法的優勢主要在于計算速度較快,但也有其自身的缺點,例如圖像放大倍數與圖像數據庫的訓練過程相對應,無法自適應地改變。此外, 基于學習的方法十分依賴樣本庫的選擇, 目前還沒有相關理論來進行指導。
六.結束語
圖像分辨率增強技術提供了一種從低分辨率圖像源到高分辨率輸出的轉換方案。目前,圖像分辨率增強技術的應用十分廣泛,在醫學成像、衛星成像以及視頻監控領域中均發揮著十分重要的作用。而在新一代的視頻編碼標準研究中,分辨率增強技術已經開始成為編碼器中重要的一個部分。同時,圖像分辨率增強技術仍存在著許多需要解決的問題,對圖像分辨率增強技術的進一步研究必將導致這一理論和技術擴寬到更多的新的應用領域,為圖像分辨率增強技術研究帶來新的活力與挑戰。B&P
參考文獻
[1] K. Jensen, D. Anastassiou. Subpixel edge localization and the interpolation of still images[J]. IEEE Trans Image Processing. mar. 1995, 4(3):285-295
[2] Xiaolin Wu, Xiangjun Zhang. Image interpolation using texture orientation map and kernel Fisher discriminant[C]. Image Processing, 2005. ICIP 2005. IEEE International Conference on. 2005, vol. 1, I-49-52
[3] Min Li, T.Q. Nguyen. Markov Random Field Model-Based Edge-Directed Image Interpolation[J]. IEEE Trans Image Processing. july 2008, 17(7):1121-1128
[4] Xin Li, M.T. Orchard. New edge-directed interpolation[J]. IEEE Trans Image Processing. Oct 2001, 10(10):1521-1527
[5] R. Y. Tsai, T. S. Huang. Multiframe image restoration and registration[J]. Adv Comput Vis Image Process. 1984, 1:317-339
[6] Henry Stark, Peyma Oskoui. High-resolution image recovery from image-plane arrays, using convex projections[J]. J Opt Soc Am A. 1989, 6(11):1715-1726
[7] R.R. Schultz, R.L. Stevenson. Extraction of high-resolution frames from video sequences[J]. IEEE Trans Image Processing. jun 1996, 5(6):996 -1011
[8] W.T. Freeman, E.C. Pasztor. Learning low-level vision[C]. Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on. 1999, vol. 2, 1182-1189 vol.2
[9] Hong Chang, Dit-Yan Yeung, Yimin Xiong. Super-resolution through neighbor embedding[C]. Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. 2004, vol. 1, I-275-I-282 Vol.1
[10] J. Yang, J. Wright, T. Huang, Y. Ma. Image Super-Resolution via Sparse Representation[J]. IEEE Trans Image Processing. 2010.