一. 國際音頻編碼技術現狀和發展趨勢
目前,國際運動圖像專家組(MPEG)已經推出了幾種音頻編碼技術。其中MPEG-1(ISO/IEC 11172-3)按照編碼復雜度分三層編碼機制,支持采樣率為32、44.1和48kHz的單聲道(mono)及雙聲道(stereo或Dual mono)編碼。第3層(MP3)在對雙聲道立體聲編碼時,在128kb/s對絕大多數音樂編碼可達到接近CD的音質效果,成為網絡音樂和便攜電子設備的首選標準。MPEG-2 BC(ISO/IEC 13818-3)則是對MPEG-1的向后兼容多聲道擴展方案,并增加了一個“低頻效果”聲道從而提升至5.1個聲道編碼,且支持16、22.5和24kHz采樣音頻信號編碼。標志MPEG的最高技術水平的MPEG-2 Advanced Audio Coding(ISO/IEC 13818-7 AAC)在采樣率為8~96kHz下提供了1~48個聲道可選范圍的高質量音頻編碼。它適用于從比特率在8kb/s單聲道的電話音質到160kb/s多聲道高質量音頻編碼。用AAC對單聲道音頻編碼,在64kb/s下對絕大多數音樂編碼可達到接近CD的音質效果。因此和MP3的單聲道96kb/s相比,編碼效率已經有了很大提高,被認為是下一代音頻編碼標準。
在多聲道環繞立體聲編碼方面,美國杜比實驗室的AC-3提供對32、44.1和48kHz采樣,從單聲道到5.1環繞立體聲的音頻信號的編碼,并支持碼率范圍從32kb/s的單聲道碼流到640kb/s的多聲道高質量音頻碼流。目前,Dolby AC-3已經憑借其良好的聲場和聲像重現能力,贏得了電影、家庭影院、DVD和數字電視伴音等領域的廣泛應用,成為事實上的國際標準。
其他優秀的音頻編碼技術,如索尼的ATARC、貝爾實驗室的PAC和微軟的WMA等,都獲得了相當廣泛的應用。
目前,從國際數字音頻應用的發展來看,數字音頻編碼技術已經在互聯網、廣播、個人消費電子產品和數字影視等領域獲得了廣泛的應用,隨著3G技術的興起,正在進入移動通信領域。因此,新一代的數字音頻編碼技術在傳輸的可靠性、對帶寬的要求和版權的安全性等方面的要求更高。
二. 國內音頻編碼技術現狀
中國在數字音頻編碼領域起步較晚,目前已經開展數字音頻編碼技術研究的大學有清華大學、天津大學、西安電子科技大學、哈爾濱工業大學、華南理工大學、東南大學和北京郵電大學等,還沒獲得較成熟和完整的成果。
三. 阜國音頻編碼技術
阜國的音頻壓縮技術始于公司成立之初(2000年3月),并作為“新一代高密度數字激光視盤系統EVD”項目中的子課題,經過了起步、發展和成熟幾個階段,目前已經申請了近二十項核心專利技術。這些專利已經形成了一套高效的、自主知識產權的基于多分辨率分析的音頻編碼技術方案EAC,在2001年7月江蘇省電子產品監督檢驗所組織的主觀音質評價實驗中獲得了與會專家的高度的評價。
目前,EAC編碼技術可以提供單聲道、雙聲道立體聲、5.1環繞立體聲、多采樣率和多碼率下的編解碼方案,編碼效率進一步提高,并已經成為EVD規范的音頻編碼技術標準。
為了進一步提高編碼效率,特別是在極低碼率下的音頻質量,在自主研發的同時,我們也加強了和國外掌握最先進音頻編碼技術企業的技術合作。經過長期的技術合作,北京阜國數字技術有限公司將和擁有世界最先進水平帶寬擴展技術的瑞典-德國Coding Technologies公司成立合資企業,共同開發并推廣EAC Plus技術。EAC Plus技術將在EAC技術基礎上,進一步提高中國的音頻編碼技術水平,使中國音頻編碼技術達到國際領先水平。
四. 阜國數字技術參與AVS標準化
作為國內為數不多的從事音頻編碼技術研究的單位之一,北京阜國公司音頻實驗室積極組織、參與和配合AVS的音頻編碼標準化工作。在AVS技術提案征集過程中,北京阜國數字技術有限公司提出兩項技術提案,分別是“基于時域信號處理和多分辨率濾波的音頻編碼技術框架”以及基于EAC和高頻耦合的環繞立體聲編碼技術EAC5,前者力爭成為音頻編碼標準的框架基本組成部分,后者提供一種和AC-3競爭的環繞聲編碼解決方案。
五. EAC的技術特點
我們知道,音頻編碼技術分可以從很多角度去分類:有損和無損、波形和參數、窄帶和寬帶,以及恒定碼率和變率等等。但是,音頻編碼所處理的信號類型可以簡單的分成兩類:緩變成分和瞬變成分。當然,從模型的角度可分成弦類成分、瞬變成分和噪聲成分,由于我們目前集中于波形編碼技術研究,故不做如此劃分。可以說,所有的波形編碼技術都在努力尋求在一種對緩變成分和瞬變成分都有盡可能高的效率的編碼技術,同時保證可以接受的編碼復雜度。問題的原因在于人耳對不同信號的聽覺特性。雖然從理論上講,人耳對信號的響應是非常復雜的生理和心理問題,但在編碼的過程中,突出的體現為兩個矛盾。對緩變成分,人耳響應的頻率分辨率較高,而時間分辨率較低;對瞬變成分則表現為較低的頻率分辨率和較高的時域分辨率;且這種特性隨信號的不同而不同。較高的頻率分辨率對應著較高的編碼效率,但同時有較差的預回聲抑制能力;較高的時間分辨率則有較好的預回聲抑制能力,但編碼效率較低。
EAC在設計和實現的過程中,一直在努力通過一種更自然的處理方式,來處理/編碼各種音頻信號,這是EAC設計的基本技術路線。并具體表現在EAC一直遵循了多分辨率的分析機制,努力追求在一個統一的濾波框架中更高效的編碼各種類型的音頻信號。