一.數字音頻編碼技術概述
聲音的傳播是以波的形式進行的,在物理學的角度是一種能量。在電聲領域,發生設備在拾音、傳輸、放音的環節其實就是能量的轉換,聲音在拾音設備中從振動的聲音能量轉換為電能,電能傳輸至放音設備,從電能轉換為振動的聲能傳輸至我們人耳中,這是從能量角度的理解。從信息的角度理解,聲音就是一種信源,而信源傳遞的信息可以理解為一系列的變化,因此在拾音環節,可以將聲音理解為聲的變化轉換為電的變化,在放音環節,則可以理解為將電的變化轉換為聲的變化。在上世紀八九十年代,聲音和電的轉換和傳輸時以模擬信號為基礎進行的,所謂模擬信號,就是通過一個感應設備,實時感應聲的變化,實時轉換為電的變化,實時傳輸,實時將電的變化轉換為聲的變化。以上的過程是連續的,其優勢在于,可以完整的采集、傳輸、還原音頻的信號的變化,沒有信息的遺漏,完整還原;但是其也有天然的劣勢,那就是在傳輸過程中,信息難免會有損失,因為整個拾音、傳輸、放音是一個連續的過程,所以只要一有損失或干擾,聽眾就會有很直觀的感受;這個缺點同時也存在于音頻存儲過程。所以模擬音頻的缺點在于,抗干擾能力差。因此后續的技術在聲音的傳輸之前和之后各加入了一個環節,即數模轉換和模數轉換,因此前文討論的過程變為拾音-模數轉換-傳輸-數模轉換-放音,這個過程的作用是將模擬信號轉換為數字信號,這其中已經涉及了音頻編碼,加入這兩個環節的優點在于數字信號是不連續的、而且是電壓值得判斷,可以承受一定的損失,抗干擾能力強。隨著網絡技術的發展,音頻開始在網絡中傳輸,這又產生了新的問題,傳統的數字信號在網絡中傳輸占用很大的帶寬,為了解決這個問題,產生了一系列壓縮編碼技術,將音頻中的冗余信息去掉,減少了數據量,使音頻信號可以在網絡中傳輸。本文以下要討論音頻的數模轉換過程,和音頻壓縮編碼的原理,對比目前主流的音頻編碼技術,探討在廣電領域中音頻編碼技術的應用。
二.音頻壓縮編碼技術探討
模數轉換是將模擬信號轉換為數字信號的過程,該過程分為采樣、量化和編碼三部分。采樣過程是將連續的模擬電信號變為離散的數字電信號的過程,即在1秒內多次記錄模擬電信號的幅度值,形成多個離散的幅度值,1秒內記錄的次數為采樣率,一般廣播信號的采樣率為48kHZ或44.KHZ,即每秒采樣48000次或44100次。采樣后,每個幅度值需要經過量化轉換為可以用數字信號表達的值,量化即對幅度值進行分割,將無限多個幅度信號取值分割為有限個取值。分割完成后,編碼部分就是將分割的幅度值,進行表達,即用二進制的形式記錄每一個經過采樣和量化的幅度值,形成二進制編碼。在量化過程中,對幅度值得分割越精細,二進制編碼中采用的位數越多,一般廣播信號采用24位或者16位的位數記錄音頻信號的幅度值,即經過采樣的音頻信號的幅度值可以有2的24次方或者16次方種表示。以上過程就是模擬信號轉換為數字信號的過程,在聲音播放時,通過逆過程將數字信號轉換為模擬信號進行播放。以上的編碼過程稱為脈沖編碼調制PCM(PulseCodingModulation)技術。可以發現運用該技術對音頻質量有兩個關鍵的影響點,即采樣率和量化位數,采樣率越高、量化位數越多,音頻的本身包含的信息量越多,但同時數據量越大。一般CD音質均用16位的量化編碼,44.1kHZ的采樣率,立體聲聲道,其1s的數據量為44.1k*16*2=1.411M,即1.41Mbit/s,這種數據量在網絡傳輸中會占用較大的帶寬,實用性差,因此后續發展的音頻編碼技術致力于降低音頻中的數據量,為音頻壓縮編碼。
2.音頻編碼技術原理
音頻壓縮編碼分為有損壓縮編碼和無損壓縮編碼。
·無損壓縮編碼
無損壓縮編碼并沒有減少音頻中的信息量,其主要是根據數據的統計學原理,進行數據壓縮,可以完全恢復原始數據。無損音頻壓縮編碼雖然沒有減少信息量,但壓縮比較低,一般可實現1.5:1至3.5比1的比特率壓縮,取決于信息的復雜度。較為常見的無損壓縮編碼有Huffman哈夫曼編碼。其主要統計最頻繁出現的信息,分配這類信息較低的比特;同時分配最不頻繁出現的信息較多的比特,這樣可以減低整個信息的平均碼長,達到數據壓縮的目的。
·有損壓縮編碼
有損壓縮編碼的主要原理是消除音頻中的冗余信息,雖然是冗余信息,但也包含了一定的信息量,因此有損壓縮編碼對音頻有信息損失,壓縮比越高,損失越大。數字音頻信號中的冗余可以分為時域冗余,頻域冗余和聽覺冗余。有損壓縮編碼就是去掉以上冗余信息,實現音頻壓縮的目的。其中時域冗余包括幅度冗余,即小幅度信號針對動態范圍的數據位閑置;也包括時域上相鄰信號間的相似性,可以通過相似信號的差值表達壓縮數據,同時還包括信號周期的相關性。頻域冗余主要表現為功率譜密度的非均勻性,即大部分音頻低頻的能量分布高于高頻的能量分布。聽覺冗余是主要的壓縮依據,其主要原理是通過人耳的聽覺特征,設計心理學模型,去掉音頻中人耳無法感受到的音頻信息,實現音頻壓縮的目的。應用最廣泛的是利用人耳的掩蔽效應,如下圖1所示,人耳掩蔽效應是指在一個頻率上較強的聲音可以掩蓋對其周邊頻率內的聲音,被掩蔽的聲音本來是可聞的,但是由于有掩蔽聲音的存在,變得不可聞。掩蔽聲音對其周邊頻率形成的掩蔽閾值曲線,低于掩蔽曲線下的聲音都被掩蔽,在音頻壓縮中可以去除掉。以上是頻域掩蔽,時域掩蔽是指一個瞬時強音會對其前段時間和后段時間的弱音造成掩蔽,使其不可聞。

大部分低碼率的壓縮算法,充分利用了人耳的掩蔽效應,如子帶編碼。子帶編碼通過濾波器將音頻分為多個子帶,計算每個子帶內的平均聲級和掩蔽聲級,對比心理學模型,確定量化位數,保證量化噪聲不可聞,并將量化比特分配給可聞的音頻。
三.幾種音頻編碼技術分析
所有目前流行的音頻編碼技術主要是在三個方面進行取舍,音頻信息量、壓縮比、計算復雜度。音頻信息量高,就意味著更低的壓縮比,音頻的數據量就大。如果要實現信息量高,同時壓縮比低,就要采取比較復雜的運算過程。隨著計算硬件能力的提升,目前高復雜的運算已經可以短時間內完成,因此高壓縮比而且高保真度的音頻壓縮算法廣泛發展。下文探討目前比較流行的音頻壓縮算法。
·MP3編碼
MPEG編碼為1988年成立的圖像活動專家組開發的,旨在為音頻和視頻開發數據縮減技術,其中MPEG-1分為三層,MP3為MPEG-1的第三層編碼。主要使用ASPEC(AudioSpectralPerceptualEntropyEncoding)自適應譜分析聽覺熵編碼。MP3編碼可以實現10:1到12:1的壓縮比,使用可變換的編解碼器,設計比較復雜,但是可以在較低的碼率下獲得中等的保真度。其普遍的碼率為64Kbit/s,在該碼率下依然能保證高品質傳輸,非常適合網絡傳輸。
MPEG層3使用臨界頻帶濾波器,把聲音頻帶分成非等帶寬的子帶。心理學模型使用頻域遮蔽和時域遮蔽特性,并考慮了立體聲數據的冗余,用哈夫曼編碼進行統計壓縮。其編碼過程為先將一個1152采樣點的寬帶數據塊通過多相濾波器分為32個子帶,每個子帶進行MDCT變換,通過心理學模型進行動態的比特分配,最后通過霍夫曼和游程長度熵編碼通過統計屬性進行數據進一步的無損壓縮。在編碼過程中,幀與幀之間的數據率是可以變化的,通過心理學模型動態進行比特率分配,以此實現較少的比特展現相對飽滿的音質。MPEG層3編碼可以在多種立體聲編碼方法中選擇,可選四種基本模式,包括普通立體聲模式、相互獨立的左右聲道,M/S(Mid/side processing)立體聲模式,對整個頻譜進行M/S編碼;強度立體聲模式,對低頻進行左/右編碼,對高頻區域進行強度編碼。
·AAC編碼
AAC是MPEG-2中基于聲音感知編碼標準。在MPEG-4中也有改進。與MP3相同,主要使用聽覺系統的掩蔽特性來減少聲音的數據量。但各項指標方面更由于MP3編碼。AAC支持8kHz到96kHz采樣頻率,支持5.1聲道編碼,最多可提供48個聲道。壓縮比可達到18:1。在聆聽測試中,320bit/s的多聲道AAC編碼在性能上超過了傳統編碼,基本很難區分還原聲音與原始聲音的區別。
AAC技術使用參考模型結構,該結構定義了各種接口,可以在三種不同的描述文件中進行組合,這種模塊化結構使編碼技術升級變得簡單易行。AAC編碼是MPEG-4標準中編碼高質量音頻工具的核心,并支持無損壓縮編碼。
·AC3編碼
AC3編碼也被稱為杜比編碼。基于感覺編碼設計,設計初衷是應用于商業電影中,因此AC3編碼支持多聲道編碼,支持5.1聲道編碼格式。5.1聲道能以384bit/S進行編碼,壓縮比可以達到13:1.AC3編碼支持32-640kbit/S的多種比特率。編碼器可以解碼出環繞聲、雙聲道立體聲等多種格式。其優勢在于可以將一組多聲道音頻高效率的編碼為單一低比特率音頻流。
四.音頻編碼技術廣電的應用
目前廣播電臺已經實現了數字化的節目制作、播出和傳輸;同時隨著新媒體的發展,網絡化播出節目量快速增長,因此音頻編碼技術在廣播電臺中廣泛應用。
1.音頻編碼技術在廣播電臺中的應用
在音頻制作中,廣播電臺早已經完成了數字化制播,通過音頻工作站進行節目制作,未來可能進一步向云制作過程轉變。音頻工作站制作一般采用無損壓縮格式,如wav格式,采樣率為44.1k,16bit或24bit編碼,立體聲聲道。wav文件數據塊由脈沖調制編碼(PCM)格式組成,其中聲道0代表左聲道,聲道1代表右聲道。wav編碼相對簡單,屬于無損壓縮編碼,作為音頻制作端產出的節目,便于后續的壓縮成文件播出或傳輸。wav文件的缺點是占用存儲空間大,對于多路節目播出的播出工作站來說,是較大的存儲開銷。因此需要進行文件壓縮,目前大部分音頻播出站采用mp3格式進行播出,而且很多廣播電臺音頻素材庫中的音頻也用mp3的形式進行存儲,mp3文件中包含ID3標簽,包含了音頻文件的標題、藝術家、專輯、年份、等種類信息,便于文件的分類存儲和檢索;同時mp3可以實現高品質的音頻壓縮,既保證了小的數據量,同時也保證了相對高質量的音頻播出。隨著網絡技術的發展,以網絡點播、組播的形式進行廣播節目網絡化播出的應用越來越廣泛,網絡播出音頻主要是數據流的傳輸,由路由器進行復制和分發數據,同時實時傳輸協議RTP進行實時數據同步,通過QoS服務保證協議保證傳輸質量,實時流傳輸一些(RSTP)專門進行流傳輸應用,將多媒體的系統開銷降至最低。在信源編碼部分,為了保證小的數據量傳輸,節省網絡帶寬,需要進行信源編碼,在保證音頻解碼質量的前提下降數據量壓縮至最低,應用比較廣泛的音頻編碼有MP3、RM、WMA、AAC等。
音頻編碼在中國國際廣播電臺網絡直播中的應用:國際臺網絡壓縮系統從音頻矩陣取AES3音頻信號,如下圖2所示,傳輸至音頻編碼器進行編碼,編碼后傳輸至服務器提供網絡音頻直播服務。系統連接如圖2所示:

國際臺編碼器采用VIEWCAST公司的移動式編碼設備niagaragostream,實時將AES3音頻信號編碼成MPEG-4AAC音頻格式進行網絡直播,該設備具有簡單的編碼設定頁面和遠程編碼監控頁面,支持平衡、非平衡多種音頻接口,可將單一節目源編碼至不同碼率、不同格式。在實際應用中,綜合節目實際情況和帶寬環境調整碼率,一般對音質要求較高的音樂節目碼率為128kbit/s,普通節目碼率為48kbit/s。
音頻編碼在中國國際廣播電臺傳輸系統中的應用:國際臺傳輸至地球站的傳輸系統通過哈雷編碼器接收切換器輸出的AES3信號,編碼器統一編碼為MPEG-2標準音頻格式,MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結構也相同,但能支持5.1聲道和7.1聲道的環繞立體聲。國際臺大部分節目壓縮碼率為96kb/s,封裝成TS流復用,通過ASI接口進行傳輸。如下圖3所示。

音頻編碼在中國國際廣播電臺轉播活動中的應用:在轉播活動中,有時面對復雜的轉播環境,或者重要的轉播活動;需要利用網絡通路作為主要或者備份傳輸通路。網絡通路如果不是專線傳輸,網絡環境復雜多變,而且如果通過無線網絡傳輸,碼率傳輸受到網絡因素影響更大。因此需要采用壓縮編碼的方式減少碼率,減少網絡碰撞或堵塞,保證傳輸信息的完整度。
國際臺采用COMREX公司的COMREXACCESS設備完成轉播活動,系統圖如下圖4所示所示:

利用COMREX公司的BRIC(BroadReliableInternetCodec,可靠的廣播互聯網編解碼)技術,可以通過編解碼算法,利用極小的帶寬傳輸高質量的音頻信號。該技術內置錯誤隱藏算法,容忍數據包丟失,將延時做到最小;采用智能抖動緩存管理技術,根據網絡狀況調整緩存大小,動態調整延時,使音質所受損失降低至最小。BRIC技術中運用三種編碼算法,分別是BRIC-ULB、BRIC-HQ1、BRIC-HQ2,其中ULB算法壓縮比最高,輸出碼率為14kb/s,音頻質量相當于G.722標準,而碼率只有標準的四分之一。G.722編碼采樣頻率為16Khz,采用ADPCM(adaptive different pulse code modulation)自適應脈沖編碼原理進行編碼,只采用聲音樣本中增量變化的信息,低頻部分被分配較多比特。HQ1算法支持雙聲道和立體聲音頻編碼,可對音頻上限為15kHz的音頻進行編碼,碼率為28kb/s。HQ2算法碼率為30kb/s,可以進行立體聲編碼,能保證高質量的音頻傳輸。同時該comrexaccess設備還支持mepg等多種音頻格式編碼和無損編碼的音頻傳輸,可以根據實際使用情況靈活調整,國際臺在應用中使用AAC編碼較多。
2.音頻編碼技術在廣電其他領域的應用
·AVS編碼在國內廣電中的應用
AVS(AudioVideocodingStandard,音視頻編碼標準)編碼是我國自主研發的編碼技術,主要分為系統、視頻、音頻、數字版權管理等四個主要部分。其中音頻編碼應用了感知音頻編碼框架,在地碼率64kb/s的碼率下,效果優于MP3編碼技術。該編碼標準最多支持32個主聲道,輸出碼率為16-96kb/s。目前AVS+編碼格式廣泛應用于國內衛星傳輸高清頻道與地面高清頻道;國內大部分有限電視數字機頂盒也內置AVS+芯片,并應用AVS+編碼器。目前國內已經成了AVS產業聯盟,未來在家電、廣電、電信、音響等多個產業領域,AVS將得到廣泛應用。
·CDR融合數字廣播中的編碼技術應用
CDR(ChinaDigitalRadio)原為中國數字廣播,2017年正式更名為融合數字廣播(ConvergentDigitalRadio),是中國自主開發的數字廣播標準,其音頻編碼部分采用DRA編碼的地碼率擴展版本DRA+,DRA編碼是中國自主開發的音頻編碼標準,廣泛應用于數字電視、網絡、移動流媒體領域。DRA+編碼增加了頻帶復制、參數立體聲、分層模塊等技術對DRA音頻編碼進行擴展,輸出碼率范圍為16Kb/s至384kb/s,其中碼率為48kb/s的立體聲編碼音頻收聽效果優于FM廣播,碼率為96kb/s的立體聲編碼效果接近CD音質。目前國外,尤其歐洲正在逐步完成廣播的數字化改造,中國該項工作也在穩步進行中。CDR已經完成了多個行業標準,并穩步推進標準的國際化進程。在實際應用中,相關設備包括、音頻編碼器、復用器和發射接收設備已經開始生產,并與多個廠商制定了CDR芯片和車載接收方案,中央覆蓋工程也在穩步推進,目前使用各地現有的中央一套頻率資源進行數字化改造,全國多個省市已經完成了臺站建設。相信在不久的將來,中國將會實現用自主研發的音頻編碼技術進行數字化廣播全覆蓋。
未來隨著技術的發展和受眾理念的變化,網絡播出化需求越來越多,直播和錄播的網絡化播出是未來的趨勢,隨著硬件能力的提升,可以輕松實時完成復雜編解碼算法;另外隨著AOIP技術技術發展,利用虛擬聲卡技術、分布式計算等云計算技術可進行大規模的虛擬化編碼。同時高品質的視頻播出產生了多聲道的音頻編碼需求,因此未來音頻編碼算法的還有很大發展空間。
參考文獻
1.《淺析數字音頻編碼技術》,于麗娟,《山西電子技術》2006年第1期。
2.《數字音頻編碼及其應用》,汪波、黃佩偉、鐘幼平、范戈,《信息技術》2006年第9期。