重大挑戰
在廣電領域,許多來自聽眾和觀眾的投訴都與音頻有關,除了節目與廣告的音量存在差異以外,很多投訴是關于語音和背景音之間的平衡問題。語音清晰度可能給有聽力障礙或非母語的聽眾帶來困擾。而收聽環境或播放設備所帶來的影響,還可能進一步加劇這個問題。
對音頻工程師來說,尋找語音和背景音之間的適當平衡是一件極其困難的事情。因此,更佳的解決方案,則是讓聽眾根據個人選擇、收聽環境,以及聽覺能力等需求,自行調節音頻平衡。
一個有效的解決方案,就是由Fraunhofer集成電路研究所(Fraunhofer IIS)開發,名為“語音增強(Dialogue Enhancement)”的技術。該技術允許用戶根據自己的喜好調節背景聲音和語音之間的平衡。2011年,在溫布爾登網球公開賽期間,Fraunhofer IIS和英國廣播公司(BBC)對此項技術進行了首次測試。
基本原理
“語音增強”是針對單個聲源進行高效傳輸的技術,并同時與單聲道、立體聲或5.1混合聲道保持兼容。“語音增強”技術的基本思路是在一個混合的音頻信號中描述不同部分,通過增強或減弱語音與混合音頻信號中其他信號的對比,實現播放設備對音頻平衡的調整。音頻源可以是評論員的聲音、體育場內的嘈雜背景,或專題片或電視劇中的語音、音樂以及特效。
“語音增強”編碼器(圖1)通過分析輸入信號,產生一個單聲道、立體聲或包括所有這些信號的5.1混合聲道。此外,編碼器生成的參數描述了每個信號源與所有其他信號源之間的關系。這些參數是以選時和選頻方式生成的。

圖1 “語音增強”系統結構圖
混合的輸入信號既可以自動生成,也可以由音頻工程師進行外部控制。混合信號由一個音頻編解碼器(如MPEG-4 AAC或HE-AAC)進行編碼。參數端信息流則被嵌入已編碼的音頻比特流中。
與將所有單音頻信號源進行獨立傳輸相比,混合傳輸加端信息傳輸的效率要高許多,因為表現在每個參數域中的音頻信號源都只會輕微增加整體比特率。音頻比特流在接收端被解碼,“語音增強”解碼器使用參數比特流的描述數據,繼續對混合信號進行處理,從而實現對音頻信號源的訪問。
通過這種方式,用戶可以單獨調整每個音頻信號源的音量,從而可以提高諸如對話或體育評論等聲音的清晰度。
該技術與現有的傳輸和播放設備完全兼容。無法解碼參數端信息的設備將忽略這些參數端信息,正常播放混合信號。
BBC 廣播第五頻道 - 溫布爾登網球公開賽期間的應用實驗
“語音增強”實驗是在2011年溫布爾登網球公開賽期間的BBC廣播第五頻道(Radio 5 Live,R5L)和BBC廣播第五頻道體育特別節目(Radio 5 Live Sports Extra ,R5LSE) 中進行,觀眾通過廣播第五頻道網站訪問相關內容。這次實驗稱為“NetMix”,用來簡要概述實驗內容(該標題未在歐洲使用過),主要面向于在辦公室工作,只能訪問聯網的網球迷們。
在溫布爾登的實驗部署
“NetMix”實驗需要兩處音頻的傳送:第一處是中央球場(Centre Court)的傳送(立體聲FX),第二處是 廣播第五頻道的評論傳送(單聲道)。場地立體聲FX傳送源來自于裁判席的一對同步交叉麥克風。
評論音頻來自于BBS廣播第五頻道現場的評論席,音頻在在進入總調音器前,被輸入到NetMix系統。要創建并監控兩種信號源(場地FX和評論),NetMix還是需要由聲音監控人員(Sound Supervisor)來平衡用于默認混合編碼輸出流的場地與賽事評論的兩種傳輸(或源)。在這里,聲音監控員的職責與以往不同,因為音頻平衡功能已由觀眾處理。但是音頻傳輸仍然需要專人在比賽開始時調整歸零,而且當評論員和/或觀眾在比賽期間變得更加興奮時,還需要調整相關水平。
當賽事未直播時,例如比賽間隙,背景聲音則改為賽場通知的錄音。這樣觀眾的音量控制器總表現出一些淡入淡出的交叉效果。
隨后,NetMix試驗輸出操作員將立體聲場地FX和單聲道評論這兩個源傳送到Fraunhofer編碼器中。該編碼器集成在PC平臺上作為一個實時應用程序。編碼器應用集成了上文中所描述的“語音增強”編碼器和音頻編碼器功能。此次實驗中以下列方式配置編碼器:
·適應范圍:+/- 12 dB。與縮混(downmix)相比,觀眾能夠增強或衰減12 dB評論源。
·比特率:192 kbps(每秒千比特)用于已編碼的音頻流(AAC編碼縮混和嵌入到AAC比特流中的參數端信息)。‘

圖2 顯示由NetMix試驗到觀眾的信號與系統圖
·比特流格式:HTTP 上的ADTS,適用于兼容Shoutcast的流媒體。
打包的編碼器輸出流通過HTTP連接被推送到StreamUK內容分發網絡。StreamUK接到指令向英國用戶提供地域鎖定服務,就是為了限制BBC在該公開賽上的權利。
NetMix播放器
實驗過程中,一個特殊的PC軟件播放器提供下載。該播放器包括一個Shoutcast客戶端、一個AAC解碼器、一個“語音增強”解碼器和渲染器。用戶屏幕界面中的滑動條可以控制音頻的混合。滑動條的零位為默認混合,增強賽事評論為正值,減弱賽事評論、讓現場聲音更大為負值。滑動條范圍于“-3”和“+3”之間,用于±12 dB的適應范圍。在隨后的調查中也應用該刻度值,向觀眾詢問其偏好的混音值,即混音滑動條的位置。
結果
廣播第五頻道網站和NetMix播放器均有一個按鈕鏈接到一項在線調查,該調查是由BBC市場與觀眾部門(BBC Marketing & Audiences)和eDigitalResearch公司聯合展開并進行分析的。如同尋常的嵌入式調查一樣,本次的調查反響并不大。NetMix播放器下載累計約1200次,只有98名聽眾完成了此次調查。
調查結果顯示:超過72%的聽眾同意或非常同意這種技術將有利于廣播, 84%的人同意或非常同意該技術還將有利于電視。另一個有趣的發現是,并非所有聽眾都選擇增強評論聲音,實際上,調查數據顯示聽眾對于“音量控制器”位置的喜好分布相當均勻,并有兩個峰值,如圖3所示。

圖3 聽眾偏好的“音量控制器”位置分布呈現出兩個峰值,分別位
于 “音頻平衡”位置(=“0”位置)的兩側
總結
這是一項復雜且具有挑戰性的實驗,需要BBC諸多團隊(包括制作、實況轉播、工程、網絡、法律、體育權利和受眾研究)協力進行。實驗證明,“語音增強”編碼能提供一個切實可行的技術,在某種程度上解決音頻收聽的問題,幫助觀眾理解并從中受益。
溫布爾登網球公開賽實驗證明了該技術的可行性,雖然聽眾調查完成的樣本相對較少,但它明確表明了聽眾對這樣一個工具所帶來好處的認可。調查結果還表明,“語音增強”技術帶給聽眾的好處,可以為其制作方面的額外要求買單。
Fraunhofer IIS目前正在與不同的廣播公司和內容提供商討論其他實驗,以進一步對這些問題進行調查研究。
2012年,在美國拉斯維加斯召開的美國國家廣播協會(National Association of Broadcasters, NAB)展上,Fraunhofer IIS就展示了“語音增強”和溫布爾登實驗,作為預展技術。其間,“語音增強”技術榮膺美國國家廣播協會頒發的2012年度NAB技術創新大獎,以表彰該先進技術典范。
關于Fraunhofer
除了“語音增強”技術,Fraunhofer IIS還提供有關數字廣播的各方面服務,包括:多路設計、條件接收、實時硬件驗證的實施、商業接收器和發射設備、用于消費者無線接收器的組件、數據廣播系統、標準化、聽眾營銷研究、多媒體廣播應用、音頻編碼(MP3、AAC),以及通過IZT-GmbH進行商業設備的開發、生產和部署。作為全球最大的研究和開發機構之一,Fraunhofer IIS始終致力于地面和衛星數字廣播系統的設計和實施。B&P