摘要:廣播是當(dāng)前以音頻為媒介傳遞信息的最重要的方式,音頻質(zhì)量是用戶體驗(yàn)評價的最關(guān)鍵因素,所以對于廣播音頻質(zhì)量的監(jiān)測是廣播業(yè)者最關(guān)心的領(lǐng)域。本文就上述問題介紹了音頻質(zhì)量的評價方法,特別描述了基于PEAQ算法的音頻質(zhì)量客觀評價方法及其在廣播節(jié)目質(zhì)量監(jiān)測中的應(yīng)用。
關(guān)鍵詞:音頻質(zhì)量、主觀評價、客觀評價、語音質(zhì)量感知評價、音頻質(zhì)量感知評價。
音頻質(zhì)量的主、客觀評價
隨著廣電行業(yè)對播出節(jié)目質(zhì)量的要求不斷提高,現(xiàn)有的監(jiān)測體系已經(jīng)能夠采集實(shí)時廣播節(jié)目并對節(jié)目技術(shù)指標(biāo)如節(jié)目完整性、節(jié)目正確性以及場強(qiáng)、調(diào)幅度等進(jìn)行實(shí)時監(jiān)測,但對于節(jié)目音頻質(zhì)量的評價還主要依賴于主觀評價,如何能將這一過程盡量客觀評價處理對于廣播技術(shù)人員來講是一項(xiàng)很有必要的工作。
對于音頻質(zhì)量的評價方法主要分為主觀評價和客觀評價兩大類。音頻質(zhì)量主觀評價方法就是通過人聽取被測音頻材料,將聽音時的主觀感受從清晰度、豐滿度、圓潤度、明亮度、柔和度、真實(shí)度和平衡度幾個方面,以打分的形式記錄下來。人對聲音的主觀感受雖然可能因人而異,但經(jīng)過相對專業(yè)訓(xùn)練且考慮到年齡段、男女等因素多人主觀試聽,并經(jīng)過統(tǒng)計分析后得到的被測音頻材料的主觀評價分?jǐn)?shù),依然是目前認(rèn)為最有效和最準(zhǔn)確的音頻質(zhì)量的度量方式。但是,主觀評價的缺點(diǎn)也顯而易見:成本高昂且實(shí)時性差,由于存在人的主觀因素和測試環(huán)境的客觀因素,測試結(jié)果具有一定的不確定性,無法作為全時監(jiān)測的手段,因此運(yùn)用此方法進(jìn)行廣播電臺的音頻質(zhì)量實(shí)時監(jiān)測可能性極低。
音頻質(zhì)量客觀評價方法是通過技術(shù)手段提取音頻節(jié)目中的技術(shù)指標(biāo),將其量化形成類似于主觀評價的分?jǐn)?shù)來表征音頻質(zhì)量的好壞。目前對音頻質(zhì)量客觀評價方法是否可行的評估,是將其結(jié)果與主觀評價結(jié)果進(jìn)行對比,擬合度越好的客觀評價方法就被認(rèn)為越有效。因此,客觀評價方法一般都是通過模擬人對聲音的感知、處理過程,對音頻的各種音頻特征進(jìn)行分析,給出一個音頻質(zhì)量評價分值。客觀評價方法正好彌補(bǔ)了主觀評價方法的不足,即不耗費(fèi)人力、實(shí)時性好,而且相對而言有了統(tǒng)一的標(biāo)準(zhǔn),測試結(jié)果穩(wěn)定、可全時監(jiān)測。
音頻信號可以簡單分為語音和寬帶音頻兩類,語音信號專指人說話時的聲音,而寬帶音頻則可能包含了人聲、樂器、人造聲音和自然界的聲音等。由于語音和寬帶音頻信號的不同特點(diǎn),國內(nèi)外學(xué)者對于語音和寬帶音頻分別給出了不同的客觀評價方法。
音頻質(zhì)量評價方法介紹
2.1主觀評價方法
語音信號主要包括可懂度、自然度和可識別度等主觀評價指標(biāo)。比較常見的語音質(zhì)量主觀評價方法包括DRT(音韻字測試:Diagnostic Rhyme Test)、MOS(平均意見分:Mean Option Score)和 DAM(滿意度測試:Diagnostic Acceptability Measure)等方法。
對于寬帶音頻信號的一般不采取直接評價方式,因?yàn)閷拵б纛l的“高保真”,也即高度保持原有音頻信號的樣子,會導(dǎo)致參考信號和被測信號的聽覺差異很小,在沒有參考信號的情況下很難直接判斷被測信號究竟處于哪個質(zhì)量等級上。所以寬帶音頻信號一般采用三激勵-隱含參考-雙盲聽(3 Stimulate-Hiden reference-2 Blind:3SHR2B)方法。
對于編碼音頻質(zhì)量的主觀評價方法,國際電信聯(lián)盟ITU針對寬帶音頻給出了兩種主觀評價標(biāo)準(zhǔn):ITU-R BS.1116和ITU-R BS.1534。前者主要是對小損傷、高質(zhì)量音頻信號;后者則針對中等損傷的音頻信號。
2.2客觀評價方法
在國際上,測試諸如電話、對講、會議系統(tǒng)等窄帶語音信號處理設(shè)備的客觀評價方法一般采用國際電信聯(lián)盟(ITU)針對窄帶語音信號客觀評價制定的感知語音質(zhì)量評價標(biāo)準(zhǔn)(PESQ),該標(biāo)準(zhǔn)的主客觀相關(guān)系數(shù)可達(dá)到0.95[1],其測試方法已經(jīng)可以完全替代主觀測試,基于此算法的測試儀器也已經(jīng)面市。
隨著對音頻質(zhì)量客觀評價算法研究的深入,對寬帶音頻信號的質(zhì)量評價很多研究機(jī)構(gòu)從不同的角度提出了不同的算法,但沒有哪一種算法具有絕對技術(shù)優(yōu)勢,或者在行業(yè)中占主導(dǎo)地位。于是在1994 年, ITU-R公開提出了干擾指數(shù)、噪聲掩蔽比、感知音頻質(zhì)量測量、感知評價、感知客觀測量等數(shù)個候選方法并開始征集意見。
1998年,ITU綜合以上方案以及其他一些具有競爭力的評價方法,針對寬帶編、解碼音頻的質(zhì)量評價提出了ITU-R BS.1387建議書[2],即感知音頻評價(PEAQ)算法。2001年,ITU又公布了PEAQ算法的改進(jìn)版本ITU-R BS.1387-1。
PEAQ的主要結(jié)構(gòu)如圖1 所示,可分為3個主要部分:心理聲學(xué)模型、感知模型和神經(jīng)網(wǎng)絡(luò)。

圖1 PEAQ的基本結(jié)構(gòu)
心理聲學(xué)模型通過對參考信號和測試信號(在BS.1387中即指編、解碼信號)的分別進(jìn)行一系列的時域、頻域變換來模仿人類聽覺系統(tǒng)對聲音的處理;經(jīng)處理后的信號輸出進(jìn)入感知模型,對音頻進(jìn)行綜合分析處理和特征提取后計算出多個模型輸出變量(Model Output Variables ,MOV);最后由神經(jīng)網(wǎng)絡(luò)將多個MOV參數(shù)融合為一個客觀評價分?jǐn)?shù)ODG[3]。
PEAQ在小損傷編碼音頻的評價中有較好的表現(xiàn),根據(jù)ITU-R BS.1387-1提供的數(shù)據(jù),在大多數(shù)情況下可以達(dá)到主客觀評價結(jié)果誤差絕對值在0.02左右,主客觀符合度在0.7左右的要求[2]。

圖2 PEAQ算法結(jié)果ODG與SDG誤差絕對值[2]

圖3 PEAQ算法結(jié)果ODG與SDG相關(guān)系數(shù)[2]
2.3PEAQ在廣播音頻質(zhì)量監(jiān)測中的應(yīng)用
我國于1996年7月發(fā)布了《廣播節(jié)目聲音質(zhì)量主觀評價方法和技術(shù)指標(biāo)要求(GB/T 16463-1996)》,規(guī)定了對廣播節(jié)目聲音質(zhì)量進(jìn)行主觀評價的方法。然而,目前對于廣播音頻質(zhì)量的客觀評價并沒有直接的研究成果,在對廣播節(jié)目音頻質(zhì)量的評價時依然使用人工主觀方式進(jìn)行判定。
在廣播音頻質(zhì)量監(jiān)測的實(shí)際應(yīng)用中,面臨以下問題:
1.由于發(fā)射端、接收端的音量調(diào)整及信道衰落等情況使接收端音頻信號電平發(fā)生較大改變,經(jīng)過多級設(shè)備以及受遠(yuǎn)距離傳輸影響,接收端收到信號與源信號的信噪比有較大差異,會對音頻質(zhì)量客觀評價造成影響;
2.廣播電臺存在臨時插播或者錯播等情況,這時接收音頻和源音頻完全不同,需對音頻先進(jìn)行同源判斷,因?yàn)閷τ诜峭匆纛l的質(zhì)量評價沒有意義;
我們在使用PEAQ算法對18組實(shí)際廣播信號進(jìn)行客觀評價的實(shí)驗(yàn)中,主客觀評價符合度僅在0.4左右。可見PEAQ不能直接應(yīng)用于廣播信號的評價。
對于上述第一種情況,在實(shí)際處理過程中,必須對參考信號和測試信號進(jìn)行信號的電平進(jìn)行歸一化處理。為此我們先將ITU推薦的樣本信號作為標(biāo)準(zhǔn)信號源,將其平均電平值作為參照電平,然后分別計算相同長度參考信號和測試信號的電平,將其與參照電平比較確定壓縮或擴(kuò)張的比例,最后在進(jìn)行質(zhì)量客觀評價算法之前,通過該比例參數(shù)求得歸一化之后的信號。
對于第二種情況則需要進(jìn)行同源判斷,即將測試信號與參考信號進(jìn)行相關(guān)性計算,并根據(jù)統(tǒng)計分析設(shè)定相關(guān)系數(shù)門限值,當(dāng)相關(guān)系數(shù)降低到門限值以下時即判定被測信號與參考信號是非同源信號,此時就不進(jìn)行音頻質(zhì)量評價的計算了。
總結(jié)
3.1客觀評價方法設(shè)計考慮因素
由于廣播電臺節(jié)目播出全流程涉及播出源、切換分配、編解碼傳輸、調(diào)制發(fā)射,信號路由范圍廣、經(jīng)過環(huán)節(jié)多,因此對于廣播音頻的實(shí)時質(zhì)量客觀評價系統(tǒng)的實(shí)現(xiàn)需要考慮如下因素:
1.受發(fā)射端和接收端設(shè)備不一致、算法差異和開路傳輸過程等影響,在發(fā)射端、接收端的音量調(diào)整及信道衰落可能會使接收端信號電平發(fā)生較大改變;
2.一般接收端遠(yuǎn)離播出源,考慮到成本以及未來發(fā)展,測試數(shù)據(jù)在接收端以數(shù)據(jù)流形式通過網(wǎng)絡(luò)傳回,受網(wǎng)絡(luò)條件影響會引入不確定延時;
3.廣播發(fā)射臺源信號經(jīng)過放大、調(diào)制、無線傳播、解調(diào)等一系列過程后得到的接收信號音頻特性會發(fā)生較大改變,PEAQ標(biāo)準(zhǔn)的音頻質(zhì)量客觀評價算法不能完全適用;
4.廣播節(jié)目播出安全性和節(jié)目信號網(wǎng)絡(luò)傳輸?shù)陌踩詥栴}。
以上因素均會對節(jié)目音頻質(zhì)量的客觀評價產(chǎn)生極大影響,在評價方法設(shè)計和關(guān)鍵算法設(shè)計上,都需要有比較切合實(shí)際的解決辦法,建立客觀標(biāo)準(zhǔn)和數(shù)據(jù)處理前歸一化操作,盡可能使接收端節(jié)目信號與播出源保持相似特性。
3.2客觀評價方法設(shè)計
結(jié)合上述問題,本文提出如下相應(yīng)解決方法,以進(jìn)一步設(shè)計出可實(shí)用化的廣播接收音頻質(zhì)量的客觀評價系統(tǒng)。
1.考慮網(wǎng)絡(luò)傳輸對帶寬的限制,將收測廣播音頻數(shù)據(jù)經(jīng)壓縮編碼傳輸,并結(jié)合網(wǎng)絡(luò)狀態(tài)可調(diào)整編碼速率。針對特定編碼格式以及編碼速率,提前計算出差量范圍,并歸入擬合度分析誤差。
2.考慮信號電平改變對質(zhì)量評價結(jié)果的影響,對接收信號和節(jié)目源信號進(jìn)行電平歸一化處理,在一般性技術(shù)指標(biāo)上進(jìn)行對齊,減少誤差。
3.對于接收信號傳輸延時問題,采用信號時域和頻域相關(guān)性匹配查找,實(shí)現(xiàn)參考信號和測試信號的同源判定以及時間對齊,提前進(jìn)行篩選分析以避免無意義分析。
4.通過對實(shí)際調(diào)頻廣播信號特征參數(shù)的統(tǒng)計、分析,采用對神經(jīng)網(wǎng)絡(luò)輸入系數(shù)進(jìn)行訓(xùn)練的方法,提高PEAQ算法對于廣播音頻質(zhì)量客觀評價的主客觀符合度。
5.考慮到網(wǎng)絡(luò)傳輸?shù)陌踩詥栴},對于收測設(shè)備與服務(wù)器間的通信命令數(shù)據(jù)采用加密算法。
經(jīng)過上述考量,我們重新改進(jìn)了客觀評價方法,并對方案進(jìn)行了分析和測試,在擬合度等方面基本能夠滿足廣播音頻客觀質(zhì)量客觀監(jiān)測的需求,但目前受算法和處理能力限制,分析結(jié)果還有較大的延時,還需優(yōu)化算法進(jìn)一步提高實(shí)時性。
參考資料:
[1]J. Barbedo, A. Lopes, A new cognitive model for objective assessment of audio quality,J. Audio Eng. Soc. 53(1/2)(2005)22–31.
[2]International Telecommunications Union, Geneva, 1998.ITU-R Recommendation BS.1387, Method for objective measurements of perceived audio quality,
[3]Christopher M. Bishop,Pattern Recognition and Machine Learning, chapter 5 neural network,1st ed. (2006) Printed in Singapore.