點(diǎn)贊

178

微信

微博

廣播節(jié)目音頻質(zhì)量的客觀評價方法設(shè)計探討

2016-04-08 王俊濤傳播與制作

　　摘要：廣播是當(dāng)前以音頻為媒介傳遞信息的最重要的方式，音頻質(zhì)量是用戶體驗(yàn)評價的最關(guān)鍵因素，所以對于廣播音頻質(zhì)量的監(jiān)測是廣播業(yè)者最關(guān)心的領(lǐng)域。本文就上述問題介紹了音頻質(zhì)量的評價方法，特別描述了基于PEAQ算法的音頻質(zhì)量客觀評價方法及其在廣播節(jié)目質(zhì)量監(jiān)測中的應(yīng)用。

　　關(guān)鍵詞：音頻質(zhì)量、主觀評價、客觀評價、語音質(zhì)量感知評價、音頻質(zhì)量感知評價。

　　音頻質(zhì)量的主、客觀評價

　　隨著廣電行業(yè)對播出節(jié)目質(zhì)量的要求不斷提高，現(xiàn)有的監(jiān)測體系已經(jīng)能夠采集實(shí)時廣播節(jié)目并對節(jié)目技術(shù)指標(biāo)如節(jié)目完整性、節(jié)目正確性以及場強(qiáng)、調(diào)幅度等進(jìn)行實(shí)時監(jiān)測，但對于節(jié)目音頻質(zhì)量的評價還主要依賴于主觀評價，如何能將這一過程盡量客觀評價處理對于廣播技術(shù)人員來講是一項(xiàng)很有必要的工作。

　　對于音頻質(zhì)量的評價方法主要分為主觀評價和客觀評價兩大類。音頻質(zhì)量主觀評價方法就是通過人聽取被測音頻材料，將聽音時的主觀感受從清晰度、豐滿度、圓潤度、明亮度、柔和度、真實(shí)度和平衡度幾個方面，以打分的形式記錄下來。人對聲音的主觀感受雖然可能因人而異，但經(jīng)過相對專業(yè)訓(xùn)練且考慮到年齡段、男女等因素多人主觀試聽，并經(jīng)過統(tǒng)計分析后得到的被測音頻材料的主觀評價分?jǐn)?shù)，依然是目前認(rèn)為最有效和最準(zhǔn)確的音頻質(zhì)量的度量方式。但是，主觀評價的缺點(diǎn)也顯而易見：成本高昂且實(shí)時性差，由于存在人的主觀因素和測試環(huán)境的客觀因素，測試結(jié)果具有一定的不確定性，無法作為全時監(jiān)測的手段，因此運(yùn)用此方法進(jìn)行廣播電臺的音頻質(zhì)量實(shí)時監(jiān)測可能性極低。

　　音頻質(zhì)量客觀評價方法是通過技術(shù)手段提取音頻節(jié)目中的技術(shù)指標(biāo)，將其量化形成類似于主觀評價的分?jǐn)?shù)來表征音頻質(zhì)量的好壞。目前對音頻質(zhì)量客觀評價方法是否可行的評估，是將其結(jié)果與主觀評價結(jié)果進(jìn)行對比，擬合度越好的客觀評價方法就被認(rèn)為越有效。因此，客觀評價方法一般都是通過模擬人對聲音的感知、處理過程，對音頻的各種音頻特征進(jìn)行分析，給出一個音頻質(zhì)量評價分值。客觀評價方法正好彌補(bǔ)了主觀評價方法的不足，即不耗費(fèi)人力、實(shí)時性好，而且相對而言有了統(tǒng)一的標(biāo)準(zhǔn)，測試結(jié)果穩(wěn)定、可全時監(jiān)測。

　　音頻信號可以簡單分為語音和寬帶音頻兩類，語音信號專指人說話時的聲音，而寬帶音頻則可能包含了人聲、樂器、人造聲音和自然界的聲音等。由于語音和寬帶音頻信號的不同特點(diǎn)，國內(nèi)外學(xué)者對于語音和寬帶音頻分別給出了不同的客觀評價方法。

音頻質(zhì)量評價方法介紹

　　2.1主觀評價方法

　　語音信號主要包括可懂度、自然度和可識別度等主觀評價指標(biāo)。比較常見的語音質(zhì)量主觀評價方法包括DRT（音韻字測試：Diagnostic Rhyme Test）、MOS（平均意見分：Mean Option Score）和 DAM（滿意度測試：Diagnostic Acceptability Measure）等方法。

　　對于寬帶音頻信號的一般不采取直接評價方式，因?yàn)閷拵б纛l的“高保真”,也即高度保持原有音頻信號的樣子，會導(dǎo)致參考信號和被測信號的聽覺差異很小,在沒有參考信號的情況下很難直接判斷被測信號究竟處于哪個質(zhì)量等級上。所以寬帶音頻信號一般采用三激勵－隱含參考－雙盲聽(3 Stimulate-Hiden reference-2 Blind:3SHR2B)方法。

　　對于編碼音頻質(zhì)量的主觀評價方法，國際電信聯(lián)盟ITU針對寬帶音頻給出了兩種主觀評價標(biāo)準(zhǔn)：ITU-R BS.1116和ITU-R BS.1534。前者主要是對小損傷、高質(zhì)量音頻信號；后者則針對中等損傷的音頻信號。

　　2.2客觀評價方法

　　在國際上，測試諸如電話、對講、會議系統(tǒng)等窄帶語音信號處理設(shè)備的客觀評價方法一般采用國際電信聯(lián)盟(ITU)針對窄帶語音信號客觀評價制定的感知語音質(zhì)量評價標(biāo)準(zhǔn)(PESQ)，該標(biāo)準(zhǔn)的主客觀相關(guān)系數(shù)可達(dá)到0.95[1]，其測試方法已經(jīng)可以完全替代主觀測試，基于此算法的測試儀器也已經(jīng)面市。

　　隨著對音頻質(zhì)量客觀評價算法研究的深入,對寬帶音頻信號的質(zhì)量評價很多研究機(jī)構(gòu)從不同的角度提出了不同的算法,但沒有哪一種算法具有絕對技術(shù)優(yōu)勢，或者在行業(yè)中占主導(dǎo)地位。于是在1994 年， ITU-R公開提出了干擾指數(shù)、噪聲掩蔽比、感知音頻質(zhì)量測量、感知評價、感知客觀測量等數(shù)個候選方法并開始征集意見。

　　1998年，ITU綜合以上方案以及其他一些具有競爭力的評價方法，針對寬帶編、解碼音頻的質(zhì)量評價提出了ITU-R BS．1387建議書[2]，即感知音頻評價(PEAQ)算法。2001年，ITU又公布了PEAQ算法的改進(jìn)版本ITU-R BS．1387-1。

　　PEAQ的主要結(jié)構(gòu)如圖1 所示，可分為3個主要部分：心理聲學(xué)模型、感知模型和神經(jīng)網(wǎng)絡(luò)。

廣播節(jié)目音頻質(zhì)量的客觀評價方法設(shè)計探討

圖1 PEAQ的基本結(jié)構(gòu)

　　心理聲學(xué)模型通過對參考信號和測試信號（在BS.1387中即指編、解碼信號）的分別進(jìn)行一系列的時域、頻域變換來模仿人類聽覺系統(tǒng)對聲音的處理；經(jīng)處理后的信號輸出進(jìn)入感知模型，對音頻進(jìn)行綜合分析處理和特征提取后計算出多個模型輸出變量(Model Output Variables ，MOV)；最后由神經(jīng)網(wǎng)絡(luò)將多個MOV參數(shù)融合為一個客觀評價分?jǐn)?shù)ODG[3]。

　　PEAQ在小損傷編碼音頻的評價中有較好的表現(xiàn)，根據(jù)ITU-R BS．1387-1提供的數(shù)據(jù)，在大多數(shù)情況下可以達(dá)到主客觀評價結(jié)果誤差絕對值在0.02左右，主客觀符合度在0.7左右的要求[2]。

廣播節(jié)目音頻質(zhì)量的客觀評價方法設(shè)計探討

圖2 PEAQ算法結(jié)果ODG與SDG誤差絕對值[2]

廣播節(jié)目音頻質(zhì)量的客觀評價方法設(shè)計探討

圖3 PEAQ算法結(jié)果ODG與SDG相關(guān)系數(shù)[2]

　　2.3PEAQ在廣播音頻質(zhì)量監(jiān)測中的應(yīng)用

　　我國于1996年7月發(fā)布了《廣播節(jié)目聲音質(zhì)量主觀評價方法和技術(shù)指標(biāo)要求（GB/T 16463-1996）》，規(guī)定了對廣播節(jié)目聲音質(zhì)量進(jìn)行主觀評價的方法。然而，目前對于廣播音頻質(zhì)量的客觀評價并沒有直接的研究成果，在對廣播節(jié)目音頻質(zhì)量的評價時依然使用人工主觀方式進(jìn)行判定。

　　在廣播音頻質(zhì)量監(jiān)測的實(shí)際應(yīng)用中,面臨以下問題:

　　1.由于發(fā)射端、接收端的音量調(diào)整及信道衰落等情況使接收端音頻信號電平發(fā)生較大改變，經(jīng)過多級設(shè)備以及受遠(yuǎn)距離傳輸影響，接收端收到信號與源信號的信噪比有較大差異，會對音頻質(zhì)量客觀評價造成影響；

　　2.廣播電臺存在臨時插播或者錯播等情況，這時接收音頻和源音頻完全不同，需對音頻先進(jìn)行同源判斷，因?yàn)閷τ诜峭匆纛l的質(zhì)量評價沒有意義；

　　我們在使用PEAQ算法對18組實(shí)際廣播信號進(jìn)行客觀評價的實(shí)驗(yàn)中，主客觀評價符合度僅在0.4左右。可見PEAQ不能直接應(yīng)用于廣播信號的評價。

　　對于上述第一種情況，在實(shí)際處理過程中，必須對參考信號和測試信號進(jìn)行信號的電平進(jìn)行歸一化處理。為此我們先將ITU推薦的樣本信號作為標(biāo)準(zhǔn)信號源，將其平均電平值作為參照電平，然后分別計算相同長度參考信號和測試信號的電平，將其與參照電平比較確定壓縮或擴(kuò)張的比例，最后在進(jìn)行質(zhì)量客觀評價算法之前，通過該比例參數(shù)求得歸一化之后的信號。

　　對于第二種情況則需要進(jìn)行同源判斷，即將測試信號與參考信號進(jìn)行相關(guān)性計算，并根據(jù)統(tǒng)計分析設(shè)定相關(guān)系數(shù)門限值，當(dāng)相關(guān)系數(shù)降低到門限值以下時即判定被測信號與參考信號是非同源信號，此時就不進(jìn)行音頻質(zhì)量評價的計算了。

總結(jié)

　　3.1客觀評價方法設(shè)計考慮因素

　　由于廣播電臺節(jié)目播出全流程涉及播出源、切換分配、編解碼傳輸、調(diào)制發(fā)射，信號路由范圍廣、經(jīng)過環(huán)節(jié)多，因此對于廣播音頻的實(shí)時質(zhì)量客觀評價系統(tǒng)的實(shí)現(xiàn)需要考慮如下因素：

　　1.受發(fā)射端和接收端設(shè)備不一致、算法差異和開路傳輸過程等影響，在發(fā)射端、接收端的音量調(diào)整及信道衰落可能會使接收端信號電平發(fā)生較大改變；

　　2.一般接收端遠(yuǎn)離播出源，考慮到成本以及未來發(fā)展，測試數(shù)據(jù)在接收端以數(shù)據(jù)流形式通過網(wǎng)絡(luò)傳回，受網(wǎng)絡(luò)條件影響會引入不確定延時；

　　3.廣播發(fā)射臺源信號經(jīng)過放大、調(diào)制、無線傳播、解調(diào)等一系列過程后得到的接收信號音頻特性會發(fā)生較大改變，PEAQ標(biāo)準(zhǔn)的音頻質(zhì)量客觀評價算法不能完全適用；

　　4.廣播節(jié)目播出安全性和節(jié)目信號網(wǎng)絡(luò)傳輸?shù)陌踩詥栴}。

　　以上因素均會對節(jié)目音頻質(zhì)量的客觀評價產(chǎn)生極大影響，在評價方法設(shè)計和關(guān)鍵算法設(shè)計上，都需要有比較切合實(shí)際的解決辦法，建立客觀標(biāo)準(zhǔn)和數(shù)據(jù)處理前歸一化操作，盡可能使接收端節(jié)目信號與播出源保持相似特性。

　　3.2客觀評價方法設(shè)計

　　結(jié)合上述問題，本文提出如下相應(yīng)解決方法，以進(jìn)一步設(shè)計出可實(shí)用化的廣播接收音頻質(zhì)量的客觀評價系統(tǒng)。

　　1.考慮網(wǎng)絡(luò)傳輸對帶寬的限制，將收測廣播音頻數(shù)據(jù)經(jīng)壓縮編碼傳輸，并結(jié)合網(wǎng)絡(luò)狀態(tài)可調(diào)整編碼速率。針對特定編碼格式以及編碼速率，提前計算出差量范圍，并歸入擬合度分析誤差。

　　2.考慮信號電平改變對質(zhì)量評價結(jié)果的影響，對接收信號和節(jié)目源信號進(jìn)行電平歸一化處理，在一般性技術(shù)指標(biāo)上進(jìn)行對齊，減少誤差。

　　3.對于接收信號傳輸延時問題，采用信號時域和頻域相關(guān)性匹配查找，實(shí)現(xiàn)參考信號和測試信號的同源判定以及時間對齊，提前進(jìn)行篩選分析以避免無意義分析。

　　4.通過對實(shí)際調(diào)頻廣播信號特征參數(shù)的統(tǒng)計、分析，采用對神經(jīng)網(wǎng)絡(luò)輸入系數(shù)進(jìn)行訓(xùn)練的方法，提高PEAQ算法對于廣播音頻質(zhì)量客觀評價的主客觀符合度。

　　5.考慮到網(wǎng)絡(luò)傳輸?shù)陌踩詥栴}，對于收測設(shè)備與服務(wù)器間的通信命令數(shù)據(jù)采用加密算法。

　　經(jīng)過上述考量，我們重新改進(jìn)了客觀評價方法，并對方案進(jìn)行了分析和測試，在擬合度等方面基本能夠滿足廣播音頻客觀質(zhì)量客觀監(jiān)測的需求，但目前受算法和處理能力限制，分析結(jié)果還有較大的延時，還需優(yōu)化算法進(jìn)一步提高實(shí)時性。

參考資料：

　　[1]J. Barbedo, A. Lopes, A new cognitive model for objective assessment of audio quality,J. Audio Eng. Soc. 53(1/2)(2005)22–31.

　　[2]International Telecommunications Union, Geneva, 1998.ITU-R Recommendation BS.1387, Method for objective measurements of perceived audio quality,

　　[3]Christopher M. Bishop,Pattern Recognition and Machine Learning, chapter 5 neural network,1st ed. (2006) Printed in Singapore.

音頻語音質(zhì)量音頻