數(shù)字嵌入音頻的應用及原理

2006-08-02 貴州電視臺劉洪春依馬獅網(wǎng)

    【內(nèi)容提要】本文主要介紹了數(shù)字音頻的嵌入過程和實際的應用，以及相關的標準。
    【關鍵字】數(shù)字音頻嵌入
　　
    隨著數(shù)字電視技術的發(fā)展，數(shù)字播控中心也成為各電視臺建設的重點，這也是從模擬向數(shù)字化過渡的特殊時期，不可能從采編到播出全部實現(xiàn)數(shù)字化，特別是音頻系統(tǒng)，從模擬音頻到數(shù)字音頻，再到數(shù)字音頻的嵌入，這是一個非常繁瑣的過程，下面從實際到理論就這個過程作一下介紹。
　　
一. 音頻嵌入技術在電視播出系統(tǒng)中的應用
    對于視頻、伴音分離的系統(tǒng)，在電視信號模數(shù)轉換和傳輸?shù)倪^程中，視頻和音頻不同的處理方式和特點，導致視頻滯后于音頻，圖像和聲音不協(xié)調(diào)和諧的問題也顯得比較明顯。

    在電視節(jié)目播送中，視頻信號制約于相應的音頻信號，達到互相同步，或利用數(shù)字視頻信號對數(shù)字音頻信號加以攜帶，形成一個有機統(tǒng)一的整體（音頻嵌入技術），同時又能安全的解出，以使受眾得到聲畫同步的完美的電視圖像，是我們在數(shù)字電視播出系統(tǒng)設計中，極為關心的問題。

    以我臺播出部為例，簡單解釋一下音頻信號的流程：由于我臺仍然有大量的電視劇錄像帶是Betcam帶，而本臺自辦節(jié)目是DV帶，所以用于上載的錄像機就有Betcam和DVCPRO兩種，我們統(tǒng)一使用模擬音頻信號輸出，它首先通過一個音頻限幅器，對輸入的音頻進行自動增益控制和過峰值控制，到Profile視頻服務器的音頻接口盒，將模擬音頻轉換為AES/EBU數(shù)字音頻，通過輸入音頻編碼板編碼為文件存入硬盤盤塔；從盤塔返回Profile的音頻文件解碼后通過輸出板嵌入到SDI視頻信號中。在QMC切換臺上，為了能夠調(diào)節(jié)輸出伴音，又將帶嵌入音頻的SDI信號分解成SDI視頻和AES/EBU數(shù)字音頻，再將AES/EBU數(shù)字音頻通過一個D/A轉換成模擬音頻進行音量調(diào)整，然后經(jīng)A/D轉換成AES/EBU數(shù)字音頻，再嵌入到SDI視頻中輸出，這是目前音頻嵌入式播出系統(tǒng)的普遍模式。

    音頻嵌入式電視播出系統(tǒng)，相對于音視頻分離模式的系統(tǒng)，有著很多優(yōu)點。一般來說，音頻嵌入模式適合于較大型系統(tǒng)中的各種切換，達到靈活輕便。切換中的音視頻的協(xié)調(diào)統(tǒng)一，是靠程序控制中央處理器的統(tǒng)一指令完成的，而中央處理器的程序設計很容易實現(xiàn)，運作簡單、實用、可靠。對于小型系統(tǒng)，音頻嵌入也有一定的使用價值，當然要看設備系統(tǒng)的性能價格比和需要而確定。

二. 數(shù)字音頻信號
    1.AES/EBU數(shù)字音頻
    1992年，美國音頻工程師協(xié)會（AES）和歐洲廣播聯(lián)盟（EBU）共同制定了數(shù)字音頻的接口標準，即AES/EBU數(shù)字音頻格式。在這個基礎上，國際電信聯(lián)盟將其歸納為ITU-R BS647-2號建議書《廣播演播室數(shù)字音頻信號的接口》。

    AES/EBU的構成：由兩個信號通道組成。這兩個聲道可作為立體聲的左、右聲道，可作為獨立的聲道，可將兩聲道傳輸同樣的聲音，把一個AES/EBU信號作為單聲道使用。

    在視頻領域，我們對視頻的取樣為8比特或10比特，而對于音頻來講，10比特是遠遠不夠的，它不能滿足聲音的動態(tài)范圍及信躁比的要求。因此對于音頻的取樣為16-24比特。

    每一個取樣組成一個32位的副幀，前4位為通道狀態(tài)識別位，指示后面的音頻數(shù)據(jù)是哪一個通道的音頻數(shù)據(jù)，其后4位的輔助數(shù)據(jù)（可以用它擴展AES/EBU為24比特）然后是20位的音頻取樣數(shù)據(jù)，音頻取樣數(shù)據(jù)之后是一位音頻取樣有效位，用來指明音頻取樣的比特位數(shù)是否有效。在其之后用戶比特位用于攜帶其它信息，例如：時碼。第31位為音頻通道狀態(tài)位，它可以攜帶與信號有關的重要信息：例如取樣頻率、聲道類型、輔助比特的應用方式等，最后一位CRC奇偶效正位，用于對總的數(shù)據(jù)通道數(shù)據(jù)狀態(tài)進行誤碼檢測。

    2.AES/EBU數(shù)據(jù)結構（如圖2）：
    由192個副幀進一步組成一個數(shù)據(jù)幀，每一個數(shù)據(jù)幀的起始點由第一副幀的前4位的狀態(tài)位來表述，即前置位表述為“Z”。而其他副幀前置位表述為代表通道狀態(tài)的“X”或“Y”

3.AES/EBU數(shù)字音頻的優(yōu)點：
AES/EBU數(shù)字音頻信躁比高，傳輸質(zhì)量好。是獨立的音頻通道，便于做音頻處理（調(diào)音處理）對于75歐的AES/EBU數(shù)字音頻系統(tǒng)，可用原有模擬視頻系統(tǒng)替代。

三. 嵌入數(shù)字音頻
    在電視領域，音頻信號出現(xiàn)“唇音”是我們非常關注的問題。所謂的“唇音”指的是由于視頻信號和音頻信號傳輸路徑不同，因此信號的延時也不同，這樣就造成了聲音和圖像出現(xiàn)延時差。在分離的視、音系統(tǒng)中需要一些音頻延時器予以克服。而在數(shù)字視頻SDI的傳輸?shù)耐瑫r，我們可以利用SDI信號的輔助數(shù)據(jù)區(qū)，把數(shù)字音頻信號嵌入到SDI信號中一起傳輸，從根本上消除了的除了“唇音”問題。這也就是傳輸音頻信號的第3種格式—嵌入音頻格式。

    1.嵌入數(shù)字音頻的位置
    在模擬視頻中存在著行、場消隱期。在行、場消隱期內(nèi)并不存在著有效圖象信號。對于數(shù)字視頻信號，也對應存在這樣一個時間區(qū)間，這個區(qū)間被稱為行、場的輔助數(shù)據(jù)區(qū)。行輔助數(shù)據(jù)區(qū)由SMPTE定義為“HANC”（Horizontal Anicillary Date），場輔助數(shù)據(jù)區(qū)由EBU定義為“VANC”（Vertical Anicillary）。

    我們清楚地知道，分量數(shù)字視頻格式的有效行中，625/50制共有1728個取樣字（525/60制為1716個取樣字），其中對Y、Cb和Cr取樣有1440個取樣字（0～1439）。而對行消隱期間的取樣可安排288個取樣字（525/60制為276個取樣字）。數(shù)據(jù)傳送中，每行的消隱期間的數(shù)據(jù)是相同的，對于數(shù)字化來說就是所謂的“冗余”部分，在標準中用“SAV”和“EAV”，予以界定并作為接收端恢復的標志，就不再需要傳送同步和色同步信息了。那么在“EAV”和“SAV”之間就可用來放置288個字（525/60制為276個），作為輔助數(shù)據(jù)（包括“EAV”和“SAV”的8個字）。因此，模擬視頻中的行消隱期間，在數(shù)字視頻中被稱為行輔助數(shù)據(jù)區(qū)“HANC”（Horizontal Anicillary Data）。

    同樣，模擬視頻中的場消隱期間，在數(shù)字視頻中被稱為場或幀輔助數(shù)據(jù)區(qū)，由EBU定義為“VANC”（Vertical Anicillary Data）。我國廣播電影電視行業(yè)標準GY/T160-2000《數(shù)字分量演播室接口中的附屬數(shù)據(jù)信號格式》，是等效采用ITU-RBT1364建議書標準，規(guī)定了數(shù)字分量演播室應用的嵌入到視頻數(shù)據(jù)信號中的輔助數(shù)據(jù)格式（圖3）。