【內(nèi)容提要】本文主要介紹了數(shù)字音頻的嵌入過程和實際的應用,以及相關的標準。
【關鍵字】 數(shù)字音頻 嵌入
隨著數(shù)字電視技術的發(fā)展,數(shù)字播控中心也成為各電視臺建設的重點,這也是從模擬向數(shù)字化過渡的特殊時期,不可能從采編到播出全部實現(xiàn)數(shù)字化,特別是音頻系統(tǒng),從模擬音頻到數(shù)字音頻,再到數(shù)字音頻的嵌入,這是一個非常繁瑣的過程,下面從實際到理論就這個過程作一下介紹。
一. 音頻嵌入技術在電視播出系統(tǒng)中的應用
對于視頻、伴音分離的系統(tǒng),在電視信號模數(shù)轉換和傳輸?shù)倪^程中,視頻和音頻不同的處理方式和特點,導致視頻滯后于音頻,圖像和聲音不協(xié)調(diào)和諧的問題也顯得比較明顯。
在電視節(jié)目播送中,視頻信號制約于相應的音頻信號,達到互相同步,或利用數(shù)字視頻信號對數(shù)字音頻信號加以攜帶,形成一個有機統(tǒng)一的整體(音頻嵌入技術),同時又能安全的解出,以使受眾得到聲畫同步的完美的電視圖像,是我們在數(shù)字電視播出系統(tǒng)設計中,極為關心的問題。
以我臺播出部為例,簡單解釋一下音頻信號的流程:由于我臺仍然有大量的電視劇錄像帶是Betcam帶,而本臺自辦節(jié)目是DV帶,所以用于上載的錄像機就有Betcam和DVCPRO兩種,我們統(tǒng)一使用模擬音頻信號輸出,它首先通過一個音頻限幅器,對輸入的音頻進行自動增益控制和過峰值控制,到Profile視頻服務器的音頻接口盒,將模擬音頻轉換為AES/EBU數(shù)字音頻,通過輸入音頻編碼板編碼為文件存入硬盤盤塔;從盤塔返回Profile的音頻文件解碼后通過輸出板嵌入到SDI視頻信號中。在QMC切換臺上,為了能夠調(diào)節(jié)輸出伴音,又將帶嵌入音頻的SDI信號分解成SDI視頻和AES/EBU數(shù)字音頻,再將AES/EBU數(shù)字音頻通過一個D/A轉換成模擬音頻進行音量調(diào)整,然后經(jīng)A/D轉換成AES/EBU數(shù)字音頻,再嵌入到SDI視頻中輸出,這是目前音頻嵌入式播出系統(tǒng)的普遍模式。
音頻嵌入式電視播出系統(tǒng),相對于音視頻分離模式的系統(tǒng),有著很多優(yōu)點。一般來說,音頻嵌入模式適合于較大型系統(tǒng)中的各種切換,達到靈活輕便。切換中的音視頻的協(xié)調(diào)統(tǒng)一,是靠程序控制中央處理器的統(tǒng)一指令完成的,而中央處理器的程序設計很容易實現(xiàn),運作簡單、實用、可靠。對于小型系統(tǒng),音頻嵌入也有一定的使用價值,當然要看設備系統(tǒng)的性能價格比和需要而確定。
二. 數(shù)字音頻信號
1.AES/EBU數(shù)字音頻
1992年,美國音頻工程師協(xié)會(AES)和歐洲廣播聯(lián)盟(EBU)共同制定了數(shù)字音頻的接口標準,即AES/EBU數(shù)字音頻格式。在這個基礎上,國際電信聯(lián)盟將其歸納為ITU-R BS647-2號建議書《廣播演播室數(shù)字音頻信號的接口》。
AES/EBU的構成:由兩個信號通道組成。這兩個聲道可作為立體聲的左、右聲道,可作為獨立的聲道,可將兩聲道傳輸同樣的聲音,把一個AES/EBU信號作為單聲道使用。
在視頻領域,我們對視頻的取樣為8比特或10比特,而對于音頻來講,10比特是遠遠不夠的,它不能滿足聲音的動態(tài)范圍及信躁比的要求。因此對于音頻的取樣為16-24比特。
每一個取樣組成一個32位的副幀,前4位為通道狀態(tài)識別位,指示后面的音頻數(shù)據(jù)是哪一個通道的音頻數(shù)據(jù),其后4位的輔助數(shù)據(jù)(可以用它擴展AES/EBU為24比特)然后是20位的音頻取樣數(shù)據(jù),音頻取樣數(shù)據(jù)之后是一位音頻取樣有效位,用來指明音頻取樣的比特位數(shù)是否有效。在其之后用戶比特位用于攜帶其它信息,例如:時碼。第31位為音頻通道狀態(tài)位,它可以攜帶與信號有關的重要信息:例如取樣頻率、聲道類型、輔助比特的應用方式等,最后一位CRC奇偶效正位,用于對總的數(shù)據(jù)通道數(shù)據(jù)狀態(tài)進行誤碼檢測。
2.AES/EBU數(shù)據(jù)結構(如圖2): 由192個副幀進一步組成一個數(shù)據(jù)幀,每一個數(shù)據(jù)幀的起始點由第一副幀的前4位的狀態(tài)位來表述,即前置位表述為“Z”。而其他副幀前置位表述為代表通道狀態(tài)的“X”或“Y”
3.AES/EBU數(shù)字音頻的優(yōu)點: AES/EBU數(shù)字音頻信躁比高,傳輸質(zhì)量好。是獨立的音頻通道,便于做音頻處理(調(diào)音處理)對于75歐的AES/EBU數(shù)字音頻系統(tǒng),可用原有模擬視頻系統(tǒng)替代。
三. 嵌入數(shù)字音頻
在電視領域,音頻信號出現(xiàn)“唇音”是我們非常關注的問題。所謂的“唇音”指的是由于視頻信號和音頻信號傳輸路徑不同,因此信號的延時也不同,這樣就造成了聲音和圖像出現(xiàn)延時差。在分離的視、音系統(tǒng)中需要一些音頻延時器予以克服。而在數(shù)字視頻SDI的傳輸?shù)耐瑫r,我們可以利用SDI信號的輔助數(shù)據(jù)區(qū),把數(shù)字音頻信號嵌入到SDI信號中一起傳輸,從根本上消除了的除了“唇音”問題。這也就是傳輸音頻信號的第3種格式—嵌入音頻格式。
1.嵌入數(shù)字音頻的位置
在模擬視頻中存在著行、場消隱期。在行、場消隱期內(nèi)并不存在著有效圖象信號。對于數(shù)字視頻信號,也對應存在這樣一個時間區(qū)間,這個區(qū)間被稱為行、場的輔助數(shù)據(jù)區(qū)。行輔助數(shù)據(jù)區(qū)由SMPTE定義為“HANC”(Horizontal Anicillary Date),場輔助數(shù)據(jù)區(qū)由EBU定義為“VANC”(Vertical Anicillary)。
我們清楚地知道,分量數(shù)字視頻格式的有效行中,625/50制共有1728個取樣字(525/60制為1716個取樣字),其中對Y、Cb和Cr取樣有1440個取樣字(0~1439)。而對行消隱期間的取樣可安排288個取樣字(525/60制為276個取樣字)。數(shù)據(jù)傳送中,每行的消隱期間的數(shù)據(jù)是相同的,對于數(shù)字化來說就是所謂的“冗余”部分,在標準中用“SAV”和“EAV”,予以界定并作為接收端恢復的標志,就不再需要傳送同步和色同步信息了。那么在“EAV”和“SAV”之間就可用來放置288個字(525/60制為276個),作為輔助數(shù)據(jù)(包括“EAV”和“SAV”的8個字)。因此,模擬視頻中的行消隱期間,在數(shù)字視頻中被稱為行輔助數(shù)據(jù)區(qū)“HANC”(Horizontal Anicillary Data)。
同樣,模擬視頻中的場消隱期間,在數(shù)字視頻中被稱為場或幀輔助數(shù)據(jù)區(qū),由EBU定義為“VANC”(Vertical Anicillary Data)。我國廣播電影電視行業(yè)標準GY/T160-2000《數(shù)字分量演播室接口中的附屬數(shù)據(jù)信號格式》,是等效采用ITU-RBT1364建議書標準,規(guī)定了數(shù)字分量演播室應用的嵌入到視頻數(shù)據(jù)信號中的輔助數(shù)據(jù)格式(圖3)。
根據(jù)SMPTE 291M標準定義的輔助數(shù)據(jù)包和空間的格式:
(1)在