
先進的視聽技術令我們今天的生活更加多姿多彩,作用于機器和產品幕后的技術同樣功不可沒,正是有了運行于芯片之中的那些在界面上看不見的東西,多媒體信息才能夠有效地進行存儲和傳輸。以下將從三個部分闡釋這些“幕后的技術”。
視聽信息基本情況及應用
視聽信息主要是指與主觀感知相關的幾大媒體。
音頻是一維的時間信號,帶寬一般在20kHz。在實際應用過程中音頻還存在聲道問題,涉及到單聲道、多聲道、立體聲和環繞聲。
視頻是一個數據量更大的媒體,是時間上的二維信號(運動圖像序列),其分辨率也是在不斷進化中。早期的多媒體通信時代,人們會在簡單的終端上傳送分辨率僅為128×96的小圖像。到今天,隨著3D電視、多視點視頻、全景視頻的出現,視頻信號的數據量也成倍增長。
語音信號是一維的時間信號,帶寬較窄,為單通道。
圖像則是二維空間信號,即靜止圖像。
四大主要信源應用廣泛,包括:消費類電子、廣播電視、影劇院、演唱會、數字家庭、多媒體播放器以及多媒體通信實時音視頻通信、視頻會議、新聞采訪等等。為了能使其有效地存儲、傳輸和播放,我們需要對其進行數字處理,這也就引出了下面所要討論的話題。
視聽信息的壓縮編碼
之所以要對視聽多媒體信源進行壓縮編碼,是因為信源數據量特別大,以現有的存儲媒體或者通信信道很難直接進行傳輸。以音頻為例,標準的CD音頻數據量為44,100Hz×16bit×2聲道=1.4Mbit/s,DVD音頻為48,000Hz×16bit×5.1聲道=4.6Mbit/s,還可能有采樣速率為96,000Hz、量化精度24bit的專業級音頻等,由此而產生的數據量更大。視頻作為標準的電視信號有像素維度,因此數據量會更大,CCIR的數據量為720×576×24bit×25=248.9Mbit/s,HDTV為1,920×1,080×24bit×25=1,244.2Mbit/s,UHDTV的分辨率達到3,840×2,160甚至更高的7,680×4,320,數據量呈級數增長。而隨著3DTV、多視點視頻、全景視頻等新技術的出現,數據量還在不斷增大。語音方面,窄帶語音數據量為8,000Hz×16bit=128Kbit/s;寬帶語音為116,000Hz×16bit=256Kbit/s。圖像方面,低分辨率圖像數據量為1,024×768×24bit=18.8Mbit/s,高分辨率圖像為4,320×3,240×24bit=335.9Mbit/s。

壓縮編碼的目的就是減少存儲需求,提高存儲媒體利用率;降低信息傳輸速率,提高信道利用率;同時,還可以利用壓縮節省的數據,改善傳輸可靠性和安全性。壓縮編碼之所以能夠實現,是因為信源本身具有兩種多余的東西可以用來對數據進行壓縮,一種是多余度,一種是不相干度,壓縮編碼的思路就是消除這些多余的信息。
在模擬信號中如相似性、相關性比較強,即表明它的數據是多余的。比如,在視頻信號相鄰幀之間的相似性、圖像相鄰像素間的相關性、音頻信號中的周期性和語音信號中的短時平穩性等,都表明它們的數據中間很多數據實際上是多余的,可以通過數字處理的方式把它拿掉,實際上這些具有多余性的數據在我們傳輸的信息中是沒有必要的。
另外一個就是不相干度,這主要是針對我們主觀的聽覺和視覺系統。對于麥克風或攝像頭采集到的視聽多媒體數據,我們的主觀感知系統并非能夠全部收到和感知到,所以可以消除對主觀感知沒有用的那部分數據。通過這兩個方面的處理,將信源空間本身的大量數據壓縮以后就只剩下部分有用的數據,然后再進行數據的編碼、傳輸或者存儲。但前提條件是沒有主觀感知誤差,或者主觀質量在可以接受的范圍之內做信源編碼和數據的壓縮。
在這四大媒體中,它們的壓縮程度,或者說我們能夠做到什么程度,也是不一樣的。下圖以橫坐標表示壓縮比,越往右邊壓縮得越多,縱坐標代表壓縮編碼質量,虛線表示理想的目標:即對信源進行壓縮的時候希望質量并不下降,但是這也只是一個理想化的狀態,實際上壓縮的過程中一般都會有信息的丟失,所以質量是一定要下降的,但下降的程度也會有所不同。從壓縮比與質量的關系來看,視頻圖像在相同的壓縮比之下,質量下降相對較小;而聽覺系統包括語音和音頻,由于耳朵對誤差比較敏感,因此質量下降也相對更嚴重。
有幾種方法可以實現編碼的壓縮:一是無失真壓縮,信源本身如果在概率分布上呈現非等概特性或具有重復出現特性,就可以利用無失真的做法對它進行壓縮;二是有失真壓縮,這就需要丟掉信源的多余度或不相干性,雖然這種方式壓縮數據后,其物理信號上是有失真的,但是如果壓縮編碼做得好,在主觀感知上就不會感到失真,或者失真在可以接受的范圍之內。在現實應用中,實用的壓縮編碼算法都是把這兩者相結合實現的混合壓縮編碼方式。

現有的一些標準算法就基于這些方法之上,比如說MPEG-1、MPEG-2、MPEG-4。還有國際電信聯盟的標準,如關于圖像的H.264、H.263,JPEG2000亦屬于圖像編碼。語音編碼方面的標準有G系列的G.729和G.723.1標準。音頻編碼有AC-3、DTS、DRA、AAC、LPCM。在第三代移動通信里還會有一系列的語音編碼和音頻編碼,如AMR、AMR-WB、EAAC、EAAC+。在這些標準算法下,有各種各樣的質量,不同的壓縮比即體現不同的壓縮范圍。
視聽信息的版權保護[page]
同模擬信號相比,上述四大媒體在數字化之后優勢顯著,既能夠保證質量,在復制或者傳輸的過程中不會因為拷貝而導致質量下降,同時存儲和傳輸比較方便,應用比較靈活。在模擬信號里無法實現的處理在數字信號中是可以做到的,例如如果圖片拍攝不理想可以利用數字化進行修補,音頻錄制有噪聲,可以進行降噪處理。但同時當遇到和版權相關的問題時,數字化也體現出其不足之處,由于容易被拷貝、且拷貝與原始數據信息完全相同,所以易被盜用、篡改和擴散。目前市場上缺乏防止非法拷貝和擴散的有效手段,而且僅憑法律手段也很難保護數字內容版權,所以實際應用中就要對這種技術做一個補充,來有效保護多媒體信息。否則就會對整個數字視聽多媒體產業造成沖擊,阻礙其發展,解決之道就是借助于技術手段,推行新的數字版權保護技術。

版權保護的目的包括:所有權和版權的保護與控制;內容保護和完整性核實;認證和鑒定;授權使用和非法使用的追蹤和監控;防盜版、防拷貝、防擴散。具體的保護方法有很多種,其中,數字水印技術,就是把版權的信息、所有者信息利用數字的方法嵌入到內容當中,當數字內容被盜用或者被拷貝的時候,可以通過數字水印技術來確認所有權。數字指紋技術就是把用戶信息及其本次商業行為嵌入到數字內容里,具有唯一性,當內容發行商把內容發售給每個用戶的時候就會用到數字指紋技術,令內容僅可供自己使用,而不能再拷貝給別人。數字簽名技術則通過單向的函數,把數字內容里類似于摘要性的東西提取出來,然后存放到商業網的某一個地方,也可以直接附帶到內容里,它也是有唯一性的。此外還有數字認證技術、數字版權保護等。
數字媒體由于本身數據量巨大,在使用過程中需要先壓縮再進行傳輸,不進行數據壓縮而存儲和傳輸的情況極少。一般是數據經過編碼后進入信道,然后將其解碼進行傳輸。在過去的版權保護方式中,版權保護的信息可以直接插入原始數據中,然后交給用戶解碼后使用,如有需要用戶可以去驗證數字產品的歸屬權。但是如果產品一旦交給別人,或者發生問題,雖然可以提取版權信息來進行追蹤,但是在很多情況下,我們的人力、物力也很難做到。而作為盜版用戶來說內容里面有沒有水印并不重要,比如盜版DVD只要能看就行,并不會理會是否有版權保護的信息。所以在這這種情況下,在原來有的保護方法對這個盜版不起作用且我們也難以跟蹤的時候,必須想辦法阻止盜版者達到觀看目的。

我們設計了針對四大媒體原始視聽信息的基于信號處理的版權保護技術。如左圖所示,原始視聽信息(Ds),客觀質量(Qo),主觀質量(Qs),使用數字信號處理的方法進行預處理,直接處理最原始的信號,形成一個已經處理過的新媒體(Dp),這個時候客觀質量可能要下降(Qp),但是主觀質量沒有變,聽起來、看起來與原來是一模一樣的。但通過計算會發現里面已有變化,保護信息已插入其中,用戶便可以隨便傳輸和使用。
已經處理過的信號在經歷壓縮編碼的時候,由于壓縮編碼導致了一些誤差,解碼后其信息數據、客觀質量乃至主觀質量都會發生變化。其中主觀質量跟原來相比下降嚴重,因此通過這種方法插入保護信息以后就可以保護原始數據。首先在做信息傳輸的時候肯定要進行壓縮編碼,當用戶第一次使用時,壓縮編碼以后對方把高清信息記錄下來,在解碼以后的信息中再插入保護信息,這樣在轉碼和再進行壓縮的時候還是會出現問題。這種算法的好處在于不用人為來控制它,在內容發行后,如果用戶想通過解壓縮的方式來進行盜版,或者再利用的時候就會遇到麻煩。同時,如果需要,原始視聽信息的制造者可以提供數字處理手段將在預處理時已經插入的版權保護信息提取出來,以證實其版權或所有權。