由SRS發起的3D音頻聯盟(3DAA),旨在通過業界整個產業鏈(包括制作、存儲、編解碼等)各方面企業共同努力,針對3D影像研發出一種完全配合3D畫面的3D聲音,建立一套全新、開放、真正的3D音頻標準。
當前的環繞聲基本上都是二維的,只有寬度和縱深度。3D音頻增加了高度這個維度。以前的做法是增加音箱和聲道,即基于多聲道的架構,而3DAA采用的是獨特的、基于目標物體本身在三維空間的位置的音頻技術。基于物體的音頻由動態置于三維空間內的各個聲源組成。
3D音頻在音箱配置標準化的影院播放環境是可行且不錯的。不過,消費者播放在所用的音箱數量和這些音箱放置兩方面都很不一致,而現在向3D音頻轉換,只有使此多樣性增加。為了令各種消費播放系統上3D音頻有最佳的效果,以適應性更強的形式傳送此聲音非常重要。這種形式就是基于目標物體的音頻。
基于物體的音頻和基于音箱的3D混音有異同。用戶接口看上去是一樣的,而監聽音箱也是一樣的聲音。不同點在于音頻的獲取方式。前者并非記錄音箱信號,系統記錄的是一個3D空間內各個物體的音頻。對于監聽,此音頻被單獨映射到播放場地內使用的實際音箱配置。對于數字影院,生成器可設為一種標準的音箱配置,而輸出信號以多聲道PCM的形式用通常方式傳送。
播放生成器知道混錄或聆聽空間內每個音箱的存在和位置,并把該音頻映射到音箱以達到最佳的3D體驗。對于某一配音階段,基于物體的音頻并不提供超越傳統混錄系統的額外效能或聲音優點。真正的價值出現于這些混音在交替的音箱配置上播放的時候。基于音箱的混音完全不能通過重新配置像基于物體的音頻一樣有效在不同的音箱布置上播放。無論是生成器采用簡單的成對聲像移位,還是采用更先進復雜的空間成像技術,結果都是以與原始藝術目標更一致的方式表現3D混音。
由于基于物體的音頻是一種新傳送格式,3DAA碼流內具有某種提供后向兼容性的方式。它為3DAA編碼器的一種選件,建立一個對傳統的5.1傳送系統后向兼容的內核。
3DAA成果(規范、實現工具和試驗素材)支持線性、基于物體的音頻內容可互操作地在各種傳送機制上傳輸到從家庭影院到大規模場地的各種聆聽環境。這種線性內容有單一的時間線和混音—它們并不隨播放事件而變化。音頻目標由置于三維空間的各個聲源組成。
不過,3DAA工作范圍并不包括:
·非線性音頻,即根據播放條件有多個可能的時間線和混音的音頻(但3DAA可被交互應用用于線性內容播放);
·3D音頻創建過程,或限定3D音頻被生成的過程,除了定義一種參考生成器以外。
高級架構
如圖1所示,3DAA高級架構由三個基本方面組成。
傳輸
3DAA架構的核心是3D音頻流,它被封裝于一個碼流內—完整的線性3D音頻解碼所需的音頻實體和元數據信息。此3D音頻流支持實況和預錄的內容、廣播和單播分發,以及流式和下載應用。
3D音頻流由位于三維空間內的音頻目標組成。這些音頻目標不必與音箱位置重合,也許與像發散等的特性相關。這些音頻目標被相對于混錄位置(假定位于單位半圓的中心,參加圖2)放置。音頻目標可位于此單位半圓內外。參考生成器(或適當的替換物)將這些音頻目標轉換為位于單位半圓上的監聽音箱,如圖3所示。

至于后向兼容,3D音頻流可以包含一個核心的兼容碼流,它是一個5.1音箱信號整個聲場的縮混。這使與(1)大眾的5.1音箱配置和(2)現有的傳輸設施和播放設備相兼容很容易,可忽視音頻目標。基于此縮混處理的知識,能夠3D播放的設備從此核心碼流減去音頻目標,并生成針對可用音箱配置而優化的完整節目。此擴展碼流內的每個音頻目標可根據其相對重要性進一步分類,主要的頭頂效果聲可比在環繞聲音箱之中移動的聲音有較高的等級。隨著傳輸碼率變得緊張,較不重要的目標可從此傳送流除去,但通過核心兼容碼流依然可完全聽到。丟失的既非聲音亦非聲音保真度(響應、失真),而是空間輪廓。在最壞的情況下,整個音頻目標擴展丟失,而整個節目就與其它傳統的5.1節目一樣。
3D音頻流可映射到各種傳輸流(MPEG-2 TS)、視頻格式(MP4、ASF)以及硬件接口(HDMI)。
播放
3D音頻流最后被轉換為聽眾享受的一個聲場。此播放過程在概念上被分成兩步。一個分析程序首先根據一種3DAA獨特規定的緩沖和定時模型從3D音頻流提取目標。生成器然后把提取的目標轉換為聲場。

3DAA并不限定生成過程或環境,但定義一種參考生成器。考慮到目標音箱配置,此參考生成器以一種比特精確的方式規定音頻目標針對目標配置內每個音箱的生成過程。圖3表示這樣一種音箱配置。此過程取決于目標的特性和目標相對于每個音箱的位置。

參考生成器的定義使測試容易,并確保3D音頻流有清晰的解譯。
創作
雖然3DAA定義3D音頻流及相應的生成器,但它不規定其創建的過程。這令各種情況都有可能,包括以下的例子。
·例子1:3D音頻流在原始內容于錄音棚創作期間創建。創作工具包括控制面和PC托管的軟件。
·例子2:3D音頻流在播放期間通過提取來自立體圖像內容的3D提示,由傳統內容動態生成(合成)。
在所有情況下,盡管創建過程本身不在3DAA工作范圍內,但創建過程的輸出為有效的3D音頻流。 B&P