(接上期)
我頻道媒資系統在前期設計階段,結合頻道節目磁帶庫存量,制訂了媒資收錄的計劃——日常播出節目播出后經上載進入媒資,此外每天定量上載以前的節目入媒資。根據現存的兩套非編網絡(喜馬拉雅專題制作網和大洋新聞網)的通用視音頻采集設置(視頻采集格式DV/DVCPRO,碼率25Mb/s;音頻采集格式WAV,48Hz,16Bit),初步按照每天上載DV(25Mb/s)素材節目12小時(部署2個媒資上載站點同時工作),則可以計算出媒資上載的存儲量:
一天存儲容量=25×12×3600/8×1000×2=270GB
一年存儲容量=270G×365=100T
對于媒資系統的在線存儲,我們將高低碼率的媒體文件在物理上單獨規劃:高碼流視音頻方面,我們配置了新奧特AS5000F-1磁盤陣列作為光纖末端的在線存儲盤陣,其內置16塊500GB的SATA-Ⅱ磁盤。它支持多種RAID模式:RAID0,1(0+1),3,5,6,10,30,50,60,NRAID和JBOD,特別是RAID6的支持,使其容錯能力更強;RAID的條帶化尺寸和緩存策略都可以根據需要進行調整,而且支持多種智能化處理。由于在搭建系統時已經做了RAID5(第1到第15塊硬盤進行RAID5配置,第16塊盤作為熱備冗余)配置,所以有效存儲空間約為6T左右。我們還部署了兩臺MDS存儲管理服務器和一臺NAS服務器來對在線存儲進行管理、定義相關設備間的互聯訪問,使在線存儲能夠適應單網、雙網等各種網絡架構,針對不同的客戶端布局提供相應的開放方式。前面已經計算出理論上每天媒資上載所需存儲空間為270GB,所以這個空間完全可以支持一段較長時間內高碼流視音頻存儲緩沖區的應用。
另外,我們部署了一臺流媒體服務器——RAIDSYS(建聯)的AS3000N,對低碼流素材和媒資流程中產生的元數據進行存儲管理,該服務器盤陣也是配備了16塊500GB的7200K rpm磁盤,同樣進行了RAID5配置(第1到第15塊硬盤進行RAID5配置,第16塊盤作為熱備冗余),有效存儲空間也為6T左右。由于媒資系統設定的低碼流文件格式為WMV,碼率300kbs,所需存儲空間很小,元數據的大小更是可以忽略不計,所以這臺單獨的流媒體存儲管理服務器提供了足夠低碼率文件和相關元數據長期存儲的空間,同時還為媒資流程中需要瀏覽、粗編低碼流素材的節點提供相關服務。
近線帶庫方面,基于對單個磁帶庫穩定性和安全性的要求,我們選擇了HP EML 103e,帶庫內部結構及存儲節點示意圖如圖1:

帶庫的基礎模塊包括共103個磁帶存儲節點,加載箱的5個節點在可以移動的暗盒里,而且可被配置為載入載出節點或存儲節點。圖中③所示部分可以指定9個節點作為預留,預留節點常用來存放清洗帶。固定可用的節點數取決于是否已達到帶庫的底端,因為帶庫的底端通常緊鄰基礎模塊,底部限制了機械臂可以移動的距離。如果帶庫底端緊鄰基礎模塊,最下面的兩排(16個節點)就不可用。由于我們前期并沒有進行擴容,而且考慮到放入取出磁帶的日常需要,所以目前有效的磁帶存儲節點共有103-5=98個。
磁帶驅動器和磁帶的相關技術已經非常成熟,最為業界熟知的莫過于LTO技術——線性磁帶開放協議(Linear Tape Open)。作為當今數據存儲業最可靠的格式之一,LTO技術通過使用薄磁性層實現了高密度存儲和高輸出讀取數據,它結合了線性多通道雙向磁帶格式的優點,基于服務系統、硬件數據壓縮、優化的磁道面和高效率糾錯技術,以提高磁帶的容量和性能。LTO具有兩種存儲格式:高速開放磁帶格式Ultrium和快速訪問開放磁帶格式Accelis,定制兩種格式是因為并不是所有的用戶都要求相同的特性和功能性。一些應用程序強調重點在“讀”,要求快速的數據訪問速度。而另一些應用程序則重點在于“寫”,要求最高的磁帶存儲能力。
Ultrium磁帶格式除了具有高可靠性的LTO技術,還具有大容量的特點。它能夠單獨操作,也可以在自動操作環境中使用。通過使用單卷輪介質,實現了高容量和高性能的優化,適合于備份、存儲和歸檔應用,并將為大容量數據存儲設置新的基準,以滿足企業用戶的需要。Accelis磁帶格式則主要側重于快速數據存儲。它在磁盤中裝載了雙軌磁帶存儲器以減少存取時間,提高速度,而且能夠很好地適用于自動操作環境,可處理廣泛的在線數據和恢復應用。
這兩種格式都使用同樣的頭、介質磁道面、通道和服務技術,并共享許多普通的代碼部分。因為廣電行業內的存儲用戶更偏重于對存儲容量的需求,所以兩種格式相比較而言,Ultrium格式是更值得關注的技術。LTO Ultrium系列磁帶存儲容量由100GB至800GB(非壓縮),并在壓縮后能達到1.6TB,最大數據傳輸率可達120至240MB/秒。當然,Ultrium格式的優勢并不僅僅在存儲容量上。在數據安全性方面, Ultrlum 960和 Ultrlum 1840對重寫(rewriteable),一寫多讀(Write-Once,Read-Many(WORM))都支持。WORM磁帶因為不能擦除或覆蓋,所以加強了針對數據篡改的高安全性。
由于HP EML 103e帶庫可以使用Ultrlum 460 (LTO 2), Ultrlum 960 (LTO 3)和Ultrlum 1840 (LTO4)的磁帶驅動器,在搭建媒資系統階段,我們結合數據的讀寫帶寬、速度,特別是為了保證媒資寫入帶庫內數據的高安全性,選配了2個Ultrlum 1840 (LTO4)的磁帶驅動器,并在后期購買了與之適配的LTO4的WORM磁帶100盤,每盤存儲容量為800GB,這樣80T的總體存儲容量使得我們在一個相對較長的時間內可以不用考慮帶庫的擴容。即便是到使用后期需要擴容,也只需增加帶庫的基礎模塊、驅動器和磁帶,對系統的改動相對簡單。
媒資系統數據庫的元數據是保證整個系統正常運行的關鍵。我們將數據庫安裝在兩臺數據庫服務器的共享陣列HP MSA2000盤陣上,利用集群技術實現兩臺服務器互為備份來管理數據庫。其內置了10塊146G的SAS硬盤,其中第1-2盤進行了Raid1配置,用來安裝集群和數據庫;第3-9盤做了Raid5配置,存放媒資流程中所產生的大量的非編工程標題信息,這些標題信息是在媒資系統和兩套非編網絡(喜馬拉雅專題制作網和大洋新聞網)進行數據交換時的重要數據,所以也要對其進行更加安全的管理和存儲,后面會結合實際流程來闡述;第10塊盤作為冷備,平時無需加電。
上述幾部分的數據存儲管理單元就構成了媒資系統中的數據存儲管理區域(如圖2所示)。硬件方面的部署只能盡可能地保證媒資系統作為一個數據倉庫其本身的安全性,廣電行業的網絡技術發展到現在,媒資系統已經不再被定義為一個孤立版塊,伴隨著全臺網業務流程的定義,媒資系統中的數據管理還要做到“動起來”,即把握數據流向,在相關的業務流程節點上來完善對數據的管理,軟件上也要做出相應的部署,制定合適的策略。

測試運行——理清業務流程,把握數據流向
媒資系統應采用統一的工作流管理機制,一方面能大幅度提高系統工作效率,而且業務流程管理方便快捷。成熟的業務流程依附于全臺網架構,利用主干系統連接各個業務子系統。主干系統提供統一的管理控制平臺,集中進行用戶管理、系統管理、工作流管理、編目體系管理及存儲區域管理。對于運行當中的媒資系統,其數據管理應該充分考慮數據通信的不同特點:數據通信可能存在不間斷的連續性,比如元數據的實時通信和數據“環路”,因為管理元數據的服務器之間需要互相通知;要區別對待元數據的“一對一”和“一對多”通信,前者的數據可以不用進入數據庫,只需對其制定安全的存儲和訪問機制,即點對點的暢通,比如帶庫管理服務器和帶庫就是這種關系,而后者就需要部署一個共享性質的數據庫,跟隨定義好的流程保證數據的安全交互,比如媒資管理服務器,就需要和主干系統、媒資內部的編目、檢索、轉碼等多個服務器進行一對多的通信;還要注意到媒體數據本身帶來的管理難度。由于媒體數據較大,一旦需要遷移,除了要注意遷移的效率,還要注意數據在遷移過程中的安全性,軟件上還應對文件進行必要的檢查校驗。此外,流媒體、網絡平臺、B/S等技術的利用,還可以有效地保護數據安全。
由于業務流程和數據流向是依附于具體的節點定義的,其中數據的形式、存儲的方式、備份的選擇、管理的策略等等都是需要根據不同的情況和定義來進行規劃管理,所以為了更好的闡述數據管理,在此給出一個完整具體的業務流程并對其進行數據管理的分析和討論。前面已經介紹了我頻道全臺網的基本組成情況,就選取“從新奧特專題制作網上載素材——入媒資編目存儲——大洋新聞網檢索下載入庫”這一業務流程。圖3給出了該業務流程的完整節點定義。

圖3 業務版塊流程節點示意圖
在新奧特專題制作網內,上載素材后可以有兩種方式入媒資:上載的素材可以直接入庫;也允許對素材進行編輯,經審核后打包生成新的素材入庫,也叫“標題打包入媒資”。進入審核階段后,“審核”業務可以靈活配置,提供了多級審核機制。審核完成,提交入媒資請求,開始進行數據遷移。
素材進入媒資系統后,按照圖示的節點順序進行。“歸檔”雖然屬于媒資內部業務,但此時帶庫管理服務器已經通知帶庫進行由在線存儲到近線存儲的遷移。這里需要進行歸檔策略的制定,避開歸檔任務高峰期時可能存在的處理瓶頸。即使遷移沒有完成,但“歸檔”任務已經完成,待“發布”后才能在媒資檢索工作站的B/S界面上進行檢索。當用戶選定一條素材要進行下載時,媒資系統數據庫首先要進行素材所在位置的判斷:如果該素材已被寫入帶庫磁帶,則進行“回遷”任務,由帶庫遷移至媒資在線存儲;如果該素材并沒有被寫入磁帶,本來就位于在線存儲,則直接由遷移服務器將其遷移至大洋新聞網的存儲體,同時完成相關元數據的登記數據庫操作。“轉碼”為下載業務提供片段下載、并將其轉碼為系統預先配置好的低碼率視音頻文件格式。[page]
根據業務流程,我們就可以得到與之整個過程完全對應的所有的數據流向(圖4所示),這也是進行數據管理的重要依據。圖中的每一次元數據通信,每一次媒體數據的遷移,都需要對數據進行管理規劃,這個過程不僅需要相關的硬件部署,更需要所依附的軟件平臺來進行數據操作,可以說每一個步驟都是實施數據管理工作的實例。

新奧特工作站上載素材時,為了應對媒資系統的數據需要,我們也對專題制作網的存儲設備進行了分級存儲規劃。采集的標準視音頻媒體文件(DV/ DVCPRO,碼率25Mbps)從工作站本地硬盤上拷貝到制作網的存儲體EMC CX 700盤塔中的高碼率文件存儲目錄下,同時根據系統預置的低碼率文件采集格式設定(WMV,碼率300kbs)采集與高碼率文件對應的低碼率文件,存儲在EMC CX 700盤塔中專門規劃出的低碼率文件存儲目錄下。在此過程中工作站還產生與之對應的元數據文件(META文件,記錄用戶信息、素材信息、存儲路徑等,是新奧特公司非編網絡自定義的元數據封裝格式)記錄入制作網數據庫;如需對素材進行編輯,當編輯完成后用戶提交打包任務,數據庫服務器會通知打包服務器進行打包操作,將時間線上的成片生成新素材。打包過程類似于采集,也有兩種高低碼率兩種媒體數據輸出格式,高碼率文件存儲在EMC CX 700中指定的“打包素材”目錄下的高碼率文件目錄,低碼率文件則存儲在指定的“打包素材”目錄下的低碼率文件目錄。同樣打包結束后會有新元數據記錄在數據庫中,為傳輸入媒資作準備。這種分級存儲不僅可以提供清晰的存儲管理模式,更重要的功能就是便于各種數據的交互和遷移,明確了數據遷移的相關位置,一定程度上降低了數據管理的復雜性。
用戶在新奧特專題制作網中提交入媒資請求,此時主干數據庫服務器與專題制作網數據庫服務器進行通訊獲取元數據,并將其封裝成XML格式——之所以選取這種元數據格式,是因為單個版塊自定義的元數據格式并不具備通用性(如上面提到的META文件),目前系統互聯元數據基本都是基于XML的,統一采用這種格式會更適合在全臺網多個版塊之間進行數據交互,從而簡化數據、提高效率。隨后主干數據庫服務器通知媒資管理服務器,完成對該素材元數據登記入媒資數據庫的操作。在這一過程中,媒資數據庫服務器會對接收到的元數據進行“查重”分析,如果接受到的元數據所指向的素材或者標題已經在媒資數據庫中存在,為了避免數據的重復寫入和重復遷移,則不執行該遷移任務,并在用戶界面彈出“該對象已存在”提示。元數據確定后,主干通知遷移服務器并提交遷移任務,根據元數據的內容將元數據和媒體數據文件一起遷移至媒資系統。值得一提的是,遷移過程中服務器會對媒體文件進行MD5校驗,雖然執行時間較長,但保證了文件的數據完整性和正確性,提供了更為安全的數據管理模式。
遷移完成后數據進入媒資系統。高碼率媒體數據文件存入媒資在線存儲體中,相應的低碼率文件存入流媒體存儲管理服務器中,元數據文件寫入媒資數據庫服務器。通過編目工作站生成的編目信息成為非數據庫元數據文件存入流媒體存儲管理服務器的指定元數據存儲目錄下,與低碼率文件并行存儲、單獨管理。另外編目過程中編目軟件會通知流媒體管理服務器來調用低碼文件預覽等功能,并不是直接對媒體數據本身進行操作,這也在一定程度上保護了媒體文件的安全性;同時支持二次編目,即使編目流程已經執行完成,還可以申請二次編目操作,系統會記錄新產生的編目元數據。
編目過后用戶提交任務,進入歸檔階段。在歸檔時需要制定合適的歸檔策略,除了需要考慮歸檔中心的吞吐效率之外,還要認識到由于媒資管理服務器擔負著編目、轉碼等流程的管理,還有與相關服務器進行元數據通訊等功能,所以還要制定策略時還要考慮媒資管理服務器自身的數據負荷問題,此外還要保證在線存儲有足夠的空間。我們將歸檔策略配置如下(圖5所示)。

媒資管理服務器根據設定的存儲遷移策略,通知帶庫管理服務器對帶庫進行寫操作,將媒體數據從在線盤陣遷入數據流磁帶庫中。素材入媒資流程完成。
大洋新聞網中的用戶登錄通過媒資系統Web應用服務器檢索并下載素材,根據媒體文件重新利用的使用需求,媒資管理服務器首先進行元數據查詢,判斷該素材是在在線存儲還是在磁帶庫中,如果在在線存儲中,直接從在線存儲遷出;如果在帶庫磁帶上,就對帶庫自己的數據庫進行查詢,找到對應的磁帶,執行回遷任務,將媒體數據從磁帶中遷移至在線存儲中。其次媒資管理服務器還要與檢索工作站進行通信,判斷用戶是否進行打點下載(即片段下載),獲取相關數據信息(片段入出點)通知轉碼服務器對該片段進行轉碼,重新生成符合用戶需求的媒體數據。
此時媒資系統將等待遷移至大洋新聞網的素材的元數據文件封裝成XML格式,通知大洋數據庫服務器,同時通知主干服務器有數據需要遷移。主干服務器再通知遷移服務器,根據XML文件中指向的存儲位置將媒體數據遷移到大洋新聞網中的EMC CX480存儲體中,該遷移過程同樣進行MD5校驗。遷移完成后,大洋新聞網數據庫獲取元數據,通過導入的方式重新生成元數據并寫入數據庫中,完成該素材在新聞網中的登記入庫。如圖中所示的那樣,大洋新聞網的在線存儲體為兩臺EMC CX480,進行了“雙讀雙寫”的配置,實現了媒體數據文件的物理上雙重備份,大大提高了數據管理的安全性。
為了更好的進行媒資系統的數據管理,結合行業內一些先進的技術和經驗,也出現了許多新的方法和嘗試,包括提升數據存儲的安全等級,以及越來越被廣泛采用的“編目前移”。
媒體文件在數據流磁帶中,即可在非加電的情況下實現長期可靠保存。但是數據流磁帶也會因為可能的空氣粉塵污染、偶發的磁帶驅動器物理故障(絞帶等)甚至是外力擠壓破損等自然因素造成數據丟失,為避免這些偶然因素對媒體數據帶來的存儲風險,對近線數據流存儲也提供了存儲自動雙備份、數據流磁帶手工克隆、重要對象多實例存儲幾種安全性措施。其中存儲自動雙備份是指,可以設定近線雙備份存儲資料組,當系統對這些媒體資料進行分級存儲遷移的時候,自動將一個媒體文件同時存儲在兩盒數據流磁帶中,在存儲遷移完成后,只要任何一盒包含相關文件的數據流磁帶可用,都可將該媒體數據的完整遷移回在線磁盤供進一步使用。實際應用中從來沒有發生過兩份數據流磁帶同時不能使用的情況,這就保證了雙備份資料存儲的絕對安全。當系統中需要雙備份存儲的資料比例不是特別多的情況下,為相對節省存儲成本,帶庫管理軟件還可以提供指定數據流磁帶的手工“克隆”功能,該功能可對指定的重要數據流磁帶創建一份完全相同的“克隆”磁帶,從而實現該部分資料的存儲安全。此外,由于資料的重要性不一定在歸檔時完全明確,某些情況下用戶很難決定哪些數據流磁帶需要完整克隆,或者完整克隆的成本較大,這時媒資系統還可以提供重要對象多實例存儲的功能:由用戶手工指定某些重要媒體數據需要“多實例”存儲,系統會自動將這些媒體數據復制到多份數據流磁帶中,只要任何一個包含該媒體數據的數據流磁帶可用,系統都能將其安全遷移回硬盤供后續使用。這樣既可實現以前未雙備份素材的安全存儲,又避免了非重要素材的過多存儲投入。
對于系統中存儲的低碼流、關鍵幀和媒體數據的附件信息來說,由于其數據量相對比較龐大,一般這些數據是不進入數據庫存儲的,數據庫備份還原措施無法實現對這些數據存儲安全的有效保護,所以在客觀上要求實現目錄備份和分級存儲同步關鍵幀/低碼流功能。目錄備份功能是通過在歸檔中心設置備份數據流磁帶,指定需備份的目錄文件夾的形式,創建系統的目錄備份任務。帶庫管理軟件應該制定相關策略,每天定時將指定目錄中的新增文件備份到數據流磁帶中,在任何需要將數據重新寫回硬盤的時候,都可將指定目錄的文件完整恢復到管理服務器的硬盤上,從而保證數據庫外存儲的關鍵數據的安全性。媒資系統的核心功能是提供對媒體文件的分級存儲,擴展系統存儲空間,其對媒體數據的存儲管理是基于媒體對象的,這就意味著媒體數據不是一個個孤立的文件,而是包含了所有相關文件信息的一個媒體對象集合,在此基礎上歸檔中心提供了對關鍵幀/低碼流文件的另外一種附加安全保障,即在進行媒體文件從在線存儲(硬盤)向近線存儲(數據流磁帶機/數據流磁帶庫)遷移存儲的同時,可同步進行關鍵幀/低碼流文件的拷貝存儲。這樣只要數據流磁帶沒有損壞,媒體數據包含的所有文件都可以通過歸檔中心從數據流磁帶回遷到硬盤/服務器中供用戶使用。
隨著網絡化建設的深入和資料數量的爆炸性增長,編目信息主要在媒資內部依賴人工編目的工作模式越來越不能適應實際需要,編目前移的概念被越來越多付諸實施。完整有效的實現編目前移需要多系統的配合,比如在制作版塊內,就可以實現第一手資料的一次編目,開發專門的元數據來記錄素材信息、場記、同期聲、文聯稿件等,規范入庫交換元數據的結構。制作版塊忠實記錄所有引用關系,在提交媒資入庫時,媒資系統會對元數據進行有效的繼承,重點包括三個層面的內容:素材引用切點信息,素材原始初級編目信息以及與切點相關的素材場記、同期聲的制作等元數據信息。入庫接收后,在媒資系統內對接收元數據的人工審核和修改完善,同時使用自動化的輔助編目手段減輕人工編目的壓力,補充關聯信息。最后在用戶檢索使用時對各類元數據和資料之間的關聯信息進行全面的展現,幫助用戶更快的找到所需資源。B&P
(全文完)
參考資料:
1. 大洋iMAM媒資系統存儲安全操作指導書
2. 進階媒資系統設計