啊用力?嗯?轻一点原神宵宫,尿口扩张videos,国产精品久久久久精品爆乳接种 ,荡公乱妇HD电影中文字幕


微博

QQ

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

2013-01-31 劉華 傳播與制作


  一.引言

  2012年初,中央電臺媒資備份存儲系統(tǒng)正式投入使用。經(jīng)過一年的運行,大量的節(jié)目內(nèi)容,豐富的歷史資料迅速將中央電臺媒資備份存儲系統(tǒng)填滿,嚴(yán)重掣肘了節(jié)目歸檔、素材入庫等媒資管理工作。近期中央電臺完成了媒資備份存儲系統(tǒng)在線擴容工作。備份存儲的磁盤容量由之前的20TB,增加30TB,總計達(dá)到50TB。短短一年時間,磁盤空間需求已經(jīng)翻番,可以預(yù)見,中央電臺媒資備份存儲系統(tǒng)還將面臨磁盤空間短缺的問題。面對日益爆炸的數(shù)據(jù)增長和由此不斷上升產(chǎn)生的存儲壓力難題,如何控制和有效降低海量數(shù)據(jù)顯得尤為重要。重復(fù)數(shù)據(jù)刪除技術(shù)無疑是“瘦身”的一項不錯選擇。

  二.?dāng)?shù)據(jù)冗余

  目前,中央電臺媒資備份存儲系統(tǒng)中,存在大量的重復(fù)和冗余數(shù)據(jù),造成數(shù)據(jù)冗余的原因可能是人為的:
  ·為了確保文件的安全性,無意中將同樣的文件存儲了多份;
  ·不同文件的部分內(nèi)容重復(fù)。
  冗余數(shù)據(jù)占據(jù)了大量的存儲空間,降低了存儲空間的利用效率。圖1展示了關(guān)于媒資備份存儲系統(tǒng)中重復(fù)數(shù)據(jù)的比例、來源和分析。

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

圖1 關(guān)于媒資備份存儲系統(tǒng)中重復(fù)數(shù)據(jù)的調(diào)查結(jié)果

  更重要的是:這些大量的冗余數(shù)據(jù)給媒資備份存儲系帶來了大量的問題:
  ·占用大量存儲空間,降低存儲利用效率;
  ·增加建設(shè)成本;
  ·增加額外數(shù)據(jù)管理代價。

  三.重復(fù)數(shù)據(jù)刪除概念

  通過相關(guān)研究和對實際系統(tǒng)的分析發(fā)現(xiàn),在海量數(shù)字存儲系統(tǒng)中,存在大量的重復(fù)數(shù)據(jù)和相似數(shù)據(jù)。通過重復(fù)數(shù)據(jù)刪除技術(shù)可以有效去除這些重復(fù)數(shù)據(jù),對相同數(shù)據(jù)只存儲一份和只存儲相似數(shù)據(jù)的不同部分,可以有效利用存儲空間,從而有效降低存儲系統(tǒng)成本。

  重復(fù)數(shù)據(jù)刪除是一種數(shù)據(jù)縮減技術(shù),旨在最小化文件之間的冗余和重復(fù)的無損壓縮,并對存儲容量進行有效優(yōu)化。它通過刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),只保留其中一份,從而達(dá)到消除冗余數(shù)據(jù)目的。

  目前,絕大多數(shù)的重復(fù)數(shù)據(jù)刪除算法都工作在二進制數(shù)據(jù)層次上,通常使用一些數(shù)據(jù)切分算法,如以整個文件為切分粒度,固定大小的數(shù)據(jù)切分,或者某些HASH函數(shù)(如Rabin Fingerprinting算法),將每一個帶歸檔的文件切分成若干相互不重疊的數(shù)據(jù)片段,并把這些數(shù)據(jù)片段作為邏輯單位進行后續(xù)處理和存儲操作。在這些數(shù)據(jù)片段中,只有不重復(fù)的數(shù)據(jù)片段才真正存儲到存儲設(shè)備中,而其他的重復(fù)數(shù)據(jù)片段只需記錄其ID和相應(yīng)的依賴文件的對應(yīng)關(guān)系即可。

  四.S48音頻文件格式

  與其他存儲系統(tǒng)中元數(shù)據(jù)的文件類型、文件格式多樣化不同,中央電臺媒資備份存儲系統(tǒng)中的元數(shù)據(jù)的文件類型、文件格式只有S48格式的音頻文件。對于重復(fù)數(shù)據(jù)刪除技術(shù)而言,我們需要熟悉S48文件,并針對S48文件特點進行重復(fù)數(shù)據(jù)刪除工作。

  S48音頻格式是指比特率為256kbits/s,采樣率為48000Hz的MPEG1-2格式。

  幀是MPEG-1處理的最小單元。每個幀又由幀頭、附加信息和聲音數(shù)據(jù)組成。圖2展示MPEG-1文件格式。

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

圖2 MPEG-1文件格式

  1. 幀頭結(jié)構(gòu)

  幀頭長4字節(jié),對于固定位率的MP文件,所有幀的幀頭格式一樣其數(shù)據(jù)結(jié)構(gòu)如下:
  typedef FrameHeader{
  unsigned int syn:11;          //同步信息
  unsigned int version:2;       //版本
  unsigned int layer:2;         //層
  unsigned int protection:1:    //CRC校驗
  unsigned int bitrate:4;       //位率
  unsigned int frequency:2;     //頻率
  unsagned int padding:1;       //幀長調(diào)節(jié)
  unsigned int private:1;       //保留字
  unsigned int mode:2;          //聲道模式
  unsagned int mode extension:2;//擴充模式
  unsigned int copyright:1;     //版權(quán)
  unsigned int original:1;      //原版標(biāo)志
  unsigned int emphasis:2;      //強調(diào)模式
  }HEADER,*LPHEADER;

  幀頭4字節(jié)使用說明見表1

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用
探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

表1

  幀文件尾的最后128個字節(jié)用來存放ID3信息,這128個字節(jié)使用說明見表2。

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

表2

  五.重復(fù)數(shù)據(jù)刪除設(shè)計思路[page]

 

  重復(fù)數(shù)據(jù)刪除的主要思路是通過利用不同層次上的元數(shù)據(jù)信息,如文件類型、文件格式、應(yīng)用類型和文件系統(tǒng)元數(shù)據(jù)等,來指導(dǎo)數(shù)據(jù)切分算法將文件劃分為更有意義的數(shù)據(jù)片段。元數(shù)據(jù)信息分為以下三類:
  ·應(yīng)用元數(shù)據(jù),如文件類型、文件格式、應(yīng)用軟件信息等;
  ·應(yīng)用或用戶的標(biāo)記,如用于描述圖片、音頻、視頻等多媒體文件特性的各種標(biāo)記,
  ·文件系統(tǒng)級元數(shù)據(jù),如目錄條目、文件的INODE信息等。

  重復(fù)數(shù)據(jù)刪除的主要目標(biāo)是最大限度減小文件之間的重復(fù)和冗余數(shù)據(jù)。對于中央電臺媒資備份存儲系統(tǒng)而言,我們就需要從以下三方面實現(xiàn)“瘦身”。

  1. 數(shù)據(jù)庫

  在對數(shù)據(jù)庫進行操作過程中重復(fù)的數(shù)據(jù)可能有這樣兩種情況,第一種是兩行記錄完全一樣,第二種是表中只有某些字段一樣。

  ·兩行記錄完全一樣:
  對于表中兩行記錄完全一樣的情況,可以用下面語句獲取到去掉重復(fù)數(shù)據(jù)后的記錄:
  select distinct * from  表名
  可以將查詢的記錄放到暫時表中,然后再將原來的表記錄刪除,最初將暫時表的數(shù)據(jù)導(dǎo)回原來的表中。如下:
  createTABLE暫時表AS(selectdistinct*from表名);
  truncatetable正式表;
  insertinto正式表(select*from暫時表);
  droptable暫時表;
  ·表中只有某些字段一樣:
  假如想刪除一個表的重復(fù)數(shù)據(jù),可以先建一個暫時表,將去掉重復(fù)數(shù)據(jù)后的數(shù)據(jù)導(dǎo)入到暫時表,然后在從暫時表將數(shù)據(jù)導(dǎo)入正式表中,如下:
  insertINTOt_table_bak  
  selectdistinct*fromt_table;

  2. 文件切分

  重復(fù)數(shù)據(jù)刪除對于S48音頻文件切分算法的實現(xiàn)基于以下的觀察和思考:許多不同的文件有著相同的音頻內(nèi)容和不同的TAG描述信息,即相同的歌曲由同一個歌手演唱,但發(fā)布在不同專輯,或者相同的內(nèi)容由不同編輯制作,這樣就有了不同的TAG。因此,一般把每個S48文件劃分成三個部分:幀頭、音頻幀、TAG,其中幀頭和音頻幀被解析和存在元數(shù)據(jù)服務(wù)器數(shù)據(jù)庫的某張表中,音頻幀作為一個邏輯數(shù)據(jù)片段存儲,以便進一步被打包成物理對象實際存儲在磁盤設(shè)備上。

  具有相同音頻的數(shù)據(jù)內(nèi)容被切成一個數(shù)據(jù)片段,只需保存其中一份即可。由于某些HASH函數(shù)(如Rabin Fingerprinting算法)可以捕獲到二進制層次上的重復(fù),所以若兩個數(shù)據(jù)對象具有相同的內(nèi)容,則可進一步進行重復(fù)數(shù)據(jù)刪除,只存不重復(fù)的數(shù)據(jù)對象。圖3展示了上述過程,并說明在存儲系統(tǒng)中數(shù)據(jù)組織的層次關(guān)系。

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

圖3 數(shù)據(jù)組織層次

  3. 方案實施

  重復(fù)數(shù)據(jù)刪除主要是針對大規(guī)模存儲系統(tǒng)設(shè)計,其進程可以部署在不同的應(yīng)用服務(wù)器上,且可作為核心進程運行。因此,其方案需要有較好的可擴展性,易于進行數(shù)據(jù)容災(zāi)的部署。

  因此在媒資備份存儲系統(tǒng)內(nèi)部署重復(fù)刪除技術(shù)至少需要包括應(yīng)用服務(wù)器,文件歸檔服務(wù)器,元數(shù)據(jù)服務(wù)器和智能存儲節(jié)點等四部分組件實現(xiàn)重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)存儲。圖4展示存儲系統(tǒng)體系結(jié)構(gòu)。

探討重復(fù)數(shù)據(jù)刪除技術(shù)在中央電臺媒資備份存儲系統(tǒng)中應(yīng)用

圖4 存儲系統(tǒng)體系結(jié)構(gòu)

  應(yīng)用服務(wù)器為各種應(yīng)用的宿主服務(wù)器,如WEB服務(wù)器,流媒體服務(wù)器等部署應(yīng)用服務(wù)端軟件。文件歸檔服務(wù)器主要是將文件歸檔到存儲節(jié)點,同時部署重復(fù)數(shù)據(jù)刪除軟件的地方。元數(shù)據(jù)服務(wù)器主要對元數(shù)據(jù)管理、與應(yīng)用服務(wù)器交互、安全機制的部署等服務(wù)。智能存儲節(jié)點是完全由通用組件,即操作系統(tǒng)、陣列柜、磁帶庫、文件系統(tǒng)等組成。

  對于每個存儲文件首先根據(jù)其相應(yīng)的元數(shù)據(jù)信息,被文件歸檔服務(wù)器切分成若干不重疊的數(shù)據(jù)片段。每一個數(shù)據(jù)片段將對內(nèi)容通過某些Hash函數(shù)計算得到的簽名作為其標(biāo)識符,用以判斷當(dāng)前是否有重復(fù)的數(shù)據(jù)片段存在。不重復(fù)的數(shù)據(jù)片段將被封裝成定長的數(shù)據(jù)對象,由元數(shù)據(jù)服務(wù)器決定將它們存儲到對應(yīng)的智能存儲節(jié)點中。最后當(dāng)數(shù)據(jù)的存儲位置信息將會返回到文件歸檔服務(wù)器。文件歸檔服務(wù)器可以與智能存儲節(jié)點直接進行數(shù)據(jù)傳輸。這樣應(yīng)用服務(wù)器產(chǎn)生、調(diào)用的節(jié)目素材等內(nèi)容就通過入庫、切割、計算、存儲等步驟進行了“瘦身”,最大限度的精減系統(tǒng)內(nèi)冗余、重復(fù)數(shù)據(jù)的產(chǎn)生,從而實現(xiàn)了重復(fù)數(shù)據(jù)刪除。

  六.總結(jié)

  隨著中央電臺編播系統(tǒng)數(shù)字化的發(fā)展,節(jié)目內(nèi)容、節(jié)目素材將呈現(xiàn)爆炸式增長趨勢,數(shù)據(jù)總量將急劇膨脹。我們將面臨諸多挑戰(zhàn),如媒資備份存儲空間不足、成本高昂等問題。本文通過對重復(fù)數(shù)據(jù)刪除技術(shù)的探討,采用標(biāo)準(zhǔn)、科學(xué)、先進和可靠的技術(shù),闡述了全新的媒資備份存儲系統(tǒng),為今后的媒資備份存儲系統(tǒng)發(fā)展規(guī)劃,提供了有效的支持,并確保系統(tǒng)在今后相當(dāng)長一段時間留有擴充余地。希望能為廣播電視的媒資備份存儲系統(tǒng)建設(shè)提供一種新思路。B&P

  參考文獻(xiàn)
  [1] 袁玉宇 劉川意 郭松柳 . 云計算時代的數(shù)據(jù)中心. 電子工業(yè)出版社 .2010
  [2] 李棟 數(shù)字聲音廣播 北京廣播學(xué)院出版社 2001
  [3] Dave Reinesl. Our Expanding Digital World:Can we contain it? Can we manage it? Intelligent Storage Workshop(ISW2008),UMN,MN,2008
  [4] 張為民 唐劍鋒 羅治國 錢嶺 . 云計算:深刻改變未來 . 01版 . 北京 . 科學(xué)出版社 . 2009
  [5] 朱近之 張振倫 金海龍 蔣建華 王春海未來,在云端 微型計算機 2011(2)

中央人民廣播電臺 探討 重復(fù) 數(shù)據(jù)

視聽科技視頻號 廣告
發(fā)表評論
主站蜘蛛池模板: 全彩爆乳无翼口工漫画大全| 情迷女人香小说阅读全文| 娇嫩大张哭喊承受h| 欧美在线观看日韩欧美在线观看| 厨房婬乱公妇1-42小说| 一级在线高清理伦片| 放荡的护士3| 公交车上爽叫| 久久久高清日本道免费观看| 美女操大逼| 少妇做爰高潮呻吟A片免费动漫| 国产AAAA片在线观看| 国產黃色亂伦一級电影| 美女干b视频| 久久免费视频99| 琪琪私人yy480影院| 女性裸体被?羞羞被扒胸动漫的| 亚洲v精品v日韩v欧美V专区| 欧美特黄特色aaa大片免费看| 亚洲精品久久久久久影院器材一区| 亚洲综合色一区| 边摸边吃奶又黄激烈视频韩国| 做受又硬又粗又免费视频| 日本理伦片午夜理伦片不忠免费看 | 免费h黄肉动漫在线观看 | 少妇人妻一级A毛片无码监狱| 啊灬啊别停灬用力啊村妇快三 | 国产精品v欧美精品v日本精| 天天操天天拍| 皇上隔着纱衣含乳尖H男男小说| 久久精品亚洲AV无码鲁大师| 美国一级毛片片aa成人| 曰本lesxxxx在线观看视频| 国产又爽又黄又粗又大| 一级毛片高清电影片| 综合精品一区二区三区| 精品日产乱码卡一卡2卡三卡四线| 亚洲资源最新版在线观看| 一级毛片美国aaj毛片| 精品不卡一区中文字幕| 山村性事乱婬1一7|