多年來,視頻制備和分發(fā)的復(fù)雜性大幅增加。首先,業(yè)界見證了從磁帶到基于文件的工作流程的轉(zhuǎn)變,接著是是從模擬到數(shù)字的轉(zhuǎn)變。新的格式和標(biāo)準(zhǔn)也出現(xiàn)了,增加了視頻分發(fā)的復(fù)雜性。
除了這些技術(shù)變革之外,消費(fèi)者的觀看習(xí)慣也在發(fā)生變化。如今的觀眾更喜歡OTT媒體服務(wù),根據(jù)Parks Associates的最新研究,76%的美國(guó)家庭訂閱了OTT服務(wù),而訂閱傳統(tǒng)付費(fèi)電視只有62%。隨著廣播公司向更大范圍的屏幕和全球觀眾分發(fā)更多的內(nèi)容,更多的差錯(cuò)被引入工作流程,可能視頻和音頻質(zhì)量。

媒體自動(dòng)化質(zhì)量監(jiān)控系統(tǒng)的最新進(jìn)展,正幫助廣播公司向每個(gè)屏幕提供無差錯(cuò)的視頻和音頻。特別值得一提的是,機(jī)器學(xué)習(xí)(ML)和人工智能(AI)領(lǐng)域的創(chuàng)新正在使媒體質(zhì)量控制(QC)和監(jiān)測(cè)更上一層樓,提高某些媒體任務(wù)的準(zhǔn)確性和一致性,包括內(nèi)容分類、內(nèi)容編目、口型同步檢查等等。
媒體QC和監(jiān)測(cè)正在發(fā)展
在媒體質(zhì)量監(jiān)控的早期階段,自動(dòng)化系統(tǒng)僅限于簡(jiǎn)單的任務(wù),例如檢查音頻/視頻技術(shù)參數(shù)的正確性,包括分辨率、幀率、比特率、內(nèi)容結(jié)構(gòu)和容器參數(shù)。
從那時(shí)起,媒體質(zhì)量監(jiān)控一直在發(fā)展。今天,廣播公司可以使用計(jì)算機(jī)視覺和標(biāo)準(zhǔn)音頻處理技術(shù)檢查感知錯(cuò)誤。這些檢查包括隔行掃描偽像、有缺陷的像素、丟幀、視覺文本識(shí)別、壓縮和重影假象、響度和語(yǔ)言檢測(cè)。
隨著ML的興起,以及ML成功完成了內(nèi)容分類、對(duì)象檢測(cè)等任務(wù),媒體質(zhì)量監(jiān)控的范圍也隨之?dāng)U大。現(xiàn)在廣播公司正在使用能夠從語(yǔ)義上理解內(nèi)容的先進(jìn)ML技術(shù),以達(dá)到內(nèi)容審核、內(nèi)容分類、檢索和描述生成的目的。讓我們看看幾個(gè)可以用ML和AI技術(shù)進(jìn)行優(yōu)化的專門媒體應(yīng)用場(chǎng)景。
用ML加速內(nèi)容合規(guī)
監(jiān)視和修改內(nèi)容以符合不同的規(guī)章制度是大大受益于ML的一項(xiàng)應(yīng)用。廣播公司必須遵守各種各樣的規(guī)章,這些規(guī)章可能因地區(qū)而異。
傳統(tǒng)上,廣播公司會(huì)維持一群審查員員手動(dòng)過濾內(nèi)容,以符合監(jiān)管規(guī)定。在典型的手工工作流程中,內(nèi)容要經(jīng)過多個(gè)審查階段。如果評(píng)審在任何階段失敗,內(nèi)容就會(huì)返回進(jìn)行編輯。手工內(nèi)容的質(zhì)量監(jiān)控是昂貴、費(fèi)時(shí)和不準(zhǔn)確的。由于有如此多的全球性和區(qū)域性的內(nèi)容審查環(huán)節(jié),人類幾乎不可能做到百分百的準(zhǔn)確性。
通過自動(dòng)化這一過程,廣播公司可以消除人工內(nèi)容審核的限制,包括人們無法記住大量的視覺符號(hào)和人為錯(cuò)誤的可能性。有了自動(dòng)化的質(zhì)量監(jiān)控工作流程,廣播公司可以更快速和準(zhǔn)確地檢查節(jié)目?jī)?nèi)容,包括品牌名稱、仇恨符號(hào)、酒精、暴力、名人臉、粗俗言論字幕和宗教符號(hào)。
當(dāng)使用由ML、計(jì)算機(jī)視覺技術(shù)和計(jì)算機(jī)算法驅(qū)動(dòng)的自動(dòng)化系統(tǒng)時(shí),好處就更大了。基于ML的系統(tǒng)可以處理大量和多個(gè)內(nèi)容分類檢查列表,而沒有任何大的性能限制,從而提高廣播工作流程的效率。
但是,需要注意的是,雖然當(dāng)前的ML解決方案很先進(jìn),并且可以組合起來創(chuàng)建更廣泛的應(yīng)用,但是它們?nèi)狈ψ约簞?chuàng)建有效和可接受的結(jié)果所需的真實(shí)世界的知識(shí)和人類經(jīng)驗(yàn)。仍然需要人工輸入來確認(rèn)模式的有效性并幫助機(jī)器改進(jìn)結(jié)果。在可預(yù)見的未來,這種人機(jī)交互很可能會(huì)定義ML在媒體行業(yè)中的應(yīng)用。

通過ML確保高質(zhì)量字幕
檢查字幕的存在和準(zhǔn)確性是ML被證明非常有效的另一個(gè)應(yīng)用領(lǐng)域。ML可用于在內(nèi)容中沒有字幕的情況下自動(dòng)生成字幕,檢查字幕和音頻之間的對(duì)準(zhǔn),并檢查字幕對(duì)口語(yǔ)音頻的正確性。此外,ML簡(jiǎn)化了對(duì)音頻中發(fā)聲者的識(shí)別,確保在字幕中放置正確的標(biāo)點(diǎn)。
最終,使用ML,廣播公司可以加快直播和VOD內(nèi)容的字幕創(chuàng)作和驗(yàn)證過程,同時(shí)確保內(nèi)容在OTT視頻流中以多種視頻質(zhì)量水平分發(fā)時(shí),字幕保持高質(zhì)量。
在過去的十年里,通過ML,自動(dòng)語(yǔ)音識(shí)別引擎達(dá)到了高達(dá)85%的極高準(zhǔn)確度。盡管如此,自動(dòng)語(yǔ)音引擎依然面臨著一些挑戰(zhàn),如嘈雜環(huán)境中的穩(wěn)健性問題、變異口音處理能力、多名發(fā)言者同時(shí)說話時(shí)的問題,以及小孩聲音的困難(由于缺乏數(shù)據(jù)訓(xùn)練ML模型)。
要解決這些挑戰(zhàn),必須讓人類參與其中。廣播公司通過將先進(jìn)的ML和自動(dòng)語(yǔ)音識(shí)別技術(shù)與人工審查過程相結(jié)合,可以為傳統(tǒng)電視和視頻流字幕的創(chuàng)建、管理和分發(fā)帶來更大的簡(jiǎn)化和成本節(jié)約。
用ML消除AV音視頻同步問題
音頻和視頻之間的同步是當(dāng)今的一個(gè)常見問題。利用圖像處理、ML技術(shù)和深度神經(jīng)網(wǎng)絡(luò),廣播公司可以自動(dòng)檢測(cè)音頻和視頻同步錯(cuò)誤。與手動(dòng)檢查音視頻同步錯(cuò)誤的傳統(tǒng)方法相比,ML提供了一種更快、更精確的檢測(cè)媒體內(nèi)容中音頻超前和滯后問題,使得廣播公司能夠?yàn)橛^眾提供高質(zhì)量的體驗(yàn)(QoE)。
通過ML能力,廣播公司可以進(jìn)行人臉識(shí)別、人臉跟蹤、口型檢測(cè)、唇動(dòng)檢測(cè)和語(yǔ)音識(shí)別。使用基于ML的音視頻同步解決方案,通常一個(gè)模塊使用視頻提取人臉和跟蹤唇動(dòng)。第二個(gè)模塊使用音頻提取音頻特性,第三個(gè)ML模塊使唇動(dòng)與音頻特性匹配。使用這種技術(shù),甚至可以檢測(cè)一幀的同步問題。
結(jié)論
廣播公司在全球分發(fā)的內(nèi)容數(shù)量是巨大的。如果廣播公司想讓觀眾滿意,確保每個(gè)屏幕上都有高質(zhì)量的視頻體驗(yàn)是至關(guān)重要的。有了采用ML和AI技術(shù)的自動(dòng)質(zhì)量監(jiān)控解決方案,廣播公司可以更快更準(zhǔn)確地遵守行業(yè)和政府法規(guī),提供高質(zhì)量的字幕,分類內(nèi)容,并消除音視頻同步問題。