
VionLabs的“情緒指紋API”使用計算機視覺和機器學習生成情緒數據
趨勢提醒:人工智能/機器學習(AI/ML)正成為整個電視制作/播出過程中不可或缺的一部分“AI/ML正在轉變,為廣播公司和內容制作商提供巨大的價值,” 實時視頻分析市場研究公司IdenTV聯合創始人兼首席運營官阿姆魯·薩哈達表示:“AI/ML通過將大數據從成本中心和不透明的結構化/非結構化數據集轉換為實時可執行的分析和大數據搜索和調用工具,創造更好的用戶體驗,并從新的內容分發渠道獲得收入,實現了這一點。”
廣播咨詢師加里·奧爾森剛剛出版了其著作第二版《IP廣播設施的規劃和設計——一個需要解決的新難題》,他說這項技術已經在制作鏈的元素中出現,并有望擴大其影響范圍。
“我認為AI/ML將在2020年出現于編輯、圖文包裝和媒體管理產品中,”奧爾森說,“這一年隨著時間的推移,“看看哪些廠家會聲稱他們的產品有AI或ML將是有趣的。”
內容發現
許多大廣播公司和電視制作商都有大量適合直接面向消費者在線銷售的內容庫。面臨的挑戰在于,在不用員工實時觀看所有節目的情況下,確定哪些節目會吸引現代消費者,以及它們吸引消費者的原因。
Prime Focus Technologies公司表示,其CLEAR Vision Cloud有一個基于云的AI引擎,可以通過許多搜索可變因素做這個工作,而且在“創紀錄的時間內”。
“可能有一個著眼于識別視頻中的人臉的AI引擎,” Prime Focus Technologies人工智能和機器學習副總裁莫拉利達爾·斯里達爾說,“另一個AI引擎可能著眼于‘比如說,一個人在水里濺起水花’的標志性聲音,而第三個AI引擎搜索獨特的物體。目前為止最棒的是,人工查看一段內容可能需花數小時的工作用我們的AI可實時完成。”
Primestream產品開發總監艾倫•達布爾表示,Primestream的Xchange平臺使用AI/ML驅動其內容發現工具,在這一過程中提供廣泛的搜索選項。
“你不僅可以把搜索范圍縮小到僅對特朗普總統,還可以縮小到他在談論稅收的那些具體片段,”他說,“然后,你可以進一步縮小搜索范圍,搜索他在辦公室背景里談論稅收的時候,然后看看當時鏡頭內誰與總統交談。”
體育和現場事件
考慮到必須即時制作的內容量,體育及其它現場事件是廣播公司最勞動力密集的制作之一。Tedial的SMARTLIVE元數據引擎使用AI/ML自動化與這些制作相關的媒體管理任務;包括元數據標記、自動片段創作和現場事件期間分發到數字平臺和社交媒體。SMARTLIVE還可以管理多場館信號,支持多重、即時內容搜索,從而將存檔素材集成進直播信號中。
“SMARTLIVE在使用的預算和人員不變的情況下,使制作團隊能夠制作更多內容,從而增加體育迷參與度和收入,”Tedial產品副總裁杰羅姆·沃弗茨說,“SMARTLIVE還可以直接連接到現有的制作環境,這樣我們的客戶就可以使用他們現有的基礎設施攝取、編輯和分發內容;不需要額外的投資。”
字幕和翻譯
AI/ML吸引力正在增加的另一個勞動力密集型領域是多語種字幕。使用語音轉文字AI系統,可以從內容的音頻中自動生成文字字幕,并在同一數據流內以多種語言提供它們。
“這些算法經過訓練,能夠實時從數據中學習,吸收當地措辭和方言,從而獲得最佳字幕體驗,”IBM Watson Media高級銷售經理布蘭登•沙利文表示,“隨著AI和機器學習訓練能力的提高,當地方言、地名和特定的名字,以及個別發言者的話音,都將被準確捕捉。未來,這不僅會改變隱含字幕,還會改變自動翻譯、視頻檢索等。”
字幕和口型同步是Interra Systems的視頻質量控制平臺DATON的兩個AI/ML技術。“通過AI/ML,你可以提高字幕的準確性和速度,這是一個資源密集型、耗時的處理,” Interra Systems產品管理副總裁阿努帕瑪·安納塔拉曼說,“它在檢測‘口型同步’方面也特別有效:屏幕上嘴唇運動和說話內容一致。”
Telestream云產品經理雷米•福爾羅表示,Telestream Cloud包括如同其許多基于云的AI/ML支持服務的字幕;其它服務是為多個分發平臺進行視頻轉碼和質量/合規檢查。
“我們利用許多基于云的提供商的語音文本轉換功能,生成多種語言的準確字幕,”福爾羅說,“這是AI/ML在準確、高效地完成任務方面真正閃耀的領域。”
ENCO的enCaption4平臺為直播和錄播電視內容提供自動化隱含字幕,并將AI驅動的機器學習與神經網絡語音文本轉換引擎相結合。除了通過AI教給獨特詞語的新聞演播室節目流程單導入外,enCaption4還可以教給專門的詞語,如主持人和演員姓名,以及當地說法。其它AI驅動的增強改進了字幕標點符號和大小寫。
“enCaption可以準確地拼寫從攝入清單和腳本中學習到的罕見詞匯,而且不需要為每個說話者創建語音模式個人檔案,”ENCO總裁肯恩•弗羅姆特說,“自動為來自各個主播、記者、氣象學家和演播室嘉賓的講話打字幕,對新聞操作是非常有益的。”
壓縮
視頻壓縮始終是在數據率降低和視頻質量之間求平衡。通過如其VOS360直播流媒體平臺這樣的基于AI和ML的云解決方案,哈雷的目標是更有效地實現這一平衡。
“我們的PURE壓縮引擎使用AI/ML改進管理視頻壓縮的算法,”哈雷公司負責AI/ML用于視頻壓縮的高級產品營銷經理讓-路易·迪亞斯科恩說,“與使用人類工程師相比,使用AI/ML技術實現這些改進要快得多。在去年的NAB BEITC上提出后我們不斷取得進展,現在的目標是解決密度方面的問題。”
推薦引擎
亞馬遜、Netflix和YouTube等流媒體服務使用AI/ML賦能的推薦引擎挖掘觀眾當前的內容選擇,并利用他們的發現推薦可能感興趣的類似節目。視頻發現技術提供商Vionlabs的AI/ML內容發現平臺旨在幫助廣播公司評估自己的內容庫,聚焦并提升它們的直接面向消費者的線上銷售。
“高質量數據可以幫助廣播公司更了解他們的內容,并在整個內容周期中做出更精明的決定,” Vionlabs首席執行官馬庫斯·伯格斯特倫說,“其中一個例子就是內容推薦,讓廣播公司對成功的節目如何吸引觀眾有更深刻的理解。它還可以幫助他們自動符合兒童不宜電視時限后開播的規定。”
該公司2月推出了“情緒指紋API”,幫助媒體公司根據AI生成的視頻數據和洞察力做出更好的決策。據該公司介紹,情緒指紋API使用計算機視覺和機器學習生成情緒數據,基于Vionlabs的推薦,打造一種獨特的個人觀看體驗。
情緒指紋API是為測量視頻播放期間的數千個因素(顏色、速度、音頻和對象識別等)以便逐幀生成呈現內容情緒結構的AI導出的指紋而設計的。
有限制
AI/ML賦能系統現在在電視制作/播出流中扮演許多角色。但他們并非無所不能;至少現在還不能。
“為了讓機器學習工具有效地工作,你需要不斷地對模型進行微調,并需要大量準備充分的數據,”安納塔拉曼說,“將會出現需要人工干預的具有挑戰性的情況。然而,對于大多數內容,AI/ML可以提供極高的準確性。”