【摘要】 隨著媒體的融合發(fā)展,超高清視頻后期制作要求也是越來越高,對后期字幕制作效率提出了新的目標(biāo)。Ai唱詞字幕應(yīng)運而生,AI唱詞突破以往的傳統(tǒng)模式,從語音轉(zhuǎn)寫到視頻時間線的字幕自動對齊。本文介紹了互聯(lián)網(wǎng)AI技術(shù)在字幕制作中的應(yīng)用場景,SRT字幕文件的AI生成,及其在達芬奇等國外視頻軟件超高清字幕制作中的應(yīng)用技巧和實例。
【關(guān)鍵詞】UHD AI SRT 達芬奇
在互聯(lián)網(wǎng)飛速發(fā)展的今天,各行各業(yè)及互聯(lián)網(wǎng)各大視頻平臺對短視頻應(yīng)用需求逐漸增多,對于如何快速上線視頻平臺,為用戶提供優(yōu)質(zhì)的服務(wù)和更好的觀看體驗,已經(jīng)成為了視頻制作核心競爭力。青島電視臺的4K超高清制作是從2019年開始,作為全國的試點,我們也在有序的進行,最初的嘗試都是使用國外的剪輯軟件。但國外的軟件在字幕制作方面一直是一個短板,并不適用于我國的國情。隨著媒體深度融合,做為傳統(tǒng)視頻行業(yè)生產(chǎn)者的電視臺也緊跟互聯(lián)網(wǎng)智能AI的步伐,不斷探索超高清新時代的AI字幕制作新流程和新應(yīng)用場景,通過互聯(lián)網(wǎng)智能技術(shù)把視頻制作者從繁雜的海量字幕制作中解放出來,面向新的未來,迎接新的挑戰(zhàn)。
一. 視頻字幕作用及外掛字幕格式
1. 視頻字幕作用
字幕已經(jīng)成為當(dāng)今視頻節(jié)目不可缺少的一個組成部分,它與電視的圖像、聲音、特效等一起組成了一種共時間共空間的多方位多信息渠道的傳播手段,完成表情達意的功能,提高了單元時間內(nèi)信息傳播的速度和質(zhì)量,除了對某些視覺部分起到有效的強調(diào)作用外,還能給人們以視覺上的美感。更重要的是,將語音內(nèi)容以字幕方式顯示,有利于觀眾識別和理解視頻中的不同國家語言、不同地域方言。
2.外掛字幕格式
外掛式字幕格式,一般分為圖形格式和文本格式兩類。圖形格式字幕是由idx和sub文件組成。idx相當(dāng)于索引文件,里面包括了字幕出現(xiàn)的時間碼和字幕顯示屬性等,sub文件就是存放圖片格式的字幕本身了。idx+sub可以存放很多語言的字幕,提供了在播放的時候的選擇。
比較流行的文本字幕有srt、smi、ssa和sub格式,因為是文本格式,所以文件就比較小了,一般幾百K,其中srt文本字幕制作最為規(guī)范簡單:一句時間代碼加一句字幕。
本文重點介紹字幕SRT文件的AI生成,及其在達芬奇等國外優(yōu)秀軟件字幕制作中的應(yīng)用技巧和實例。
二.互聯(lián)網(wǎng)AI技術(shù)在字幕制作中的應(yīng)用場景
從“互聯(lián)網(wǎng)”到“互聯(lián)網(wǎng)+AI”,人工智能技術(shù)正在為經(jīng)濟社會發(fā)展帶來深遠(yuǎn)影響?;ヂ?lián)網(wǎng)AI技術(shù)開辟了字幕制作的新技術(shù)和新流程,極大提高了效率,尤其是唱詞字幕。
1.語音轉(zhuǎn)文字AI
傳統(tǒng)模式是一邊聽同期采訪聲音一邊用電腦打字,然后再根據(jù)畫面對文字進行糾正、整理、排版,這種做法費時費力?,F(xiàn)在可以通過訊飛聽或者微信聽這種語音自動識別技術(shù),將視頻、現(xiàn)場直播場景中的音頻實時轉(zhuǎn)換成文字,用于實時字幕展示,提升直播效果,徹底將制作人員從大量的字幕錄入中解放出來。

圖1
2.Arctime制作AI字幕
達芬奇、PREMIERE等軟件雖然說是外國的優(yōu)秀視頻剪輯軟件,但在唱詞字幕方面確實有些欠缺,唱詞方面往往根據(jù)聲音通過標(biāo)題字的方式一個一個的上,雖然說準(zhǔn)確率高但時間效率確實很低。為了實現(xiàn)高效率,這種國外軟件往往支持SRT外掛字幕或者第三方軟件的方式實現(xiàn)AI字幕功能。經(jīng)過多方面的比對以及實踐后,我們選用了第三方唱詞軟件Arctime。
Arctime是一個加持AI的可視化字幕創(chuàng)作軟件,可以跨平臺運行在Mac、Windows、Linux上,具有全自動語音轉(zhuǎn)寫功能,只要導(dǎo)入視頻,就可以全自動根據(jù)視頻中的語音生成字幕文字+時間軸,一站式完成快速制作。字幕編輯完成后,僅需單擊“導(dǎo)出字幕文件”按鈕,即可輕松完成字幕壓制工作,如圖2。

圖2
制作字幕就是這么簡單,輸出srt字幕。
第一步,在Arctime軟件里導(dǎo)入視音頻素材到時間線軌道。

圖3
第二步,字幕編輯區(qū)導(dǎo)入唱詞文本文件。

圖4
第三步,根據(jù)視音頻文件我們在Arctime進行唱詞的拍打。

圖5
圖5和圖3的區(qū)別能夠看到在聲音軌道上多了一層字幕軌道,這就是我們要導(dǎo)出的唱詞。
第四步,選擇導(dǎo)出字幕文件,勾選srt然后導(dǎo)出。


圖6
這個文件就我們要srt文件,方便在后面的達芬奇或者pr軟件中使用。
2019年開始,我們用以上方式嘗試4K字幕制作,沒有達到預(yù)期效果,例如:語音撰寫按量收費問題,語音轉(zhuǎn)寫只能是標(biāo)準(zhǔn)的普通話,稍微有點口音的轉(zhuǎn)寫基本是錯的、混亂的,操作過程中也比較麻煩,在字幕的糾正和斷句上同樣消耗了大量的精力,于是繼續(xù)尋找更優(yōu)的解決方案。
3.互聯(lián)網(wǎng)線上制作AI字幕
現(xiàn)在好多的網(wǎng)站已經(jīng)實現(xiàn)了線下軟件的好多功能,包括網(wǎng)頁剪輯、網(wǎng)頁修圖、網(wǎng)頁語音轉(zhuǎn)寫等。網(wǎng)頁的語音轉(zhuǎn)寫功能可以實現(xiàn)我們的訴求。但存在同樣的問題,普通話發(fā)音轉(zhuǎn)寫正確率很高,有點口音的話文本基本是混亂的,還要進行人工糾正等操作。

圖7
導(dǎo)入音頻文件到網(wǎng)頁然后通過語音轉(zhuǎn)寫工具經(jīng)過幾分鐘的等待導(dǎo)出srt字幕文件,所有唱詞字幕的聽和敲打全部被自動替代。
三.超高清AI字幕制作中實踐案列
2020年,我臺成立專門的4K研發(fā)小組,開展4K拍攝、制作和演播室錄制方面專項研究,對超高清AI字幕制
作的探索更加深入。在解決語音轉(zhuǎn)寫辨識度較低,智能化不高的過程中,我們欣喜地發(fā)現(xiàn)剪映軟件的自動語音識別和自動字幕軌道功能符合我們的需求。經(jīng)過測試,語音轉(zhuǎn)寫沒有問題,辨識度也相應(yīng)的有些提高,字幕軌道能夠準(zhǔn)確的匹配到時間線上,但怎么才能把字幕文件導(dǎo)出為srt,讓其它軟件共同來使用?最終我們采用python來很好地解決了。
1.巧用剪映軟件AI字幕工具
剪映作為抖音出品的視頻剪輯軟件,是從互聯(lián)網(wǎng)上火起來的,它的免費和方便快捷性讓許多的互聯(lián)網(wǎng)視頻行業(yè)都在使用它,它的自動生成字幕的功能受到眾多視頻制作人的青睞,比訊飛、網(wǎng)易見外處理效率高。值得一提的是軟件的語音識別準(zhǔn)確度是前所未有的強大,不管是標(biāo)準(zhǔn)普通話還是口音都可以較為準(zhǔn)確的轉(zhuǎn)寫成文本,自動斷句什么的也十分的方便。
我們使用它主要是它有一個內(nèi)部的語音轉(zhuǎn)文字的特效,通過語音轉(zhuǎn)文字在軟件里面自動生成唱詞文件。
【操作步驟】:把素材導(dǎo)入到時間線上,選擇文本菜單里的“識別字幕”功能(針對人物的語言對白、采訪等),或者“識別唱詞”(MV歌曲唱詞的提?。?,然后點擊“開始識別”按鈕。如圖8。

圖8
自動識別后時間線上字幕已經(jīng)自動智能化完成了,如圖9。

圖9
2.剪映json轉(zhuǎn)srt字幕格式
默認(rèn)情況下剪映是以自己專有的json格式來存儲字幕信息的。
剪映軟件在使用過程中會建立一個工程文件,在工程文件下帶有一個json的文件,這個文件會帶有工程里面所有的信息,包括語音轉(zhuǎn)寫的文本、時間碼,我們就是通過python來分析、解析這個json文件,把json文件轉(zhuǎn)換為srt格式的標(biāo)準(zhǔn)字幕格式。
剪映json轉(zhuǎn)srt流程如下:

運行python3執(zhí)行to_srt.py
這里的python3是python運行文件的一個執(zhí)行命令to_srt.py是我們用文本編寫的python的執(zhí)行文件,里面是編寫的一些python語言,用于解析json文件,從而提取文本信息和時間信息等輸出txt和srt字幕文件。

命令執(zhí)行結(jié)果是,查找到一個字幕文件,并可以命名導(dǎo)出的文件名,如本例中為:mv。
成功導(dǎo)出mv.s r t和mv.t x t 文件。

圖10
3.達芬奇srt字幕的導(dǎo)入、修改、完成最終的成片
下面以我們制作完成的一個超高清MV視頻來演示srt字幕在達芬奇軟件中的應(yīng)用操作。
電腦桌面的mv.srt文件是我們通過執(zhí)行python后提取的srt文件。

圖11
第一步,在達芬奇軟件素材管理中右鍵導(dǎo)入我們需要的srt字幕文件。

圖12
這個mv文件就是我們導(dǎo)入的srt字幕文件,下面我們就會放置到時間線合適的位置。

圖13
第二步,拖拽mv.srt文件到字幕軌道,根據(jù)聲音波形把字幕放到時間線與音頻對齊的位置在字幕軌道我們可以修改出現(xiàn)問題的具體字幕。

圖14
第三步,在字幕軌道的軌道風(fēng)格標(biāo)簽下我們可以修改整體軌道字幕的字體、字色、大小、位置、字邊、字影以及字幕的背景。

圖15



圖16
第四步,在字幕軌道校正和調(diào)整完所有的字幕后,我們對字幕的背景進行了添加,讓字幕的效果更佳的賞心悅目。

圖17

圖18
第五步,在所有的包裝結(jié)束后我們要輸出成片。這里我們要注意一點,在達芬奇“支付”頁面下,字幕格式設(shè)置成“燒錄到視頻中”,這樣視頻和字幕就是在同一個畫面里了。

圖19
2021年以來,我們使用剪映軟件先進的語音識別技術(shù)和精準(zhǔn)切分字幕功能,實現(xiàn)字幕時間軸匹配;通過python解析json文件生成標(biāo)準(zhǔn)srt字幕格式,提高了語音轉(zhuǎn)文字的準(zhǔn)確率,解決AVID、PR、達芬奇等視頻唱詞制作效率,完善了超高清唱詞AI字幕的流程。同時國內(nèi)的索貝、大洋視頻制作公司字幕制作也采取了AI智能唱詞的形式,無論是本地的訊飛語音數(shù)據(jù)庫還是網(wǎng)絡(luò)的訊飛語音語音數(shù)據(jù)庫,都實現(xiàn)了唱詞自動化。相信隨著時代的發(fā)展AI智能會越來越好,視頻行業(yè)也會乘勢而上走上AI的快 車道。B&P