【摘要】 隨著媒體的融合發展,超高清視頻后期制作要求也是越來越高,對后期字幕制作效率提出了新的目標。Ai唱詞字幕應運而生,AI唱詞突破以往的傳統模式,從語音轉寫到視頻時間線的字幕自動對齊。本文介紹了互聯網AI技術在字幕制作中的應用場景,SRT字幕文件的AI生成,及其在達芬奇等國外視頻軟件超高清字幕制作中的應用技巧和實例。
【關鍵詞】UHD AI SRT 達芬奇
在互聯網飛速發展的今天,各行各業及互聯網各大視頻平臺對短視頻應用需求逐漸增多,對于如何快速上線視頻平臺,為用戶提供優質的服務和更好的觀看體驗,已經成為了視頻制作核心競爭力。青島電視臺的4K超高清制作是從2019年開始,作為全國的試點,我們也在有序的進行,最初的嘗試都是使用國外的剪輯軟件。但國外的軟件在字幕制作方面一直是一個短板,并不適用于我國的國情。隨著媒體深度融合,做為傳統視頻行業生產者的電視臺也緊跟互聯網智能AI的步伐,不斷探索超高清新時代的AI字幕制作新流程和新應用場景,通過互聯網智能技術把視頻制作者從繁雜的海量字幕制作中解放出來,面向新的未來,迎接新的挑戰。
一. 視頻字幕作用及外掛字幕格式
1. 視頻字幕作用
字幕已經成為當今視頻節目不可缺少的一個組成部分,它與電視的圖像、聲音、特效等一起組成了一種共時間共空間的多方位多信息渠道的傳播手段,完成表情達意的功能,提高了單元時間內信息傳播的速度和質量,除了對某些視覺部分起到有效的強調作用外,還能給人們以視覺上的美感。更重要的是,將語音內容以字幕方式顯示,有利于觀眾識別和理解視頻中的不同國家語言、不同地域方言。
2.外掛字幕格式
外掛式字幕格式,一般分為圖形格式和文本格式兩類。圖形格式字幕是由idx和sub文件組成。idx相當于索引文件,里面包括了字幕出現的時間碼和字幕顯示屬性等,sub文件就是存放圖片格式的字幕本身了。idx+sub可以存放很多語言的字幕,提供了在播放的時候的選擇。
比較流行的文本字幕有srt、smi、ssa和sub格式,因為是文本格式,所以文件就比較小了,一般幾百K,其中srt文本字幕制作最為規范簡單:一句時間代碼加一句字幕。
本文重點介紹字幕SRT文件的AI生成,及其在達芬奇等國外優秀軟件字幕制作中的應用技巧和實例。
二.互聯網AI技術在字幕制作中的應用場景
從“互聯網”到“互聯網+AI”,人工智能技術正在為經濟社會發展帶來深遠影響。互聯網AI技術開辟了字幕制作的新技術和新流程,極大提高了效率,尤其是唱詞字幕。
1.語音轉文字AI
傳統模式是一邊聽同期采訪聲音一邊用電腦打字,然后再根據畫面對文字進行糾正、整理、排版,這種做法費時費力。現在可以通過訊飛聽或者微信聽這種語音自動識別技術,將視頻、現場直播場景中的音頻實時轉換成文字,用于實時字幕展示,提升直播效果,徹底將制作人員從大量的字幕錄入中解放出來。

圖1
2.Arctime制作AI字幕
達芬奇、PREMIERE等軟件雖然說是外國的優秀視頻剪輯軟件,但在唱詞字幕方面確實有些欠缺,唱詞方面往往根據聲音通過標題字的方式一個一個的上,雖然說準確率高但時間效率確實很低。為了實現高效率,這種國外軟件往往支持SRT外掛字幕或者第三方軟件的方式實現AI字幕功能。經過多方面的比對以及實踐后,我們選用了第三方唱詞軟件Arctime。
Arctime是一個加持AI的可視化字幕創作軟件,可以跨平臺運行在Mac、Windows、Linux上,具有全自動語音轉寫功能,只要導入視頻,就可以全自動根據視頻中的語音生成字幕文字+時間軸,一站式完成快速制作。字幕編輯完成后,僅需單擊“導出字幕文件”按鈕,即可輕松完成字幕壓制工作,如圖2。

圖2
制作字幕就是這么簡單,輸出srt字幕。
第一步,在Arctime軟件里導入視音頻素材到時間線軌道。

圖3
第二步,字幕編輯區導入唱詞文本文件。

圖4
第三步,根據視音頻文件我們在Arctime進行唱詞的拍打。

圖5
圖5和圖3的區別能夠看到在聲音軌道上多了一層字幕軌道,這就是我們要導出的唱詞。
第四步,選擇導出字幕文件,勾選srt然后導出。


圖6
這個文件就我們要srt文件,方便在后面的達芬奇或者pr軟件中使用。
2019年開始,我們用以上方式嘗試4K字幕制作,沒有達到預期效果,例如:語音撰寫按量收費問題,語音轉寫只能是標準的普通話,稍微有點口音的轉寫基本是錯的、混亂的,操作過程中也比較麻煩,在字幕的糾正和斷句上同樣消耗了大量的精力,于是繼續尋找更優的解決方案。
3.互聯網線上制作AI字幕
現在好多的網站已經實現了線下軟件的好多功能,包括網頁剪輯、網頁修圖、網頁語音轉寫等。網頁的語音轉寫功能可以實現我們的訴求。但存在同樣的問題,普通話發音轉寫正確率很高,有點口音的話文本基本是混亂的,還要進行人工糾正等操作。

圖7
導入音頻文件到網頁然后通過語音轉寫工具經過幾分鐘的等待導出srt字幕文件,所有唱詞字幕的聽和敲打全部被自動替代。
三.超高清AI字幕制作中實踐案列
2020年,我臺成立專門的4K研發小組,開展4K拍攝、制作和演播室錄制方面專項研究,對超高清AI字幕制
作的探索更加深入。在解決語音轉寫辨識度較低,智能化不高的過程中,我們欣喜地發現剪映軟件的自動語音識別和自動字幕軌道功能符合我們的需求。經過測試,語音轉寫沒有問題,辨識度也相應的有些提高,字幕軌道能夠準確的匹配到時間線上,但怎么才能把字幕文件導出為srt,讓其它軟件共同來使用?最終我們采用python來很好地解決了。
1.巧用剪映軟件AI字幕工具
剪映作為抖音出品的視頻剪輯軟件,是從互聯網上火起來的,它的免費和方便快捷性讓許多的互聯網視頻行業都在使用它,它的自動生成字幕的功能受到眾多視頻制作人的青睞,比訊飛、網易見外處理效率高。值得一提的是軟件的語音識別準確度是前所未有的強大,不管是標準普通話還是口音都可以較為準確的轉寫成文本,自動斷句什么的也十分的方便。
我們使用它主要是它有一個內部的語音轉文字的特效,通過語音轉文字在軟件里面自動生成唱詞文件。
【操作步驟】:把素材導入到時間線上,選擇文本菜單里的“識別字幕”功能(針對人物的語言對白、采訪等),或者“識別唱詞”(MV歌曲唱詞的提取),然后點擊“開始識別”按鈕。如圖8。

圖8
自動識別后時間線上字幕已經自動智能化完成了,如圖9。

圖9
2.剪映json轉srt字幕格式
默認情況下剪映是以自己專有的json格式來存儲字幕信息的。
剪映軟件在使用過程中會建立一個工程文件,在工程文件下帶有一個json的文件,這個文件會帶有工程里面所有的信息,包括語音轉寫的文本、時間碼,我們就是通過python來分析、解析這個json文件,把json文件轉換為srt格式的標準字幕格式。
剪映json轉srt流程如下:

運行python3執行to_srt.py
這里的python3是python運行文件的一個執行命令to_srt.py是我們用文本編寫的python的執行文件,里面是編寫的一些python語言,用于解析json文件,從而提取文本信息和時間信息等輸出txt和srt字幕文件。

命令執行結果是,查找到一個字幕文件,并可以命名導出的文件名,如本例中為:mv。
成功導出mv.s r t和mv.t x t 文件。

圖10
3.達芬奇srt字幕的導入、修改、完成最終的成片
下面以我們制作完成的一個超高清MV視頻來演示srt字幕在達芬奇軟件中的應用操作。
電腦桌面的mv.srt文件是我們通過執行python后提取的srt文件。

圖11
第一步,在達芬奇軟件素材管理中右鍵導入我們需要的srt字幕文件。

圖12
這個mv文件就是我們導入的srt字幕文件,下面我們就會放置到時間線合適的位置。

圖13
第二步,拖拽mv.srt文件到字幕軌道,根據聲音波形把字幕放到時間線與音頻對齊的位置在字幕軌道我們可以修改出現問題的具體字幕。

圖14
第三步,在字幕軌道的軌道風格標簽下我們可以修改整體軌道字幕的字體、字色、大小、位置、字邊、字影以及字幕的背景。

圖15



圖16
第四步,在字幕軌道校正和調整完所有的字幕后,我們對字幕的背景進行了添加,讓字幕的效果更佳的賞心悅目。

圖17

圖18
第五步,在所有的包裝結束后我們要輸出成片。這里我們要注意一點,在達芬奇“支付”頁面下,字幕格式設置成“燒錄到視頻中”,這樣視頻和字幕就是在同一個畫面里了。

圖19
2021年以來,我們使用剪映軟件先進的語音識別技術和精準切分字幕功能,實現字幕時間軸匹配;通過python解析json文件生成標準srt字幕格式,提高了語音轉文字的準確率,解決AVID、PR、達芬奇等視頻唱詞制作效率,完善了超高清唱詞AI字幕的流程。同時國內的索貝、大洋視頻制作公司字幕制作也采取了AI智能唱詞的形式,無論是本地的訊飛語音數據庫還是網絡的訊飛語音語音數據庫,都實現了唱詞自動化。相信隨著時代的發展AI智能會越來越好,視頻行業也會乘勢而上走上AI的快 車道。B&P