【摘要】 “元宇宙”、“數字人”是近兩年最火的兩個名詞,蘇州市廣播電視總臺(簡稱蘇州廣電)在近幾年提前布局元宇宙,通過技術自主研發,并與節目制作深度融合,打通了數字人在廣電系統內的各類應用場景,為新聞播報、綜藝娛樂、廣告宣傳等提供了各類數字人的植入應用,取得了良好的口碑和效益。
【關鍵字】 數字人 MetaHuman UnrealEngine 動作捕捉 人工智能
一.項目背景
在去年三月份蘇州市兩會期間,蘇州廣電推出了臺內首個虛擬數字人“蘇小新”,采用VR+AI的方式,在虛擬演播室內對蘇州市兩會進行了沉浸式報道。
經過半年多的努力,技術團隊在軟硬件上進行了迭代升級,在身體動作、面部表情神態、主持風格上,相比蘇州市兩會時的報道都有了質的飛躍。
除了數字人“蘇小新”的制作和播報以外,技術團隊還根據臺內現有的節目制作流程,對整個數字人制作的方向進行的分類,并定制了流程,除了數字人“蘇小新”以外,還定制了“安家小助理”、“小斌斌”等多個虛擬數字人,既能適用于離線節目制作,也能對外進行直播互動、VR交互,滿足了多樣化的節目制作需求。
二.系統架構
1.系統框圖
動作捕捉系統根據實現原理的不同,分成光學動作捕捉、慣性動作捕捉以及計算機視覺的動作捕捉方案。光學動作捕捉方案具有動作捕捉精度高、保真程度較高、專業度高等特點,作為高精度動作捕捉,慣性動作捕捉具有精度較高,穿戴方便,易于操作等特點,作為輕量化動作捕捉。
高精度動作捕捉系統適用于離線高精度、高保真的數字人制作,框圖如圖1所示,身體動作捕捉和面部捕捉的數據通過有線網絡進入交換機,并被Unreal渲染引擎讀取,渲染引擎內置數字人和VR場景,將數字人的聲音、動捕、面捕數據進行結合,最終輸出文件到臺內制作網。

圖1 高精度動作捕捉系統框圖

圖2 輕量化動作捕捉系統框圖
輕量化動作捕捉系統適用于實時快速化數字人制作,框圖如圖2所示,動捕數據和面捕數據通過無線的方式進入到捕捉系統,同時動捕系統內集成有數字人,將攝像機信號作為背景信號,合成后輸出給視頻切換臺。
2.高精度動作捕捉系統
(1)系統原理
高精度動作捕捉系統我臺采用NOKOV(度量)光學三維動作捕捉方案,NOKOV(度量)光學三維動作捕捉系統是通過排布在空間中的動作捕捉鏡頭對室內空間的捕捉區域進行覆蓋,并對捕捉目標上放置的反光標志點(Marker)進行三維空間位置的精確捕捉,通過先進算法進行處理和運算后,系統可得到不同時間計量單位上各個反光標記點的三維空間坐標(X、Y、Z);也可對目標物進行剛體設置,通過專業分析軟件對數據進一步處理和運算,可得到目標物體精確位置及姿態等三維數據。
表演者負責根據劇情做出各種動作和表情,運動捕捉系統實時捕捉并記錄這些動作后,數據通過NOKOV三維光學動作捕捉提供的SDK實時傳入動畫引擎。我們也可以將實時動捕數據導出后傳輸至Motion Builder、Maya等動畫軟件進行后續處理。

圖3 高精度動作捕捉系統
(2)動捕系統應用
該套系統主要有紅外光學動作捕捉鏡頭、標定套件(T型、L型)、反光表示點、交換機、動作捕捉工作站(動作捕捉軟件)構成。其中L型桿用于建立系統坐標系,T型桿用于標定相機內外參數。軟件用于重構目標點在空間中的坐標,并將數據實時向外發送。
動捕演播室內使用了12個200萬像素的NOKOV MARS2H動作捕捉鏡頭,鏡頭布置在綠箱四周,鏡頭的視野范圍盡可能于表演者活動區域重疊。使用校準器以及校準程序反算出攝像機準確的空間位置,從而為精確地計算出標記點的運動軌跡做好準備。
攝像頭上面都集成有紅外(長波)發射器,工作時發射出紅外光和紅光,定位目標上帶有反射紅外光線的標記點,兩臺攝像機采集到的一個點的兩個二維坐標推算出這個點的三維坐標。根據原理我們就得到了定位目標身上的一定數量Marker運動的一系列三維坐標。
由于動補系統是為了獲得標記點在捕捉時間內的三維坐標序列,因此對于這個標記點在時間軸上的完成呈現需要多臺攝像機的參與。
在一次運動數據捕捉完成后,根據參考的骨骼模板,對表演者身上的標記點進行識別,并匹配到相應的骨骼上。在標記點數量較多、動作難度大、遮擋嚴重等情況時,需要通過手動的后處理加以解決。
動補數據通過插件實時傳入到虛幻引擎中的人物身上,我們可以根據實時的人物形態進行骨骼微調,也可以在UE中對動作數據進行錄制,制作成動作庫,提高制作效率。
3.面捕捕捉系統
(1)系統原理
我臺使用的FaceGood高精度面部捕捉解決方案,基于圖像和3D攝像頭,涵蓋表情建模、綁定、面部捕捉及驅動的全流程應用,能適應我臺實時與離線制作流程。方案采用了專業級頭戴式紅外相機頭盔錄制視頻數據,避免了光線的影響和身體運動引起的劇烈抖動對視頻質量的影響。方案使用一種基于神經網絡的端到端的blendshape權值輸出框架,來將演員的表情可以重定向給任何3D模型。

圖4 面部捕捉系統
(2)面捕系統應用
面捕系統的制作分為離線制作流程和實時捕捉流程:
首先,演員需佩戴專業頭盔進行表情錄制,將錄制的視頻按已有點模板或自定義描點的方式進行自動跟蹤或手動跟蹤并生成Retargeter。手動跟蹤可對于極快速且大幅、容易跟丟的動作進行訓練,自動與手動訓練搭配使用可以讓跟蹤的結果精度更高。
接著,使用Retargeter將演員與模型進行綁定,創建角色控制器模板,使用跟蹤的數據驅動模型。針對項目不同特點,有兩種驅動方式。第一種,對于精度要求較高的項目,可通過制作關鍵幀,并利用關鍵幀算法的方式進行數據解算,表情匹配。過程中可根據美術風格把模型調整成角色模型應有的表情,使表演實現美術可控。第二種,對于效率要求較高的項目,可通過表情庫算法解算。事先針對同個演員及模型進行表情庫制作,再通過表情庫即可完成批量自動解算驅動,大幅提高產能。
最終導出動畫文件進入UE,同身體動畫一同合成輸出。面部驅動動畫若發現有數據抖動問題,可利用FaceGood插件中平滑功能,進行動畫濾波與抽幀。
使用面捕LiveDrive插件將面捕數據流推流至網絡,虛幻引擎端利用LiveLink插件將面捕數據實時接入UE渲染平臺,實現3D人物模型的實時驅動或視頻驅動。面捕軟件端還可調節輸出混合變形權重,自定義表情實時輸出效果,達到最佳效果。
4.輕量化數字人制作系統
(1)系統原理
輕量化數字人制作系統可實現簡便、靈活的數字人節目制作,方便攜帶,能夠迅速布置調試,實現數字人節目生產。該制作系統采用HTC VIVE的光慣混合捕捉方案,并搭配上動捕手套、蘋果手機的LivelinFace面捕以及數字人直播軟件,能夠實時輸出數字人節目并推流到各類平臺進行播出。
HTC VIVE的光慣混合捕捉系統包含2個定位基站,6個VIVE追蹤器(配備6個無線接收器到電腦端),定位基站發送紅外光捕捉人物在空間中的位置,固定在人物身上的VIVE追蹤器將人物6個關鍵部位的位置和姿態數據實時發送給電腦端steamVR軟件,實現人物全身動作捕捉。

圖5 輕量化動作捕捉系統
蘋果手機的LivelinkFace是一款免費的軟件,利用手機前置攝像頭和ARKit制作面部動畫,借助LiveLink將網絡數據實時流送至虛擬直播軟件驅動數字人面部表情。

圖6 LiveLinkFace面部捕捉圖
數字人直播軟件內部集成了各類服裝、場景和道具,并支持實時在線自定義人物形象的功能,面部數據和動捕數據通過無線的方式發送給電腦端數字人直播軟件,經過軟件內的整合優化,達到了實時驅動數字人的效果,與此同時,搭配OBS、Vmix等直播軟件,可實現數字人實時在線直播推流的功能。
三.功能實現
1.主要制作流程

圖7 各類數字人節目制作流程
數字人的節目制作根據應用場景、制作精度、人物形象等可分為多個制作流程,結合我臺的實際制作需求,我們定制了高精度和輕量化兩套數字人制作流程,如上圖7所示。
高精度數字人制作對數字人的模型、動作等精度要求最高,因此數字人物的模型和對應場景需要提前定制并進行綁定,同時為了達到更自然的播報狀態,數字人物的身體和面部動作都需要通過專業的設備進行采集并在離線軟件中完成人物動畫的制作,最終將人物、場景、動畫進行結合,優化輸出,定制播出機位,離線生成完成的視頻素材進行播出。
輕量化數字人做做對應數字人的模型、動作等精度要求中等,人物模型、場景、機位都可以快速自定義完成,結合輕量化動作捕捉的硬件,實現快速化的數字人節目播出。輕量化數字人的節目制作更加靈活多樣,支持橫豎屏直播、綠箱摳像、切換臺直出等各類播出方式。
2.“非凡十年,大美中國”蘇州篇數字人報道
此次在我臺舉行的“非凡十年,大美中國”的二十大專題報道中,我們使用高精度動作捕捉系統搭配面部捕捉系統,完成了蘇州臺虛擬數字人“蘇小新”從播報到跳舞的各類播出應用。

圖8 “非凡十年”專題報道
首先,在數字人“蘇小新”播報聲音的處理上,我們采用了總臺自主研發的AI語音庫進行合成,將每一期需要播報的文字輸入AI語音庫,在轉換成對應的音頻文件。
其次,為了達到更自然的播報和演唱狀態,我們分別請了總臺的主持人和說唱演員,進入到我臺的高精度動捕演播室內,進行了身體動作的錄制,并在后期反復優化調整,使虛擬了,達到最優的播出狀態。

圖9 專業動捕演員
最后,為了達到最好的播出效果,我們采用的最新的Unreal Engine5渲染架構,對播出場景內的各處細節、布光進行了調整優化,并和綜藝節目部的導演,一起設計播出環節中人物的運鏡、構圖等細節,最終呈現出逼真且美輪美奐的播出畫面。

圖10 數字人運動鏡頭設計
3.VR全景數字人介紹
除了將數字人“蘇小新”的播報放在手機和電視端以外,技術團隊還將數字人與VR頭盔進行了對接開發,操作人員置身VR全景中,與數字人和里面的場景進行沉浸式的互動,相比與以往的VR全景視頻,我們主要有一下特點。
(1)將數字人放入VR全景中,通過外控手柄與數字人進行交互,與此同時將VR頭盔中顯示的視頻串流到大屏電視端,實現大屏和VR頭盔的同步顯示;

圖11 VR數字人播報
(2)除了支持VR全景圖片和視頻外,還在VR場景中植入虛擬導航點,能夠實現不同VR場景之間的切換,并在VR場景中嵌入文字、圖片、視音頻等各類元素,實現VR全景的交互功能;

圖12 VR視頻串流
(3)支持多種VR場景的互動切換,通過在VR全景中植入虛擬的導航點,我們可以實現不同VR景別的切換,
4.輕量化數字人“小斌斌“
為了滿足臺內綜藝節目“施斌聊齋”節目組的制作需求,我們經過一個多月的時間,給節目組定制了一個“小斌斌”的輕量化虛擬形象,主要用于節目日常的播報。3D卡通數字人“小斌斌”模仿了蘇州廣電知名主持人施斌的形象,“小彬彬”較大的頭部突出了人物特點和面部表情,短小的身體和四肢嬌小可愛。”小彬彬“可以制作一些簡單的播報節目,或在帶貨、娛樂互動節目中充當角色。

圖13 主持人虛擬化
數字人“小斌斌”的播報方式采用數字人與真實場景相結合的方式,因此我們將數字人的形象通過摳圖合成到演播室攝像機的畫面上,并調整到與真人合適的大小比例,達到與真人同臺實時播出的效果。

圖14 數字人和真人同臺演出
四.總結與展望
隨著近今年數字人制作技術的不斷發展,原先適用于影視動畫的一些數字人制作技術,已經漸漸開放,一些中小心的新媒體甚至是普通的個人,都開始運用數字人技術來實現播出的推廣應用,作為傳統媒體向新媒體轉型的我臺,也同樣踩在了數字人的風口上。
在數字人相關節目的創作中,作為優勢,我們有專業的策劃和制作團隊,可以快速對接臺內和市場,實現數字人產品的應用化落地,不管是傳統媒體還是新媒體端,在渠道的分發上也可以做到多樣化。
與此同時,數字人物模型的建立、場景的制作以及動作的綁定,需要專業化的人才去做開發,技術中心數字人制作團隊還屬于一個剛起步階段,需要通過不斷的操作、應用去豐富和提高我們的制作水平,這是一個不斷積累的過程。
通過數字人“蘇小新”及其他各類數字人的制作,我臺正式開啟了元宇宙的大門,我們也將不忘初心,砥礪前行,不斷朝著更高的目前發展前進。