2023-06-05
近日,《浪姐4》高調(diào)開播,與之前不同的是,芒果臺(tái)這次大手筆,準(zhǔn)備走國(guó)際化, 放眼望去盡是俄羅斯、美國(guó)、日本、韓國(guó)、德國(guó)、越南姐姐齊聚一堂爭(zhēng)奇斗艷,締造了同期綜藝節(jié)目的天花板。不過本季浪姐的流量劇本似乎未按照預(yù)期上演,在國(guó)內(nèi)“幾乎無(wú)知名度”的二次元美女美依禮芽(MARiA),憑借一首《極樂凈土》人氣迅速上升,斷崖甩開其他選手,直接霸榜第一,打翻了本季浪姐劇本。
AIGC版《極樂凈土》點(diǎn)燃B站
美依禮芽和《極樂凈土》究竟是何來(lái)頭?早在7年前《極樂凈土》就曾以其入耳的旋律、律動(dòng)感強(qiáng)烈的舞步血洗B站,吸引了一大批二次元粉絲,成為B站鎮(zhèn)站歌曲,如今時(shí)隔7年后,《極樂凈土》再度翻紅出圈,點(diǎn)燃了B站網(wǎng)友們的二創(chuàng)熱情。有網(wǎng)友使用AIGC技術(shù),復(fù)刻了《極樂凈土》舞蹈的名場(chǎng)面,引發(fā)熱議,播放量甚至超過B站舞蹈區(qū)知名大UP翻跳版。
百變換衣,人不變,生成式AI迎來(lái)技術(shù)突破
AIGC版的《極樂凈土》,甚至比原版舞蹈更為上頭(畢竟誰(shuí)不喜歡小姐姐在跳舞時(shí)一秒一換衣呢)。之前大家熟知的AIGC圖像生成,多應(yīng)用于圖像領(lǐng)域。因?yàn)闊o(wú)法做到穩(wěn)定的多幀連續(xù)圖像生成,所以鮮有高質(zhì)量的AI生成視頻。而AIGC版的《極樂凈土》卻實(shí)現(xiàn)了對(duì)圖像的精準(zhǔn)控制,動(dòng)作、服飾連續(xù)多變,但人物卻始終保持較為穩(wěn)定的狀態(tài),其原因正是生成式AI技術(shù)迎來(lái)了新的技術(shù)突破。
2023 年,一款叫ControlNet(譯為控制網(wǎng))的Stable Diffusion插件發(fā)布,這款插件在短短的2天時(shí)間就在GitHub狂攬4.6K Stars,成為了AI繪畫領(lǐng)域最熱門的新星。ControlNet的出現(xiàn)代表著生成式AI技術(shù)開始可控,而生成式AI技術(shù)能否被精確控制,正是AIGC技術(shù)是否進(jìn)入實(shí)際生產(chǎn)環(huán)境中最為關(guān)鍵的一環(huán)。
此前,如果想通過AIGC技術(shù),生成帶有運(yùn)動(dòng)軌跡的穩(wěn)定連續(xù)圖像(多張圖片,轉(zhuǎn)換成視頻)是非常困難的,由于生成式AI技術(shù)的不可控,導(dǎo)致生成的圖像,每一幀都會(huì)有極大的差異,無(wú)法用于合成視頻。如果說在使用生成式AI技術(shù)作畫時(shí),不可控在某些場(chǎng)景下還算是個(gè)優(yōu)點(diǎn),能夠幫助創(chuàng)作者發(fā)散思維,提供更多可能性。那么在視頻創(chuàng)作領(lǐng)域,生成式AI技術(shù)的不可控,將導(dǎo)致生成的畫面無(wú)法使用(想象一下,一部電影,上一秒揮拳的還是杰森斯坦森,下一秒就變成了巨石強(qiáng)森),所以在影視領(lǐng)域,AIGC技術(shù)的普及速度遠(yuǎn)遠(yuǎn)落后于其他產(chǎn)業(yè)。
通過引入額外的輸入,實(shí)現(xiàn)精準(zhǔn)控制生成式AI
ControlNet 作者提出了一個(gè)新的神經(jīng)網(wǎng)絡(luò)概念,通過引入額外的輸入來(lái)控制擴(kuò)散模型,如 stable diffusion,然后在新生成的圖像中保留這些信息,比如人物姿態(tài)、深度、畫面結(jié)構(gòu)等,以實(shí)現(xiàn)用戶對(duì)生成的圖像進(jìn)行精細(xì)化控制。
在此之前,如果想要實(shí)現(xiàn)對(duì)圖像進(jìn)行精細(xì)控制,需要對(duì)prompt提示詞進(jìn)行詳細(xì)描寫,或者用圖生圖加上詳細(xì)的prompt才能小概率生成目標(biāo)圖像,ControlNet 出現(xiàn)后,實(shí)現(xiàn)難度大幅降低。通過引入額外的輸入(如Canny 邊緣檢測(cè)、Openpose 骨骼綁定),ControlNet就可以對(duì)模型加以約束,以保證生成的圖像可以依照使用者的意圖進(jìn)行生成、調(diào)整,從而實(shí)現(xiàn)對(duì)模型的精細(xì)化控制。
對(duì)于視頻內(nèi)容創(chuàng)作者,元享AIGC模塊將帶來(lái)巨大的效率提升,原本需要投入大量人力物力成本,花費(fèi)數(shù)周時(shí)間才能完成的視頻的將在一兩天內(nèi)完成。智能化的使用體驗(yàn),極大降低了視頻的制作成本與周期。并且隨著AIGC技術(shù)的不斷更新迭代,效率效果還將持續(xù)提升,在不久的未來(lái),AIGC技術(shù)將顛覆視頻創(chuàng)作流程,成為影視行業(yè)新時(shí)代數(shù)字生產(chǎn)力。
拓展AIGC應(yīng)用領(lǐng)域,元享生成式AI+大模型,開啟多模態(tài)虛擬數(shù)字人交互新篇章
天娛數(shù)科子公司元境科技計(jì)劃將AIGC技術(shù)擴(kuò)展到更多領(lǐng)域。目前內(nèi)測(cè)版元享智能云平臺(tái)已將AIGC、大模型技術(shù)應(yīng)用到虛擬數(shù)字人肢體驅(qū)動(dòng),通過卷積神經(jīng)網(wǎng)絡(luò)提取音頻特征與動(dòng)作庫(kù)特征,建立雙向映射關(guān)系,通過預(yù)訓(xùn)練大模與型神經(jīng)網(wǎng)絡(luò)解碼器得到肢體動(dòng)作關(guān)鍵點(diǎn)位置信息,生成式AI將音頻信息與動(dòng)作關(guān)鍵點(diǎn)位置信息結(jié)合,生成并驅(qū)動(dòng)虛擬數(shù)字人動(dòng)作、表情。實(shí)驗(yàn)室環(huán)境進(jìn)行雙盲測(cè)試,接入到內(nèi)測(cè)版元享智能云平臺(tái)的元趣AI,在虛擬數(shù)字人電商直播間的效果對(duì)比評(píng)分高于真人。由于元享虛擬數(shù)字人每一次說話時(shí)的動(dòng)作表情都是由生成式AI生成的全新的動(dòng)作,且能夠與直播音樂頻譜相結(jié)合,在直播時(shí)互動(dòng)更加多樣,表現(xiàn)更加生動(dòng)自然。
在相同話術(shù),不同音樂韻律下,虛擬數(shù)字人每次的交互動(dòng)作不盡相同,實(shí)時(shí)生成的新動(dòng)作打破了以往虛擬數(shù)字人只能根據(jù)動(dòng)作庫(kù)進(jìn)行關(guān)鍵詞匹配,且動(dòng)作模型少、肢體表情僵硬不自然等問題,能夠更好地處理復(fù)雜的互動(dòng)場(chǎng)景。此項(xiàng)技術(shù)的落地將有效提升虛擬數(shù)字人在影視、教育、金融、文娛、電商、本地生活等諸多行業(yè)的應(yīng)用效果,擁有無(wú)窮動(dòng)作的虛擬數(shù)字人將成為虛擬人行業(yè)發(fā)展的重要里程碑。