訂閱
糾錯
加入自媒體

我們離“數(shù)字人自由”還有多遠(yuǎn)?

image.png

作者 | 曉陽

編輯 | 周燁

早在2007年,日本公司Crypton Future Media推出的虛擬聲優(yōu)“初音未來”,便將虛擬人推向大眾視野。遺憾的是,往后數(shù)年,數(shù)字人并沒有在真正意義上迎來爆發(fā)。

但2021年以后,基于AI技術(shù)深度開發(fā)的AYAYI、度曉曉等應(yīng)用場景更廣泛的數(shù)字人的出現(xiàn),展現(xiàn)了更自然逼真的體驗(yàn),也向“真實(shí)”邁進(jìn)了一大步。

在寫作、手語翻譯、直播等領(lǐng)域,數(shù)字人開始發(fā)揮作用。AI數(shù)字人挑戰(zhàn)高考作文,得分排總考生的前25%;數(shù)字人主播小C,已連續(xù)兩年報(bào)道兩會并采訪人大代表;AI手語主播,在今年冬奧會期間為數(shù)千萬聽障用戶提供直播及賽事的手語服務(wù);百度數(shù)字人希加加,甚至成為麥當(dāng)勞的首位虛擬代言人。

圖/希加加抖音賬號、央視網(wǎng)

虛擬數(shù)字人正在快速走向大眾,經(jīng)歷著大量的制作生成、不同場景的應(yīng)用,展現(xiàn)出一幅“人”與人共生的未來圖景。

2022年,這場有關(guān)“造人”的暢想、實(shí)驗(yàn)仍在進(jìn)行。業(yè)內(nèi)普遍認(rèn)為,以洛天依為代表的“形象+語音合成”的數(shù)字人,為1.0階段。2.0階段,則是依靠“2D/3D模型+實(shí)時動作捕捉+聲優(yōu)配音”模式。

而如今進(jìn)入的3.0階段,將考驗(yàn)企業(yè)的AIGC(人工智能自動生成內(nèi)容)能力。算法、程序是數(shù)字人的基因,但通過AI,它們能在面部表情、形體表達(dá)、語音表述上變得更加“真實(shí)”、“個性”。

近期,沙利文發(fā)布的《2022年中國數(shù)字人市場觀測報(bào)告》(下稱報(bào)告)顯示,按綜合競爭實(shí)力量化評估,小冰、百度、商湯三家位列第一梯隊(duì)。從硬軟件、AI能力平臺到各產(chǎn)業(yè)的應(yīng)用,各大廠商也開始試圖打通數(shù)字與現(xiàn)實(shí)的入口。

但目前為止,企業(yè)以及個人還無法獲得“數(shù)字人自由”。虛擬數(shù)字人距離真正意義上的爆發(fā),還有一段路要走。

大多數(shù)字人僅能進(jìn)行簡單的決策,而無法達(dá)到完全智能化交互。同時,數(shù)字人的生產(chǎn)效率問題,導(dǎo)致難以滿足企業(yè)的高頻需求,數(shù)字人制造成本較高。

打造有“靈魂”的數(shù)字人,能聽、能說、能理解、能互動,是企業(yè)、用戶的訴求,但技術(shù)方面依然面臨高難度挑戰(zhàn)。

1、數(shù)字人為什么被需要?

數(shù)字人浪潮的興起、爆發(fā),一直是伴隨需求而生。

千禧年后,CG合成的“初音未來”讓虛擬偶像概念破土而出,愿意買單、參與創(chuàng)作的年輕人,制造了第一場圍繞虛擬偶像的“吸金效應(yīng)”。

回到當(dāng)下,在社交媒體上,虛擬美妝主播、虛擬換裝達(dá)人、虛擬演員等一夜爆紅的案例數(shù)不勝數(shù)。Z世代的新消費(fèi)趨勢,驅(qū)動著數(shù)字人進(jìn)入更多產(chǎn)業(yè)鏈條。

提及數(shù)字人,大多年輕人的第一反應(yīng)也許是主打顏值的“演藝型”數(shù)字人。一位90后女生小蕾提到,她最早關(guān)注到虛擬人是在小紅書上,關(guān)注時尚博主AYAYI后,她隔幾天就會點(diǎn)進(jìn)她的賬號瀏覽最新的發(fā)帖內(nèi)容,后來才發(fā)現(xiàn)這是虛擬人。但目前,AYAYI小紅書的筆記點(diǎn)贊數(shù)已經(jīng)從十萬+驟降至幾十,純演藝型數(shù)字人如何打破“虛火”、“過氣”的命運(yùn),也是各大數(shù)字人廠商面臨的難題。

另一位90后男生周凡也提到,從小他就混二次元圈,從動畫、游戲中的二次元人群到虛擬偶像,無論是顏值還是人設(shè),都更能讓他產(chǎn)生興趣。真實(shí)的明星他絲毫不關(guān)心,卻很愿意為“虛擬人老婆”花錢買單。

圖/小紅書

主打顏值的演藝型數(shù)字人,常被塑造成網(wǎng)紅并進(jìn)行品牌代言活動。比如希加加便是一個演藝型數(shù)字人,在多個社交平臺運(yùn)營著個人IP賬號,一邊與蜘蛛俠、三體等超級IP合作,打造人氣,一邊與品牌在年輕化營銷方面進(jìn)行合作,此前希加加便成為麥當(dāng)勞的首位虛擬推薦官,還與Qee熊、FE賽車合作畫作并發(fā)布售賣。

可以看出,數(shù)字人扮演著為品牌開辟全新營銷場景、與未來消費(fèi)主力軍溝通的角色。

但市場對數(shù)字人的期待不僅僅停留在“顏值”上,人們希望數(shù)字人承擔(dān)的角色從演藝?yán)^續(xù)向服務(wù)型擴(kuò)展,撐起更大的市場需求。

在過往提到人“人”共存爭議時,數(shù)字人替代人類的問題總被提及,但無論是前端的開發(fā)者還是投身其中的科技公司都一再強(qiáng)調(diào),數(shù)字人的服務(wù)屬性。百度智能云AI人機(jī)交互實(shí)驗(yàn)室負(fù)責(zé)人李士巖便曾提到,做數(shù)字人的初衷,并非為了替代人,而是為了“服務(wù)人和陪伴人”。

如何服務(wù)?取代部分基礎(chǔ)性工作、提升效能,是當(dāng)下能看到的答案。數(shù)字員工、智能客服已經(jīng)被廣泛應(yīng)用到很多企業(yè)中,這幫助了企業(yè)降本增效、提升客戶體驗(yàn)。

京東的數(shù)字人出現(xiàn)在618,在電商、社交、媒體等領(lǐng)域上崗就業(yè);在直播帶貨領(lǐng)域,網(wǎng)易伏羲的24小時AI虛擬主播,可以填補(bǔ)真人主播無法出鏡的空白時間;在新聞報(bào)道方面,度曉曉與《工人日報(bào)》合作,在兩會期間應(yīng)用“AI記者”播報(bào)、采訪。

百度數(shù)字人度曉曉則屬于典型的“服務(wù)型選手”。2022年百度世界大會即將在7月21日舉行,在其預(yù)溝通會上也提到,百度智能云專門打造了一個數(shù)字人平臺“曦靈”,基于此形成了一個“AI數(shù)字人家族”,包括虛擬偶像、數(shù)字人主播、數(shù)字人員工等,都在為企業(yè)品牌提供服務(wù)。

而今年的大會中,度曉曉還將迎接一個難度系數(shù)翻倍的新挑戰(zhàn)。此前,在寫作方面,度曉曉參與作答全國議論文,拿下48分高分;作畫方面,其具備領(lǐng)先的跨模態(tài)理解和生成能力,可以根據(jù)個性化需求自動生成油畫、水彩畫、中國畫等多種風(fēng)格的圖像,還能實(shí)現(xiàn)“看圖說話”的效果;度曉曉甚至還能創(chuàng)作歌曲方面,其與龔俊數(shù)字人聯(lián)合演唱的歌曲,從作詞到編曲均由AI“操刀”。報(bào)告也提到,服務(wù)型數(shù)字人是百度的優(yōu)勢所在,產(chǎn)品類型豐富,從最早的企業(yè)服務(wù)場景已經(jīng)延伸到營銷、辦公等領(lǐng)域。

這一切也讓人們展望數(shù)字人在更多領(lǐng)域被全面喚醒。

2、實(shí)現(xiàn)“數(shù)字人自由”的技術(shù)難題

虛擬數(shù)字人呈現(xiàn)的爆發(fā)態(tài)勢,是過去數(shù)年制作水平、軟硬件技術(shù)等各方面的跨越式升級在催動。

盡管虛擬數(shù)字人不再停留在“紙片人”的階段,向智能化、精細(xì)化、多樣化方向發(fā)展,但還沒有到達(dá)談?wù)摗捌占啊、甚至大?guī)!皬(fù)制”的階段。

由此,在談?wù)撎摂M數(shù)字人“服務(wù)和陪伴人”這件事之前,似乎需要先解答“數(shù)字人自由”的問題:數(shù)字人大規(guī)模普及,依然面臨著技術(shù)發(fā)展的阻礙。

經(jīng)歷了長期的發(fā)展,如今到了數(shù)字人產(chǎn)業(yè)的3.0階段,通過掌握語義智能解析(NLP)和語音在線合成(TTS)等AI技術(shù),數(shù)字人將變得更加“聰明”。

AIGC將進(jìn)一步在數(shù)字人領(lǐng)域滲透,將顛覆現(xiàn)有的內(nèi)容生產(chǎn)模式,AI將成為打造數(shù)字人的基礎(chǔ)硬實(shí)力。

AIGC的應(yīng)用,說到底還是依賴于大模型等底層技術(shù)的創(chuàng)新。2022年百度數(shù)字大會的預(yù)溝通會也提到,希加加、度曉曉AI作畫、AI寫作文、AI作曲等,都是AIGC在內(nèi)容生產(chǎn)提效的體驗(yàn),而這背后,是百度飛槳及大模型的支持。

圖/文心大模型官網(wǎng)

AIGC如何讓數(shù)字人成為一個更真實(shí)的“人”,首先要從“真實(shí)”的要素說起。主要可分為:身體的靜動態(tài)(軀體、面部、口型),感知能力(看、聽、說),認(rèn)知能力(情感識別、知識理解),它們都被期待著擺脫“紙片人”的僵硬。

目前而言,部分?jǐn)?shù)字人僅僅擁有單一能力,且單一能力也僅僅是“半吊子”水平。

以涉及聽和說的“可交互”能力舉例,被稱作“人工智障”的數(shù)字人,無法完成多輪對話,更達(dá)不到“語言理解力”。當(dāng)你說“不喜歡”時,它可能會回答,“我不明白你在說什么!

但與度曉曉等更“真實(shí)”的數(shù)字人對話時,你會發(fā)現(xiàn),跟她說你想看電影,她會給你推薦影片;你提到想喝咖啡,她就會跳轉(zhuǎn)到咖啡外賣的小程序去下單。顯然,度曉曉在對話中不僅能與用戶閑聊,同時能識別用戶說話的意圖,來提供給用戶搜索、推薦等,更好地為用戶服務(wù)。

那么,這樣流暢的對話是如何實(shí)現(xiàn)的?這需要依賴數(shù)個步驟:首先,預(yù)訓(xùn)練對話大模型,使數(shù)字人學(xué)習(xí)通用的對話生成能力。再進(jìn)一步學(xué)習(xí)不同畫像信息下的對話生成能力,使模型的答復(fù)更具“定制化”“一致性”。最后,將海量的問答知識內(nèi)化到模型參數(shù)中,使得模型具備準(zhǔn)確的問答能力。百度文心PLATO大模型,便具備接近真人水平的多輪對話能力。

簡單來說,不斷迭代大模型的能力,提高各項(xiàng)AI能力,而基于大模型生成的數(shù)字人也將擁有更高的“智商”“情商”。

不過,提高單一能力并非終點(diǎn),數(shù)字人需要走向全能。隨著虛擬人扮演的角色逐漸復(fù)雜,比如協(xié)助國家隊(duì)訓(xùn)練的虛擬教練觀君、負(fù)責(zé)萬科內(nèi)部財(cái)務(wù)催收的虛擬員工崔筱盼、百度的AI手語數(shù)字人等,內(nèi)容生成、感知表達(dá)等都在逐步進(jìn)化。

比如在直播場景中,百度的AI手語數(shù)字人,需要“聽到”主播的話,并“理解”字句,再實(shí)時轉(zhuǎn)換成手語“動作”,展示給觀眾看。顯然,相比其他數(shù)字人,它進(jìn)行著更高強(qiáng)度的“大腦”運(yùn)轉(zhuǎn),完成著更復(fù)雜的工作。

這便要考驗(yàn)數(shù)字人背后的大模型的跨模態(tài)能力。從文字、聲音到圖像模態(tài),AI需要讓數(shù)字人做到“聽說讀寫”樣樣俱全。AI驅(qū)動下,數(shù)字人將不斷成長,擁有更多可能性。

3、技術(shù)越來越強(qiáng),大量復(fù)制卻依然艱難?

解決“數(shù)字人自由”,技術(shù)難題之外,生產(chǎn)效率問題也是討論的主要問題——如何低成本且快速地生成數(shù)字人,去滿足高頻的需求。

當(dāng)下,數(shù)字人還很難快速低成本生成。當(dāng)企業(yè)希望借助數(shù)字人營銷、服務(wù)用戶時,面臨著數(shù)字人的投入成本高、制作周期長、人設(shè)運(yùn)營難、技術(shù)難度高等難題。

提供解決方案的服務(wù)平臺,被認(rèn)為是“數(shù)字人自由”的加速器。如百度、騰訊、網(wǎng)易伏羲等,都是平臺型技術(shù)服務(wù)商。

通過服務(wù)平臺,企業(yè)品牌借助批量生成功能,定制與業(yè)務(wù)方面吻合的數(shù)字人,同時,可以通過平臺進(jìn)行內(nèi)容生產(chǎn)和運(yùn)營,比如直播、制作短視頻等,或是對數(shù)字人的“人設(shè)”進(jìn)行包裝。

過去兩年,縮短生產(chǎn)周期——企業(yè)的這一核心需求,在不斷被滿足。

比如根據(jù)不同需求所需時間區(qū)分:在百度智能云曦靈平臺上,較為簡單的2D數(shù)字人像,以前需要兩三個月時間做出來的3D數(shù)字人,現(xiàn)在可以壓縮到小時級;困難度最高、成本最高的特異型數(shù)字人(有具體的參照形象要求),也可在10到30天內(nèi)生成。

另外,不同類型的數(shù)字人的制作成本都很高昂,企業(yè)品牌既要避免數(shù)字人同質(zhì)化競爭,又要低成本,實(shí)屬艱難。

越來越多的企業(yè)也在通過AI技術(shù)釋放生產(chǎn)力、降低成本。比如在人像制作上,掃描真人、捏臉是常規(guī)手段,但生產(chǎn)周期長至3個月,成本高至上百萬。而各個平臺也在試圖尋找降低成本的方法。如百度的技術(shù)團(tuán)隊(duì),通過積累人像數(shù)據(jù),利用數(shù)據(jù)訓(xùn)練AI生成模型,最終通過AI模型快速打造各種需求的人像,大幅降低成本。

百度讓數(shù)字人制作成本十倍、百倍地下降,使數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別。2022年百度世界大會的預(yù)溝通會提到這一數(shù)據(jù)。

可以預(yù)見,未來數(shù)年,更多企業(yè)會加入應(yīng)用數(shù)字人的隊(duì)伍,數(shù)字人的商業(yè)價值將在更多領(lǐng)域發(fā)揮,數(shù)字人幫助品牌代言、與用戶溝通互動等,都會變得普遍起來,而不止企業(yè),甚至個人也能擁有屬于自己的數(shù)字人。

作為國內(nèi)AI領(lǐng)先企業(yè),百度多年積累的AI能力,成為它在數(shù)字人產(chǎn)業(yè)實(shí)力領(lǐng)先的基礎(chǔ)。此前互聯(lián)網(wǎng)周刊發(fā)布的《2021虛擬數(shù)字人企業(yè)排名TOP50》榜單中,百度因?yàn)檎Z音、視覺等AI能力的積累,在數(shù)字人綜合實(shí)力方面排名第一。百度等服務(wù)平臺的下場也助推了數(shù)字人產(chǎn)業(yè)的發(fā)展。

數(shù)字人變得更加“真實(shí)”,服務(wù)于更多產(chǎn)業(yè),得益于百度等廠商對AI能力的投入、培育,并將解決方案提供給更多有需求的企業(yè),將數(shù)字人產(chǎn)業(yè)從0推向1,再走向虛實(shí)融生。

       原文標(biāo)題 : 我們離“數(shù)字人自由”還有多遠(yuǎn)?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號