電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)數(shù)字人(Digital Human / Meta Human)是運(yùn)用數(shù)字技術(shù)創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。近些年數(shù)字人發(fā)展迅速,在短視頻、直播、金融、醫(yī)療等各行業(yè)上都有所應(yīng)用。而且隨著AI技術(shù)的發(fā)展,數(shù)字人的生成也越來越容易。
在不久前的深圳國際人工智能展,就有眾多企業(yè)展示其數(shù)字人技術(shù),包括出門問問、華為、元境科技、相芯科技等。在展會期間,電子發(fā)燒友網(wǎng)記者與現(xiàn)場工作人員進(jìn)行了詳細(xì)交流,發(fā)現(xiàn)當(dāng)前數(shù)字人技術(shù)和應(yīng)用已經(jīng)越來越成熟。
可以說多國語言的數(shù)字人
此次展會上,華為重點(diǎn)展示了盤古大模型及其行業(yè)應(yīng)用。在其展臺上,記者注意到,華為也展示了其盤古數(shù)字人直播案例。基于華為云MetaStudio分身數(shù)字人,多語種泛化,一次訓(xùn)練匹配多個(gè)語種,及多語言克隆,多語言驅(qū)動等特點(diǎn),萬興科技打造了AIGC“真人”出海營銷神器萬興播爆視頻版及直播版,結(jié)合盤古數(shù)字人大模型,其實(shí)現(xiàn)母語一次訓(xùn)練、多種語言流暢適配,助力企業(yè)輕松出海營銷。
數(shù)字化時(shí)代,跨境電商成為了許多企業(yè)發(fā)展的新方向。然而,從文化差異、語言問題,再到市場洞察、營銷引流、用戶運(yùn)營,跨境電商立足海外市場面臨重重壓力。但全鏈路AIGC創(chuàng)作的“萬能”助理萬興播爆,解決了外籍演員難找、多語言難適配、制作周期長、成本居高不下等痛點(diǎn),幫助企業(yè)大幅降本增效,輕松出海營銷。
在今年7月的華為開發(fā)者大會2023上,華為宣布,基于盤古大模型能力,華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線全新升級,推出數(shù)字人模型生成服務(wù)和模型驅(qū)動服務(wù),旨在通過數(shù)字人服務(wù)和技術(shù)賦能,賦能千行百業(yè)提升數(shù)字內(nèi)容創(chuàng)作體驗(yàn)和效率。
華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線,基于華為云盤古基礎(chǔ)大模型能力、渲染引擎和實(shí)時(shí)音視頻能力,使用PB級的音視頻數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建了數(shù)字人通用大模型,包括數(shù)字人形象、動作、表情、口型、聲音等;每個(gè)用戶還可以結(jié)合個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建自己的數(shù)字人個(gè)性化大模型。數(shù)字人生成后,用戶通過文字、語音、視頻等方式生產(chǎn)驅(qū)動向量信息,從而驅(qū)動數(shù)字人生成高清視頻。
除了萬興播爆數(shù)字人直播案例之外,現(xiàn)場還展示了多家基于華為云的數(shù)字人案例。展會現(xiàn)場,工作人員告訴電子發(fā)燒友,目前市面上有很多通過圖片、文字生成的數(shù)字人,看上去是平面的,并不立體,華為云MetaStudio分身數(shù)字人看上去跟真人很相似了。對于數(shù)字人直播能否現(xiàn)場互動的問題,現(xiàn)場工作人員表示,當(dāng)前數(shù)字人直播基本難以做到現(xiàn)場互動,不過通過盤古大模型,后續(xù)會繼續(xù)進(jìn)行優(yōu)化,使得數(shù)字人能夠?qū)崟r(shí)回答現(xiàn)場用戶提出的部分問題。
展會現(xiàn)場,出門問問的展臺吸引了不少觀眾駐足觀看。出門問問成立于2012年,是一家以生成式AI與語音交互為核心的人工智能公司。該公司擁有領(lǐng)先的AI基礎(chǔ)設(shè)施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及豐富的垂直領(lǐng)域軟硬結(jié)合的優(yōu)化算法技術(shù)模塊,是為數(shù)不多的同時(shí)服務(wù)于消費(fèi)者、企業(yè)、創(chuàng)作者三大類不同群體的公司。
出門問問打造的AI數(shù)字人分身奇妙元,是一款專注于數(shù)字人短視頻和直播服務(wù)的軟件。包括多類型數(shù)字人和百種語言。據(jù)現(xiàn)場工作人員介紹,只需輸入一段文本內(nèi)容就能生成數(shù)字人視頻,幾秒鐘就能完成,制作起來非常方便。
出門問問提供4種超前沿的克隆與定制服務(wù),包括真人形象克隆、聲音克隆、3D數(shù)字人定制和IP活化。比如真人形象克隆,可以實(shí)現(xiàn)真人形象1:1還原,只需錄制一個(gè)5分鐘視頻,即可終身使用,輸入文字?jǐn)?shù)字人即可說話,表情神態(tài)接近真人。
奇妙元數(shù)字人視頻制作非常簡單,一鍵就可以將文本合成視頻。相比于傳統(tǒng)視頻制作,奇妙元視頻制作的優(yōu)勢在于:1、速度非???,即使是制作一個(gè)真人口播視頻,也僅需5分鐘;2、數(shù)字人視頻,可隨時(shí)修改文本,隨時(shí)生成;3、數(shù)字人更智能,一個(gè)數(shù)字人可說10國語言,500種聲音。
如今數(shù)字人已經(jīng)適用于各種應(yīng)用場景,包括新聞播報(bào)、科普服務(wù)、培訓(xùn)視頻、線上客服、帶貨種草、產(chǎn)品宣傳、企業(yè)代言、金融宣傳等。出門問問還提供形象和聲音克隆,比如醫(yī)生、律師等各種需要大量科普的職業(yè),非常適合克隆自己的形象做數(shù)字人。
虛擬數(shù)字人涉及哪些前沿技術(shù)
在此次展會上,除了體驗(yàn)到快速生成數(shù)字人之外,我們也看到了數(shù)字人生成所涉及到的諸多技術(shù)。在參展的企業(yè)中,有一家提供全棧式虛擬數(shù)字人多場景應(yīng)用解決方案服務(wù)的企業(yè)元境科技,該公司成立于2021年12月,由A股上市公司天娛數(shù)科戰(zhàn)略投資。
元境科技以元享SaaS云平臺、元趣AI為基礎(chǔ),通過計(jì)算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等計(jì)算機(jī)技術(shù),并打通AI智能交互設(shè)備鏈接,快速打通AI在各個(gè)垂直場景中的應(yīng)用,賦能各行業(yè)。元境科技核心技術(shù)團(tuán)隊(duì)從2016年開始布局虛擬人業(yè)務(wù),擁有全球頂尖的動態(tài)光場掃描、三維重建算法、無標(biāo)記點(diǎn)視覺捕捉、AI語音驅(qū)動等前沿技術(shù),在北京總部擁有400平米XR動捕基地。
虛擬人生成SaaS云平臺“元享”,是以底層數(shù)據(jù)為核心生成各類產(chǎn)品應(yīng)用的架構(gòu)平臺。從元境科技提供的材料來看,其包含動態(tài)光場掃描建模、三位重建算法、AI驅(qū)動、XR動捕基地等技術(shù)。制作流程上:1、動態(tài)動態(tài)光場掃描真人;2、AI算法進(jìn)行三維重建;3、AI動畫綁定;4、渲染;5、AI驅(qū)動。
數(shù)據(jù)方面,元境科技擁有LightStage掃描建模技術(shù),包括面部三位模型與重光照數(shù)據(jù)采集、亞微米級別超高精度輸出等;專業(yè)級表演捕捉技術(shù),包括400平米超大動捕棚、實(shí)時(shí)多人動捕、實(shí)現(xiàn)線上線下同步直播;3D視覺捕捉芯片技術(shù),包括3D視覺深度引擎、3D傳感和AI計(jì)算、SLAM實(shí)時(shí)跟蹤建圖引擎。
算法方面,表情學(xué)習(xí)模型:1、利用LightStage對被采集人員面部動態(tài)表情進(jìn)行掃描數(shù)據(jù)采集;2、自研SaaS平臺對采集數(shù)據(jù)進(jìn)行深度學(xué)習(xí);3、一鍵生成虛擬形象獨(dú)有的動態(tài)表情數(shù)據(jù)庫。保障在數(shù)字人生成內(nèi)容時(shí)高度還原真人在說話時(shí)的面部神經(jīng)反應(yīng)與細(xì)微表情。
AI算法表情驅(qū)動:利用綜合動捕方案與自研智能算法,在直播期間可實(shí)現(xiàn)面部細(xì)微表情的高速傳遞與智能修正。
元境科技基于全球領(lǐng)先的完備人工智能元鯨框架,推出了數(shù)字員工產(chǎn)品線,從數(shù)據(jù)采集、訓(xùn)練到上線,最快僅需10小時(shí)。支持創(chuàng)建擁有情感交互能力、專業(yè)技能和內(nèi)容生產(chǎn)能力的數(shù)字人,目前已被應(yīng)用于很多領(lǐng)域及場景中。
記者在展會現(xiàn)場還看到一家提供數(shù)字人服務(wù)的企業(yè)相芯科技,據(jù)現(xiàn)場工作人員介紹,他們公司不直接給C端用戶提供生成數(shù)字人,而是為需要制作數(shù)字人的企業(yè)提供SDK,讓這些企業(yè)能夠基于他們的SDK快速的生成數(shù)字人。
相芯科技成立于2016年,由全球圖形學(xué)頂級專家領(lǐng)銜,團(tuán)隊(duì)成員來自微軟、蘋果、華為等國際知名企業(yè)。自研的“數(shù)字人平臺AvatarX”和“數(shù)字物平臺ObjectX”可刻畫人的音容笑貌,描繪物的流光溢彩,已服務(wù)數(shù)千家海內(nèi)外企業(yè),實(shí)現(xiàn)手機(jī)、電商、金融、汽車、互娛、融媒體、政務(wù)、文博等領(lǐng)域的規(guī)?;瘧?yīng)用。
此次展會重點(diǎn)展示其AvatarX數(shù)字人平臺,該平臺依托獨(dú)創(chuàng)的“虛擬數(shù)字人引擎”,為各行各業(yè)提供從虛擬形象生成、自定義、驅(qū)動、云渲染到應(yīng)用于一體的跨平臺數(shù)字人解決方案。用戶可通過組合不同能力的SDK,打造更面向未來的,更具差異化的數(shù)字人應(yīng)用產(chǎn)品和數(shù)宇資產(chǎn),賦能元宇由生態(tài)布局。
相芯科技擁有全棧數(shù)字人技術(shù)和全品類數(shù)字人產(chǎn)品,包括卡通數(shù)字人、視頻數(shù)字人、超寫實(shí)數(shù)字人、仿真數(shù)字人、全真數(shù)字人。應(yīng)用場景包括社交、短視頻創(chuàng)作、智能客服、虛擬主播、品牌代言人、智能車載等。相芯科技數(shù)字人方案具有諸多優(yōu)勢,比如形象自由生成;支持面部驅(qū)動、身體驅(qū)動、手勢識別、語音驅(qū)動;支持實(shí)時(shí)云端渲染,兼容第三方渲染引擎;不同能力SDK自由組合,幫助開發(fā)者快速構(gòu)建不同應(yīng)用程序等。
在通過AvatarX SDK DEMO進(jìn)行體驗(yàn)的時(shí)候,可以發(fā)現(xiàn),AI形象生成非??欤恍枭蟼髡掌?,便可一鍵生成還原度極高的虛擬形象。該平臺還支持形象自定義,支持拼臉扭臉、身體捏形、服飾美妝等不同方式對虛擬形象自定義編輯。據(jù)介紹,云平臺為用戶提供海量素材自由選擇搭配,并保持定期更新與維護(hù)。
根據(jù)其官網(wǎng)介紹,其AI面部驅(qū)動支持51個(gè)維度的面部表情檢測與3個(gè)維度的舌頭活動檢測,實(shí)時(shí)人臉追蹤技術(shù)實(shí)現(xiàn)真人與虛擬人表情同步,即使只有側(cè)臉也能穩(wěn)定使用。AI身體驅(qū)動,通過實(shí)時(shí)驅(qū)動跟蹤技術(shù),實(shí)現(xiàn)真人與虛擬人動作同步,共同支持全身31個(gè)人體點(diǎn)位、26根骨骼方向驅(qū)動,單手21個(gè)手部點(diǎn)位。AI語音驅(qū)動,通過文本或語音驅(qū)動虛擬人口型,集成TTS、ASR和NLP服務(wù),支持多種音色自由切換支持虛擬形象情緒和表情設(shè)置,并能控制虛擬形象肢體動作。
此外,用戶的虛擬形象不僅可以與其他虛擬形象互動,也可與虛擬場景、虛擬道具互動,支持多人聊天功能與視頻遠(yuǎn)程共享功能并實(shí)現(xiàn)了WebRTC服務(wù)集成。
小結(jié)
當(dāng)前已經(jīng)有不少虛擬數(shù)字人出現(xiàn)在短視頻創(chuàng)作、直播等場景中,然而可以看到,不少數(shù)字人在表情、動作、語言方面與真人相比還相差甚遠(yuǎn),在直播中數(shù)字人也無法進(jìn)行互動,體驗(yàn)還有待提高。虛擬數(shù)字人的制作涉及很多技術(shù),包括數(shù)據(jù)采集、動作捕捉、AI驅(qū)動、渲染等,要想讓數(shù)字人有更好的體驗(yàn),每個(gè)技術(shù)環(huán)節(jié)都需要打磨好。另外大模型的接入也讓數(shù)字人在直播中能夠互動有了可能。
-
數(shù)字人
+關(guān)注
關(guān)注
0文章
131瀏覽量
2072 -
大模型
+關(guān)注
關(guān)注
2文章
2523瀏覽量
2976
發(fā)布評論請先 登錄
相關(guān)推薦
評論