0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)字人“復(fù)刻”主播爆火網(wǎng)絡(luò),接入大模型有望開啟實(shí)時(shí)互動

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-10-22 07:54 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)數(shù)字人(Digital Human / Meta Human)是運(yùn)用數(shù)字技術(shù)創(chuàng)造出來的、與人類形象接近的數(shù)字化人物形象。近些年數(shù)字人發(fā)展迅速,在短視頻、直播、金融、醫(yī)療等各行業(yè)上都有所應(yīng)用。而且隨著AI技術(shù)的發(fā)展,數(shù)字人的生成也越來越容易。

在不久前的深圳國際人工智能展,就有眾多企業(yè)展示其數(shù)字人技術(shù),包括出門問問、華為、元境科技、相芯科技等。在展會期間,電子發(fā)燒友網(wǎng)記者與現(xiàn)場工作人員進(jìn)行了詳細(xì)交流,發(fā)現(xiàn)當(dāng)前數(shù)字人技術(shù)和應(yīng)用已經(jīng)越來越成熟。

可以說多國語言的數(shù)字人

此次展會上,華為重點(diǎn)展示了盤古大模型及其行業(yè)應(yīng)用。在其展臺上,記者注意到,華為也展示了其盤古數(shù)字人直播案例。基于華為云MetaStudio分身數(shù)字人,多語種泛化,一次訓(xùn)練匹配多個(gè)語種,及多語言克隆,多語言驅(qū)動等特點(diǎn),萬興科技打造了AIGC“真人”出海營銷神器萬興播爆視頻版及直播版,結(jié)合盤古數(shù)字人大模型,其實(shí)現(xiàn)母語一次訓(xùn)練、多種語言流暢適配,助力企業(yè)輕松出海營銷。

數(shù)字化時(shí)代,跨境電商成為了許多企業(yè)發(fā)展的新方向。然而,從文化差異、語言問題,再到市場洞察、營銷引流、用戶運(yùn)營,跨境電商立足海外市場面臨重重壓力。但全鏈路AIGC創(chuàng)作的“萬能”助理萬興播爆,解決了外籍演員難找、多語言難適配、制作周期長、成本居高不下等痛點(diǎn),幫助企業(yè)大幅降本增效,輕松出海營銷。

在今年7月的華為開發(fā)者大會2023上,華為宣布,基于盤古大模型能力,華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線全新升級,推出數(shù)字人模型生成服務(wù)和模型驅(qū)動服務(wù),旨在通過數(shù)字人服務(wù)和技術(shù)賦能,賦能千行百業(yè)提升數(shù)字內(nèi)容創(chuàng)作體驗(yàn)和效率。

華為云MetaStudio數(shù)字內(nèi)容生產(chǎn)線,基于華為云盤古基礎(chǔ)大模型能力、渲染引擎和實(shí)時(shí)音視頻能力,使用PB級的音視頻數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建了數(shù)字人通用大模型,包括數(shù)字人形象、動作、表情、口型、聲音等;每個(gè)用戶還可以結(jié)合個(gè)人數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建自己的數(shù)字人個(gè)性化大模型。數(shù)字人生成后,用戶通過文字、語音、視頻等方式生產(chǎn)驅(qū)動向量信息,從而驅(qū)動數(shù)字人生成高清視頻。

除了萬興播爆數(shù)字人直播案例之外,現(xiàn)場還展示了多家基于華為云的數(shù)字人案例。展會現(xiàn)場,工作人員告訴電子發(fā)燒友,目前市面上有很多通過圖片、文字生成的數(shù)字人,看上去是平面的,并不立體,華為云MetaStudio分身數(shù)字人看上去跟真人很相似了。對于數(shù)字人直播能否現(xiàn)場互動的問題,現(xiàn)場工作人員表示,當(dāng)前數(shù)字人直播基本難以做到現(xiàn)場互動,不過通過盤古大模型,后續(xù)會繼續(xù)進(jìn)行優(yōu)化,使得數(shù)字人能夠?qū)崟r(shí)回答現(xiàn)場用戶提出的部分問題。

展會現(xiàn)場,出門問問的展臺吸引了不少觀眾駐足觀看。出門問問成立于2012年,是一家以生成式AI與語音交互為核心的人工智能公司。該公司擁有領(lǐng)先的AI基礎(chǔ)設(shè)施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及豐富的垂直領(lǐng)域軟硬結(jié)合的優(yōu)化算法技術(shù)模塊,是為數(shù)不多的同時(shí)服務(wù)于消費(fèi)者、企業(yè)、創(chuàng)作者三大類不同群體的公司。

出門問問打造的AI數(shù)字人分身奇妙元,是一款專注于數(shù)字人短視頻和直播服務(wù)的軟件。包括多類型數(shù)字人和百種語言。據(jù)現(xiàn)場工作人員介紹,只需輸入一段文本內(nèi)容就能生成數(shù)字人視頻,幾秒鐘就能完成,制作起來非常方便。

出門問問提供4種超前沿的克隆與定制服務(wù),包括真人形象克隆、聲音克隆、3D數(shù)字人定制和IP活化。比如真人形象克隆,可以實(shí)現(xiàn)真人形象1:1還原,只需錄制一個(gè)5分鐘視頻,即可終身使用,輸入文字?jǐn)?shù)字人即可說話,表情神態(tài)接近真人。

奇妙元數(shù)字人視頻制作非常簡單,一鍵就可以將文本合成視頻。相比于傳統(tǒng)視頻制作,奇妙元視頻制作的優(yōu)勢在于:1、速度非???,即使是制作一個(gè)真人口播視頻,也僅需5分鐘;2、數(shù)字人視頻,可隨時(shí)修改文本,隨時(shí)生成;3、數(shù)字人更智能,一個(gè)數(shù)字人可說10國語言,500種聲音。

如今數(shù)字人已經(jīng)適用于各種應(yīng)用場景,包括新聞播報(bào)、科普服務(wù)、培訓(xùn)視頻、線上客服、帶貨種草、產(chǎn)品宣傳、企業(yè)代言、金融宣傳等。出門問問還提供形象和聲音克隆,比如醫(yī)生、律師等各種需要大量科普的職業(yè),非常適合克隆自己的形象做數(shù)字人。

虛擬數(shù)字人涉及哪些前沿技術(shù)

在此次展會上,除了體驗(yàn)到快速生成數(shù)字人之外,我們也看到了數(shù)字人生成所涉及到的諸多技術(shù)。在參展的企業(yè)中,有一家提供全棧式虛擬數(shù)字人多場景應(yīng)用解決方案服務(wù)的企業(yè)元境科技,該公司成立于2021年12月,由A股上市公司天娛數(shù)科戰(zhàn)略投資。

元境科技以元享SaaS云平臺、元趣AI為基礎(chǔ),通過計(jì)算機(jī)圖形學(xué)、圖形渲染、動作捕捉、深度學(xué)習(xí)、語音合成等計(jì)算機(jī)技術(shù),并打通AI智能交互設(shè)備鏈接,快速打通AI在各個(gè)垂直場景中的應(yīng)用,賦能各行業(yè)。元境科技核心技術(shù)團(tuán)隊(duì)從2016年開始布局虛擬人業(yè)務(wù),擁有全球頂尖的動態(tài)光場掃描、三維重建算法、無標(biāo)記點(diǎn)視覺捕捉、AI語音驅(qū)動等前沿技術(shù),在北京總部擁有400平米XR動捕基地。

虛擬人生成SaaS云平臺“元享”,是以底層數(shù)據(jù)為核心生成各類產(chǎn)品應(yīng)用的架構(gòu)平臺。從元境科技提供的材料來看,其包含動態(tài)光場掃描建模、三位重建算法、AI驅(qū)動、XR動捕基地等技術(shù)。制作流程上:1、動態(tài)動態(tài)光場掃描真人;2、AI算法進(jìn)行三維重建;3、AI動畫綁定;4、渲染;5、AI驅(qū)動。

數(shù)據(jù)方面,元境科技擁有LightStage掃描建模技術(shù),包括面部三位模型與重光照數(shù)據(jù)采集、亞微米級別超高精度輸出等;專業(yè)級表演捕捉技術(shù),包括400平米超大動捕棚、實(shí)時(shí)多人動捕、實(shí)現(xiàn)線上線下同步直播;3D視覺捕捉芯片技術(shù),包括3D視覺深度引擎、3D傳感和AI計(jì)算、SLAM實(shí)時(shí)跟蹤建圖引擎。

算法方面,表情學(xué)習(xí)模型:1、利用LightStage對被采集人員面部動態(tài)表情進(jìn)行掃描數(shù)據(jù)采集;2、自研SaaS平臺對采集數(shù)據(jù)進(jìn)行深度學(xué)習(xí);3、一鍵生成虛擬形象獨(dú)有的動態(tài)表情數(shù)據(jù)庫。保障在數(shù)字人生成內(nèi)容時(shí)高度還原真人在說話時(shí)的面部神經(jīng)反應(yīng)與細(xì)微表情。

AI算法表情驅(qū)動:利用綜合動捕方案與自研智能算法,在直播期間可實(shí)現(xiàn)面部細(xì)微表情的高速傳遞與智能修正。

元境科技基于全球領(lǐng)先的完備人工智能元鯨框架,推出了數(shù)字員工產(chǎn)品線,從數(shù)據(jù)采集、訓(xùn)練到上線,最快僅需10小時(shí)。支持創(chuàng)建擁有情感交互能力、專業(yè)技能和內(nèi)容生產(chǎn)能力的數(shù)字人,目前已被應(yīng)用于很多領(lǐng)域及場景中。

記者在展會現(xiàn)場還看到一家提供數(shù)字人服務(wù)的企業(yè)相芯科技,據(jù)現(xiàn)場工作人員介紹,他們公司不直接給C端用戶提供生成數(shù)字人,而是為需要制作數(shù)字人的企業(yè)提供SDK,讓這些企業(yè)能夠基于他們的SDK快速的生成數(shù)字人。

相芯科技成立于2016年,由全球圖形學(xué)頂級專家領(lǐng)銜,團(tuán)隊(duì)成員來自微軟、蘋果、華為等國際知名企業(yè)。自研的“數(shù)字人平臺AvatarX”和“數(shù)字物平臺ObjectX”可刻畫人的音容笑貌,描繪物的流光溢彩,已服務(wù)數(shù)千家海內(nèi)外企業(yè),實(shí)現(xiàn)手機(jī)、電商、金融、汽車、互娛、融媒體、政務(wù)、文博等領(lǐng)域的規(guī)?;瘧?yīng)用。

此次展會重點(diǎn)展示其AvatarX數(shù)字人平臺,該平臺依托獨(dú)創(chuàng)的“虛擬數(shù)字人引擎”,為各行各業(yè)提供從虛擬形象生成、自定義、驅(qū)動、云渲染到應(yīng)用于一體的跨平臺數(shù)字人解決方案。用戶可通過組合不同能力的SDK,打造更面向未來的,更具差異化的數(shù)字人應(yīng)用產(chǎn)品和數(shù)宇資產(chǎn),賦能元宇由生態(tài)布局。

相芯科技擁有全棧數(shù)字人技術(shù)和全品類數(shù)字人產(chǎn)品,包括卡通數(shù)字人、視頻數(shù)字人、超寫實(shí)數(shù)字人、仿真數(shù)字人、全真數(shù)字人。應(yīng)用場景包括社交、短視頻創(chuàng)作、智能客服、虛擬主播、品牌代言人、智能車載等。相芯科技數(shù)字人方案具有諸多優(yōu)勢,比如形象自由生成;支持面部驅(qū)動、身體驅(qū)動、手勢識別、語音驅(qū)動;支持實(shí)時(shí)云端渲染,兼容第三方渲染引擎;不同能力SDK自由組合,幫助開發(fā)者快速構(gòu)建不同應(yīng)用程序等。

在通過AvatarX SDK DEMO進(jìn)行體驗(yàn)的時(shí)候,可以發(fā)現(xiàn),AI形象生成非??欤恍枭蟼髡掌?,便可一鍵生成還原度極高的虛擬形象。該平臺還支持形象自定義,支持拼臉扭臉、身體捏形、服飾美妝等不同方式對虛擬形象自定義編輯。據(jù)介紹,云平臺為用戶提供海量素材自由選擇搭配,并保持定期更新與維護(hù)。

根據(jù)其官網(wǎng)介紹,其AI面部驅(qū)動支持51個(gè)維度的面部表情檢測與3個(gè)維度的舌頭活動檢測,實(shí)時(shí)人臉追蹤技術(shù)實(shí)現(xiàn)真人與虛擬人表情同步,即使只有側(cè)臉也能穩(wěn)定使用。AI身體驅(qū)動,通過實(shí)時(shí)驅(qū)動跟蹤技術(shù),實(shí)現(xiàn)真人與虛擬人動作同步,共同支持全身31個(gè)人體點(diǎn)位、26根骨骼方向驅(qū)動,單手21個(gè)手部點(diǎn)位。AI語音驅(qū)動,通過文本或語音驅(qū)動虛擬人口型,集成TTS、ASR和NLP服務(wù),支持多種音色自由切換支持虛擬形象情緒和表情設(shè)置,并能控制虛擬形象肢體動作。

此外,用戶的虛擬形象不僅可以與其他虛擬形象互動,也可與虛擬場景、虛擬道具互動,支持多人聊天功能與視頻遠(yuǎn)程共享功能并實(shí)現(xiàn)了WebRTC服務(wù)集成。

小結(jié)

當(dāng)前已經(jīng)有不少虛擬數(shù)字人出現(xiàn)在短視頻創(chuàng)作、直播等場景中,然而可以看到,不少數(shù)字人在表情、動作、語言方面與真人相比還相差甚遠(yuǎn),在直播中數(shù)字人也無法進(jìn)行互動,體驗(yàn)還有待提高。虛擬數(shù)字人的制作涉及很多技術(shù),包括數(shù)據(jù)采集、動作捕捉、AI驅(qū)動、渲染等,要想讓數(shù)字人有更好的體驗(yàn),每個(gè)技術(shù)環(huán)節(jié)都需要打磨好。另外大模型的接入也讓數(shù)字人在直播中能夠互動有了可能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)字人
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    2072
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2523

    瀏覽量

    2976
收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字實(shí)時(shí)交互解決方案

    本案例中,Pantheon Lab(萬想科技)專注于數(shù)字技術(shù)解決方案,通過 NVIDIA 技術(shù)實(shí)現(xiàn)數(shù)字實(shí)時(shí)對話與客戶
    的頭像 發(fā)表于 01-14 11:19 ?217次閱讀

    望獲實(shí)時(shí)Linux系統(tǒng)與大語言模型深度融合,開創(chuàng)實(shí)時(shí)智能無限可能!

    控制領(lǐng)域,大語言模型能夠顯著提升控制系統(tǒng)的智能化水平,確保實(shí)時(shí)性的同時(shí)實(shí)現(xiàn)高質(zhì)量的人機(jī)交互,為具身機(jī)器、智能駕駛等對實(shí)時(shí)性和智能化有強(qiáng)烈需求的場景提供理想的解決方案。 然而,大語言
    的頭像 發(fā)表于 01-08 13:44 ?66次閱讀

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?143次閱讀
    如何<b class='flag-5'>開啟</b>Stable Diffusion WebUI<b class='flag-5'>模型</b>推理部署

    雙十一我為什么選擇華為云 Flexus 數(shù)字?廣告輸出更高效率、更有創(chuàng)意

    ? 虛擬偶像、數(shù)字、各種各樣的數(shù)字密集出現(xiàn)在傳媒和營銷領(lǐng)域,成為時(shí)下最受捧的新鮮事物。作為一種新的廣告形式,
    的頭像 發(fā)表于 12-03 17:59 ?416次閱讀
    雙十一我為什么選擇華為云 Flexus <b class='flag-5'>數(shù)字</b><b class='flag-5'>人</b>?廣告輸出更高效率、更有創(chuàng)意

    通信與網(wǎng)絡(luò)開啟數(shù)字時(shí)代的新征程

    嚴(yán)峻,成為關(guān)注焦點(diǎn)。展望未來,通信與網(wǎng)絡(luò)將繼續(xù)朝著高速、智能、安全的方向發(fā)展。5G 網(wǎng)絡(luò)的普及將進(jìn)一步推動各行業(yè)的數(shù)字化轉(zhuǎn)型,6G 等新一代通信技術(shù)的研發(fā)也在緊鑼密鼓地進(jìn)行,有望帶來更
    的頭像 發(fā)表于 11-05 16:48 ?305次閱讀
    通信與<b class='flag-5'>網(wǎng)絡(luò)</b>:<b class='flag-5'>開啟</b><b class='flag-5'>數(shù)字</b>時(shí)代的新征程

    大屏數(shù)字互動墻軟件 液晶拼接屏互動軟件 LED大屏交互軟件

    在這個(gè)數(shù)字化浪潮洶涌的時(shí)代,各種數(shù)字多媒體互動設(shè)備不斷出現(xiàn),為數(shù)字展覽提供了眾多不一樣的展示與互動效果,大屏
    的頭像 發(fā)表于 10-23 17:19 ?314次閱讀
    大屏<b class='flag-5'>數(shù)字</b><b class='flag-5'>互動</b>墻軟件 液晶拼接屏<b class='flag-5'>互動</b>軟件 LED大屏交互軟件

    Al大模型機(jī)器

    金航標(biāo)kinghelm薩科微slkor總經(jīng)理宋仕強(qiáng)介紹說,薩科微Al大模型機(jī)器有哪些的優(yōu)勢?薩科微AI大模型機(jī)器由清華大學(xué)畢業(yè)的天才少年N博士和王博士團(tuán)隊(duì)開發(fā),與同行相比具有許多優(yōu)
    發(fā)表于 07-05 08:52

    品牌出海!中央廣電總臺亞非中心專訪思看科技

    5月15日,來自中央廣播電視總臺亞非中心印尼語部、緬甸語部、土耳其語部、普什圖語部、菲律賓語部團(tuán)隊(duì)走進(jìn)思看科技,深度體驗(yàn)3D視覺數(shù)字化技術(shù)及產(chǎn)品,與思看科技展開了一場媒體與科技的跨界交流。
    的頭像 發(fā)表于 06-14 15:24 ?315次閱讀
    品牌出海!中央廣電總臺亞非中心<b class='flag-5'>主</b><b class='flag-5'>播</b>專訪思看科技

    助聽器降噪神經(jīng)網(wǎng)絡(luò)模型

    在堆棧網(wǎng)絡(luò)方法中,參數(shù)少于一百萬個(gè)。該模型使用挑戰(zhàn)組織者提供的 500 小時(shí)的嘈雜語音進(jìn)行訓(xùn)練。 該網(wǎng)絡(luò)能夠進(jìn)行實(shí)時(shí)處理(一幀輸入,一幀輸 出)并達(dá)到有競爭力的結(jié)果。將這兩種類型的信號
    發(fā)表于 05-11 17:15

    融合AI大模型技術(shù),數(shù)字交互更自然、應(yīng)用更廣泛!

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)數(shù)字是通過先進(jìn)的計(jì)算機(jī)圖形學(xué)、深度學(xué)習(xí)等技術(shù)創(chuàng)建出的具有高度逼真形象和行為的虛擬人物。AI大模型則是指具有大規(guī)模參數(shù)量和復(fù)雜結(jié)構(gòu)的人工智能模型,能夠處理
    的頭像 發(fā)表于 04-27 00:58 ?3916次閱讀

    京東官宣:劉強(qiáng)東AI數(shù)字即將開啟直播

    4月15日下午,“京東黑板報(bào)”宣布劉強(qiáng)東的AI數(shù)字即將開啟直播的消息。
    的頭像 發(fā)表于 04-16 15:22 ?618次閱讀

    優(yōu)必選宣布人形機(jī)器Walker S接入百度文心大模型

    優(yōu)必選宣布人形機(jī)器Walker S接入百度文心大模型,共同探索中國AI大模型+人形機(jī)器的應(yīng)用。
    的頭像 發(fā)表于 04-07 10:17 ?945次閱讀

    藍(lán)蜂網(wǎng)關(guān)接入天津市粉塵涉企業(yè)風(fēng)險(xiǎn)監(jiān)測預(yù)警系統(tǒng)

    藍(lán)蜂網(wǎng)關(guān)接入天津市粉塵涉企業(yè)風(fēng)險(xiǎn)監(jiān)測預(yù)警系統(tǒng) 一、應(yīng)用背景 按天津市應(yīng)急管理部要求,參照《粉塵涉企業(yè)安全生產(chǎn)風(fēng)險(xiǎn)監(jiān)測預(yù)警 數(shù)據(jù)接入規(guī)范》。天津市已有的粉塵涉
    的頭像 發(fā)表于 03-07 14:50 ?433次閱讀
    藍(lán)蜂網(wǎng)關(guān)<b class='flag-5'>接入</b>天津市粉塵涉<b class='flag-5'>爆</b>企業(yè)風(fēng)險(xiǎn)監(jiān)測預(yù)警系統(tǒng)

    湯姆貓正在推進(jìn)申請接入OpenAI的Sora模型

    湯姆貓?jiān)?b class='flag-5'>互動平臺上透露,公司正在積極推進(jìn)申請接入OpenAI的Sora模型,并計(jì)劃進(jìn)行相關(guān)素材制作的測試。目前,湯姆貓尚未正式接入Sora模型
    的頭像 發(fā)表于 03-05 10:20 ?943次閱讀

    怪獸智能數(shù)字,實(shí)時(shí)交互數(shù)字直播系統(tǒng),3D超寫實(shí)虛擬形象直播

    也在不斷創(chuàng)新,推出了許多令人驚嘆的技術(shù)產(chǎn)品。其中,可互動的怪獸智能數(shù)字以及實(shí)時(shí)交互數(shù)字直播系
    的頭像 發(fā)表于 03-05 09:08 ?678次閱讀