大模型從最初的“不計(jì)成本”探索,到如今的“可持續(xù)”商業(yè)化落地,經(jīng)歷了從技術(shù)突破到工程優(yōu)化,再到產(chǎn)業(yè)融合的深度演進(jìn)。在這一過程中,虹軟始終走在創(chuàng)新前沿,依托深厚的視覺AI技術(shù)積累,以ArcMuse計(jì)算技術(shù)引擎為核心,不斷推動(dòng)視覺大模型的技術(shù)進(jìn)步與行業(yè)落地,加速AI在各領(lǐng)域的深度應(yīng)用。
自2023年推出以來,ArcMuse計(jì)算技術(shù)引擎憑借持續(xù)的 算法創(chuàng)新與工程優(yōu)化 ,構(gòu)建起多層次架構(gòu)、跨模型協(xié)同優(yōu)化、高效能計(jì)算引擎等核心能力,不斷突破通用大模型在計(jì)算成本、適配效率、推理速度等方面的局限。如今,經(jīng)過對(duì)算法、數(shù)據(jù)、工程及大模型生態(tài)的全面優(yōu)化,ArcMuse迎來了全新升級(jí) —— ArcMuse 2025 V1.1版本。新一代ArcMuse在生成質(zhì)量、計(jì)算效率、端側(cè)適配性等方面取得了顯著突破 , 進(jìn)一步 增強(qiáng)了視覺大模型的泛化能力與實(shí)用性 。其先進(jìn)的視覺AI能力全面支持智能手機(jī)、智能汽車、AI眼鏡、機(jī)器人、服裝智造以及智能商拍的創(chuàng)新發(fā)展。
ArcMuse 2025 總體架構(gòu)與核心愿景:視覺AI核心基座引擎,不止大模型
ArcMuse是一個(gè) 兼顧效果和性能的緊湊AI綜合體 ,它以大底模和強(qiáng)化的垂直大模型為基礎(chǔ),用以生成遠(yuǎn)觀悅目的基礎(chǔ)效果,并利用一系列復(fù)雜或簡單細(xì)分小模型、淺層模型、用于約束的CV&CG引擎包對(duì)基礎(chǔ)效果進(jìn)行控制,以達(dá)到近看自然、結(jié)構(gòu)信息正確、細(xì)節(jié)豐富合理的最終圖像和視頻效果。
ArcMuse 2025核心思想與架構(gòu):
ArcMuse是一套深度耦合底模、細(xì)分大模型、控制淺層復(fù)雜模型和視覺庫、約束細(xì)節(jié)的淺層小模型和視覺庫,數(shù)據(jù)預(yù)處理引擎包、CV&CG處理引擎包、定制化文本生成模型的緊湊穩(wěn)定AI平臺(tái)庫。
CPG(Control Packages) : 利用五大類小模型和引擎包對(duì)期望的結(jié)果進(jìn)行約束與控制。
人 物: 手、臉、腳、四肢、體
深度: 各類攝像頭、模組、模式的輸入,都能得到高質(zhì)量的深度
分割: 基于對(duì)象、區(qū)域、語義等
分類: 景、物、影調(diào)、情感等
邊緣: 強(qiáng)、弱、結(jié)構(gòu)、遮擋、懸空等
KDE(Keep Details Engines) :利用一些淺層模型保留弱紋理和細(xì)節(jié),利用光照模型分析、去除、重光照處理和維持影調(diào)(Shading)。
高效計(jì)算優(yōu)化: 采用FP8混合精度計(jì)算,對(duì)核心計(jì)算復(fù)雜度高的OPs進(jìn)行匯編級(jí)優(yōu)化。
訓(xùn)練和推理時(shí)的減冗余并行處理引擎包 :這點(diǎn)得益于公司定位實(shí)際應(yīng)用落地有回報(bào)的降本壓力,進(jìn)而研發(fā)出高效的基礎(chǔ)引擎和策略。
平臺(tái)無關(guān)化的各種處理 :依托虹軟 20 余年的視覺AI技術(shù)積累,使 ArcMuse 具備跨平臺(tái)適配能力,可靈活部署于云端、高性能計(jì)算平臺(tái)、移動(dòng)端及嵌入式設(shè)備。
從實(shí)用落地的角度來看,真正可行的 AI 大模型方案必須實(shí)現(xiàn) 多層次協(xié)同與功能模塊互補(bǔ) ,降低計(jì)算成本,以推動(dòng)大模型應(yīng)用平權(quán)化,使其更廣泛地賦能終端設(shè)備與各行業(yè)。ArcMuse 2025 正是基于這一理念讓視覺 AI 在真實(shí)應(yīng)用場景中 實(shí)現(xiàn)性能、效果與成本的三重突破 。
從 DeepSeek 到 ArcMuse 2025:構(gòu)建大模型新范式
AI 計(jì)算的高效降本是大模型商業(yè)可行化落地的關(guān)鍵,其核心在于 降低計(jì)算資源消耗 、 減少存儲(chǔ)需求與數(shù)據(jù)依賴 ,以更低的成本提供可接受甚至卓越的AI性能,使先進(jìn)AI技術(shù)(包括大模型)能夠更廣泛地惠及各行業(yè)與終端設(shè)備。要實(shí)現(xiàn)這一目標(biāo),僅依賴單一大模型或傳統(tǒng)Transformer架構(gòu)的頂級(jí)云計(jì)算平臺(tái)遠(yuǎn)遠(yuǎn)不夠,而必須借助 多AI范式的深度耦合 ,并具備 動(dòng)態(tài)多層次的自適應(yīng)能力的AI計(jì)算架構(gòu) ,以應(yīng)對(duì)不同計(jì)算環(huán)境的需求。
在這點(diǎn)上, DeepSeek 在文本和規(guī)則性較強(qiáng)的AI任務(wù)(如數(shù)學(xué)、代碼等) 上的策略,提供了一個(gè)典型的成功案例。其通過 DS-MOE(動(dòng)態(tài)路由稀疏專家網(wǎng)絡(luò))、MLA(KV矩陣緩存壓縮)、MTP(多Token預(yù)測)、FP8(混合精度量化訓(xùn)練)、GRPO (強(qiáng)化學(xué)習(xí)采用群組相對(duì)策略優(yōu)化)、DualPipe(調(diào)度算法) 等優(yōu)化策略,極大提升了大模型的計(jì)算效率,并降低了硬件成本,為大模型高效降本提供了新的思路。然而,DeepSeek 在推理計(jì)算與存儲(chǔ)占用上仍然存在一定的優(yōu)化空間,特別是對(duì)于圖像、視頻等視覺任務(wù)而言,如何借鑒這些優(yōu)化思想,并結(jié)合視覺AI的獨(dú)特需求,是一個(gè)關(guān)鍵課題。
在這一背景下, 虹軟對(duì) DeepSeek 的優(yōu)化策略進(jìn)行了深入分析 ,并結(jié)合自身在視覺 AI領(lǐng)域的多年研發(fā)經(jīng)驗(yàn),取長補(bǔ)短、深度融合,同時(shí)針對(duì)視覺 AI 的特性進(jìn)行了 定制化優(yōu)化 。實(shí)踐證明,這一耦合總體上帶來了 顯著的增益 ,不僅全面提升了ArcMuse的性能,尤其在 多模態(tài)數(shù)據(jù)理解、圖像與視頻推理增強(qiáng)方面效果突出 ;同時(shí), 計(jì)算成本大幅降低 ,例如,在提示詞工程推理方面, 顯卡租賃成本減少了一半以上 ,使大模型的 AI計(jì)算更高效且可控 。
為直觀展現(xiàn) ArcMuse 2025 在視覺生成、影像修復(fù)及視頻生成方面的能力,我們以非剛體拓?fù)潆y以保持的柔性衣物為背景,呈現(xiàn)其在復(fù)雜視覺任務(wù)中的卓越表現(xiàn)。
生成圖像示例1:
弱紋理、細(xì)節(jié)提升
生成圖像示例2:
細(xì)節(jié)、影調(diào)的提升
困難場景(Hard Case)示例:半透物(薄紗)、柔性物(裙裝)、復(fù)雜版型(塞腰、束腕)、弱紋理細(xì)節(jié)(紋理花紋、花邊領(lǐng)、暗條紋)
生成圖像示例4 :
AI模特圖大角度、模特表現(xiàn)力更新
生成圖像示例5 :
AI生成圖的光影效果、模特表現(xiàn)力更新
生成視頻示例6:
AI模特復(fù)雜動(dòng)作的穩(wěn)定性、表現(xiàn)力更新
生成圖像示例7:半透裝、碎花裙
生成視頻示例8:
讓示例7生成圖像再動(dòng)起來
ArcMuse 2025 為垂直行業(yè)提供定制化解決方案
ArcMuse 2025 的架構(gòu)是一種系統(tǒng)性優(yōu)化方案,通過整合多個(gè) AI 引擎,實(shí)現(xiàn)高效協(xié)同,即使在有限資源下仍能發(fā)揮最大效能,并為各類垂直行業(yè)提供定制化解決方案。這一架構(gòu)理念使 ArcMuse 成為 虹軟視覺 AI 賦能引擎 ,可廣泛應(yīng)用于移動(dòng)智能終端 AI 影像處理、智能汽車、AI 眼鏡、XR 3D 空間計(jì)算頭顯、服裝智造和智能商拍以及智能機(jī)器人等垂直場景,推動(dòng)行業(yè)創(chuàng)新升級(jí)。
在AI影像處理方面,ArcMuse 2025對(duì)AI影像模型進(jìn)行了優(yōu)化,特別是在圖像增強(qiáng)與影像細(xì)節(jié)恢復(fù)過程中,顯著減少了生成不真實(shí)效果的風(fēng)險(xiǎn)。升級(jí)后的模型在處理復(fù)雜紋理和高對(duì)比度場景時(shí),展現(xiàn)出較為穩(wěn)定的增強(qiáng)效果,降低了圖像生成中的不確定性。另外,在語義分割與識(shí)別方面,ArcMuse 2025進(jìn)一步增強(qiáng)了ArcMuse 2024對(duì)圖像內(nèi)容的理解精度,尤其是在文字紋理處理上,表現(xiàn)出比以往更強(qiáng)的模型細(xì)節(jié)還原能力。
在智能汽車方向,ArcMuse 2025的推理能力和場景理解能力得到提升,尤其在低能見度和復(fù)雜路況環(huán)境下,其優(yōu)化后的推理方法能夠結(jié)合不同的駕駛環(huán)境進(jìn)行分析,為駕駛員提供更為合理的安全輔助建議。例如,在大霧天氣和濕滑路況下,系統(tǒng)能夠根據(jù)前方車輛的燈光信號(hào)、車速以及路面狀態(tài),提出合理的駕駛策略與建議,減少潛在的駕駛或行車風(fēng)險(xiǎn)。
在 AI 眼鏡與 XR 3D 空間計(jì)算頭顯方向,ArcMuse 2025明顯提升了對(duì)復(fù)雜環(huán)境下物體識(shí)別的精度,尤其是在圖像語義分割和物體關(guān)系的理解上。在應(yīng)用中,ArcMuse 2025能夠更加精確地區(qū)分復(fù)雜環(huán)境中的物體和背景,減少誤識(shí)別的情況。例如,在對(duì)圖像中的窗戶與畫作進(jìn)行區(qū)分時(shí),ArcMuse 2025 通過優(yōu)化圖像分析流程,有效避免了誤識(shí)別,提高了識(shí)別的準(zhǔn)確度。
在智能商拍方向,ArcMuse 2025利用內(nèi)部新迭代的蒸餾框架優(yōu)化了文本與圖像生成的控制精度,使得在提示詞響應(yīng)的準(zhǔn)確性和圖像生成的可靠性方面有更高的提升。升級(jí)后的ArcMuse有更強(qiáng)的文本與圖像的匹配能力,能夠更好地生成符合商業(yè)需求的圖像。
在智能機(jī)器人方向,ArcMuse 2025通過優(yōu)化多模態(tài)數(shù)據(jù)處理、實(shí)時(shí)目標(biāo)識(shí)別、復(fù)雜場景理解等可顯著提升機(jī)器人在動(dòng)態(tài)環(huán)境中的適應(yīng)性和自主性。同時(shí),針對(duì)端側(cè)部署深度優(yōu)化,可使其在有限算力下依然高效運(yùn)行 AI 任務(wù),助力其在工業(yè)自動(dòng)化、智能服務(wù)、家庭陪護(hù)、教育娛樂等應(yīng)用落地。
視覺大模型實(shí)用化:多AI協(xié)同,驅(qū)動(dòng)創(chuàng)新落地
虹軟的視覺AI技術(shù)研發(fā)經(jīng)歷了20多年的歷練,絕大多數(shù)技術(shù)都實(shí)現(xiàn)了產(chǎn)品化應(yīng)用和實(shí)際落地,達(dá)到了100億級(jí)端側(cè)設(shè)備的實(shí)際應(yīng)用。虹軟的AI研發(fā)經(jīng)歷了從CV&CG到淺層學(xué)習(xí),從端側(cè)深度學(xué)習(xí)到復(fù)雜模型,從底座模型強(qiáng)化到領(lǐng)域大模型;效果和性能、功耗3指標(biāo)并舉的多階段扎實(shí)迭代向前演進(jìn)。
在當(dāng)下的AI技術(shù)快速發(fā)展浪潮中,大模型成為行業(yè)關(guān)注的焦點(diǎn),近來DeepSeek又帶來一波強(qiáng)化劑。虹軟認(rèn)為真正高效的智能計(jì)算體系不是單一的通識(shí)大模型,每個(gè)AI引擎有各自的效果和性能優(yōu)缺點(diǎn),須深度耦合、效果性能權(quán)衡,這樣才能幫助視覺大模型真正快速落地實(shí)用化。
另外,一個(gè)非常有意義的目標(biāo)是:“大模型普及與可商業(yè)化”。其核心是算力要求要盡可能低,存儲(chǔ)資源要盡可能少,數(shù)據(jù)要求要盡可能少,成本盡可能省,但效果盡可能好。這樣的話,多AI范式的高度耦合,且是動(dòng)態(tài)多層次的AI計(jì)算架構(gòu),才是邏輯合理的選擇,僅靠目前單一的視覺大模型還不夠、走不通,這就是ArcMuse的架構(gòu)思路和定位。
-
視覺
+關(guān)注
關(guān)注
1文章
152瀏覽量
24233 -
虹軟
+關(guān)注
關(guān)注
1文章
57瀏覽量
4576 -
大模型
+關(guān)注
關(guān)注
2文章
2926瀏覽量
3676
原文標(biāo)題:虹軟新一代視覺大模型ArcMuse 2025 V1.1正式發(fā)布,全面賦能手機(jī)、汽車、眼鏡、機(jī)器人、服裝智造和智能商拍行業(yè)
文章出處:【微信號(hào):ArcSoft_World_Wide,微信公眾號(hào):虹軟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
虹軟科技亮相2025上海車展
易華錄推出新一代“情指行”一體化作戰(zhàn)平臺(tái)
東軟聯(lián)合推出新一代全語言交互式人社服務(wù)機(jī)器人“南小寧”
睿創(chuàng)微納推出新一代目標(biāo)檢測算法
鼎陽科技推出新一代任意波形發(fā)生器SDG3000X系列

虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發(fā)布
Garmin佳明和天馬推出新一代數(shù)字座艙解決方案
Garmin佳明和高通推出新一代數(shù)字座艙解決方案
虹軟ArcMuse計(jì)算技術(shù)引擎全面升級(jí)
亞馬遜云科技推出新一代Amazon SageMaker
比亞迪2025年將推出新一代刀片電池
DeepL推出新一代翻譯編輯大型語言模型
Nullmax正式推出新一代自動(dòng)駕駛技術(shù)Nullmax Intelligence

【機(jī)器視覺】歡創(chuàng)播報(bào) | 聯(lián)想、高通和微軟合作推出新一代AIPC

評(píng)論