0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

現(xiàn)場Live震撼!OmAgent框架強(qiáng)勢開源!行業(yè)應(yīng)用已全面開花

科技見聞網(wǎng) ? 來源:科技見聞網(wǎng) ? 作者:科技見聞網(wǎng) ? 2024-07-08 15:36 ? 次閱讀

第一個提出自動駕駛并進(jìn)行研發(fā)的公司是Google,巧的是,它發(fā)布的Transformer模型也為今天的大模型發(fā)展奠定了基礎(chǔ)。

自動駕駛已經(jīng)完成從概念到現(xiàn)實(shí)的華麗轉(zhuǎn)變,徹底重塑了傳統(tǒng)駕車方式,而大模型行業(yè)正在經(jīng)歷的,恰如自動駕駛技術(shù)發(fā)展的傳奇征程——

最頂尖的研發(fā)團(tuán)隊(duì)競相投身其中、不斷加速搶跑的技術(shù)產(chǎn)品創(chuàng)新,以及持續(xù)被推向極致的用戶體驗(yàn)。

在大模型賽道中,有一家企業(yè)始終以領(lǐng)先的身位,推動著行業(yè)邊界向前拓展。

為什么是聯(lián)匯科技?

當(dāng)行業(yè)剛開始關(guān)注大模型,他們已經(jīng)錨定多模態(tài)大模型,并高分取得了工信部大模型檢測的001號證書;

去年,當(dāng)人們關(guān)注“百模大戰(zhàn)”,他們不僅發(fā)布了自研OmModel多模態(tài)大模型的V3版本,更發(fā)布了國內(nèi)首批大模型驅(qū)動的自主智能體應(yīng)用;

今年,世界人工智能大會期間,他們再次發(fā)布一系列技術(shù)成果,將大模型技術(shù)產(chǎn)品推向更深、更廣的應(yīng)用層面。

聯(lián)匯科技技術(shù)團(tuán)隊(duì)有著極強(qiáng)的前瞻思維,這與他們的首席科學(xué)家趙天成博士緊密相關(guān),這位師從國際AI領(lǐng)域頂尖學(xué)者的Maxine Eskenazi,在CMU LTI (卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所)完成碩博連讀的天才少年,不僅稱得上「AI 名門正派」,更難得的是,趙天成在技術(shù)發(fā)展和戰(zhàn)略規(guī)劃方面有著獨(dú)到見解。

趙天成博士指出,在AI主導(dǎo)的第四次工業(yè)革命浪潮中,自主智能將成為變革的核心變量。隨著人類第一次接觸并掌握創(chuàng)造智慧的奧秘,我們將目睹一個新時代的到來——在這個時代中,機(jī)器、軟件甚至系統(tǒng),將被賦予前所未有的自主決策能力,自動化將廣泛應(yīng)用于各個工作領(lǐng)域,開啟前所未有的效率和創(chuàng)新。

2024年是智能體元年。

我們正處于L2級別,并逐步向L3、L4邁進(jìn)的過程中。

wKgaomaLlsaAAQuwAAS_Zh71-F8853.jpg

OmAgent來了!

WAIC期間,聯(lián)匯科技正式發(fā)布第二代多模態(tài)智能體 OmAgent。

去年同期,聯(lián)匯科技搶跑行業(yè),率先發(fā)布了國內(nèi)第一批由多模態(tài)大模型驅(qū)動的自主智能體,那么,今年聯(lián)匯的第二代多模態(tài)智能體OmAgent有哪些驚喜?

首先是感知模塊全新升級。

隨著AI應(yīng)用落地,聯(lián)匯科技發(fā)現(xiàn)盡管萬物感知模型在智能識別和處理方面具有巨大潛力,但受限于推理速度的瓶頸。相較于小型模型在推理速度上的優(yōu)勢,Idealab的G-DINO和聯(lián)匯科技的OmDet在速度上的表現(xiàn)都不盡如人意,這極大地限制了它們在邊緣計(jì)算設(shè)備上的應(yīng)用。

聯(lián)匯科技最新發(fā)布的OmDet V2,實(shí)現(xiàn)萬物感知的全面加速,從底層重新構(gòu)建了萬物感知的模塊,推出了EFH高性能融合頭,包含了一系列模型加速的優(yōu)化技術(shù)、語言向量緩存、輕量化特征編碼與解碼等技術(shù),得益于EFH對每一個環(huán)節(jié)的機(jī)制優(yōu)化,相較于G-DINO和聯(lián)匯的第一代感知模型,OmDet V2在每一個環(huán)節(jié)上都實(shí)現(xiàn)了20倍以上的速度提高。

wKgaomaLlseAChUWAAMzcqs-cOk946.jpgwKgZomaLlsiAPRX3AAKp7nj50u8363.jpg

這樣的提升意味著OmDet V2正在打開未來邊緣AI與具身智能全新可能。

憑借OmDet V2的推理速度和精確分析能力,單個GPU就可以承載對500路視頻流的實(shí)時萬物感知分析,這是對技術(shù)性能的新一次刷新。同時,這也意味著打開邊緣AI的可能,OmDet V2讓萬物感知模型擺脫云端束縛,走向邊緣設(shè)備,為人形機(jī)器人、家庭智算中心等前沿應(yīng)用提供了強(qiáng)大的智能支持。

這種創(chuàng)新不僅重新定義了大模型產(chǎn)品的開發(fā)思維,更為構(gòu)建一個更實(shí)時、更安全、更注重隱私的大模型應(yīng)用環(huán)境奠定了基礎(chǔ)。

第二是思考決策能力的提升。

思考是多模態(tài)智能體的核心,只有具備了思考能力,智能體才能夠依據(jù)感知和記憶結(jié)果做決策判斷和自主行為,成為真正的助手。但現(xiàn)有多模態(tài)思考模型存在著明顯局限,比如只能基于單張圖片進(jìn)行思考和決策、無法對多個關(guān)聯(lián)圖片之間進(jìn)行理解處理等。

為了解決這一問題,聯(lián)匯科技全新發(fā)布了第二代思考大模型OmChat V2,一個基于多模態(tài)模型原生預(yù)訓(xùn)練的生成大模型,不僅提供8B、40B、60B多個版本,適配不同需求。更能非常好地支持視頻、圖文混合、文字等多種復(fù)雜輸入,完美適配智能體決策過程中所需要的復(fù)雜場景。

wKgaomaLlsmAHeiTAAOTgvBWarQ326.jpg

OmChat V2支持高達(dá)512K、50萬的上下文長度,折合視頻長度30分鐘,僅次于Google Gemin-1.5,并遠(yuǎn)超GPT-4o及微軟LLaVa-1.5。

wKgZomaLlsmAIFcoAAKb0Ne-svU263.jpg

OmChat V2在Mantis-Eval、Q-Bench、MileBench Real、MVBench等測試中平均性能均在行業(yè)前列。

chaijie_default.png

更簡單、直接的說法是,OmChat V2不僅能夠看準(zhǔn)時序關(guān)系,更能夠看懂多圖關(guān)系。

wKgZomaLlsuAELgOABu9PdIUsC0731.jpg

△時序關(guān)系判斷

wKgaomaLlsyAHzyCAD59aphezAM603.jpg

△多圖關(guān)系理解

為了大模型與智能體技術(shù)能夠真正的普惠落地,聯(lián)匯科技還率先完成了與多款國產(chǎn)GPU的適配與性能驗(yàn)證,通過高效稀疏激活、動態(tài)專家方法,提升推理效率20倍,OmOS大模型運(yùn)行平臺也是首個支持多地域大模型分布式推理平臺,異構(gòu)九頭蛇推理能夠提升算力利用率3倍。

wKgZomaLls6AKoUMAAN3Xc30PqM066.jpg

就此,聯(lián)匯科技正式解鎖海量行業(yè)應(yīng)用場景。

wKgaomaLls-AcVpCADiYHpODwkI773.jpg

△自動化體育解說

wKgZomaLltGAeSaZABwqbppMKOE213.jpg

△影視劇內(nèi)容解構(gòu)

wKgaomaLltOAQYTFAClYj2jbDMY582.jpg

△工業(yè)智能助手

OmAgent框架全面開源!

聯(lián)匯科技在多模態(tài)智能體技術(shù)上已經(jīng)取得了多項(xiàng)突破性成果,對于是否開源的問題,趙天成博士始終從更宏觀、更長遠(yuǎn)的角度看待。

他表示:我們選擇將OmAgent框架全面開源,是因?yàn)橄胍膭罡嗥髽I(yè)、開發(fā)者參與,通過知識共享和技術(shù)創(chuàng)新構(gòu)建一個更加開放、更加豐富的智能體生態(tài),進(jìn)而能夠帶動整個行業(yè)更好的發(fā)展。

OmAgent框架不僅包含了感知、記憶、決策等綜合模塊,并整合融入OmDet、OmChat等多個不同類型的大模型能力,極大方便企業(yè)與開發(fā)者的應(yīng)用開發(fā),推動智能體技術(shù)向更深層次、更廣領(lǐng)域的賦能。

wKgZomaLltWAAABPAAO8GWOZYXo117.jpg

通過OmAgent,能夠快速、準(zhǔn)確解決各類場景下的復(fù)雜問題。比如,從影視劇中總找出某個問題的答案,盡管影片沒有直接呈現(xiàn)答案,但是OmAgent依然可以通過對全片的整體理解,掌握劇情并根據(jù)原片內(nèi)容進(jìn)行思考、作答。

Step 01

wKgaomaLltaAQ0B9AAsImnrYKgU076.jpg

Step 02

wKgZomaLlteAWsAFABuZ0ZuABu4615.jpg

Step 03

wKgZomaLltiAbyagABn9l5t-Hy4663.jpg

Step 04

wKgaomaLltqAQU-BACoajkXLoCI975.jpg

目前,OmAgent框架已全面開源。

wKgaomaLltuAZdX6AABRZsVtmCE703.jpg

在WAIC,聯(lián)匯科技對OmAgent做了完整的現(xiàn)場互動演示。

為了讓智能體更快地融入日常工作與生活,聯(lián)匯正式發(fā)布了Om多模態(tài)智能體全新產(chǎn)品系列——空間運(yùn)營智能體、知識服務(wù)智能體,為行業(yè)用戶打造“超級助手”。

空間運(yùn)營智能體是通過攝像頭、拾音器等物聯(lián)設(shè)備以及接入的各類數(shù)據(jù)源對空間物理環(huán)境全面感知,深度融入大模型的思考能力,準(zhǔn)確處理、分析多模態(tài)數(shù)據(jù)信息,洞察運(yùn)營中的關(guān)鍵問題、潛在機(jī)會,基于智能體角色設(shè)定的目標(biāo)任務(wù),結(jié)合記憶和學(xué)習(xí),實(shí)現(xiàn)面向物理空間的思考、規(guī)劃與決策,成為用戶進(jìn)行空間管理的得力助手。

wKgaomaLlt-AaVqBAAOpYrDyyBY885.jpg

應(yīng)用范圍覆蓋線下零售、營業(yè)廳、機(jī)房、產(chǎn)業(yè)園區(qū)、文旅景區(qū)、城市街區(qū)等各類單體空間、連鎖環(huán)境,實(shí)現(xiàn)對空間的精細(xì)化運(yùn)營與管理。

wKgZomaLluKAfIazAACf1LbPWLw032.jpg

相較于空間運(yùn)營智能體對現(xiàn)實(shí)物理世界的運(yùn)營管理,知識服務(wù)智能體更強(qiáng)調(diào)對數(shù)字世界的管理和對數(shù)字資產(chǎn)的價值挖掘。

wKgaomaLluOAd-vkAAKdQWUMTdk646.jpg

它可以作為專為行業(yè)定制的人工智能助手,廣泛應(yīng)用于辦公、生產(chǎn)、運(yùn)維、營銷、培訓(xùn)、客服等場景,將企業(yè)、組織和個人在特定領(lǐng)域內(nèi)積累的經(jīng)驗(yàn)、技術(shù)、業(yè)務(wù)流程等轉(zhuǎn)化為結(jié)構(gòu)化的行業(yè)專用知識,通過知識管理、知識檢索、知識問答與知識生成等核心能力,提升用戶決策質(zhì)量、優(yōu)化操作流程,最終將無形的知識資產(chǎn)轉(zhuǎn)化為有形的生產(chǎn)力。

2024無疑將是智能體元年,智能體也正在成為大模型落地的最佳途徑。

關(guān)于未來,趙天成博士透露了他的預(yù)判——

智能體的未來不是單打獨(dú)斗,而是大模型的組合拳,尤其是當(dāng)多種類大模型協(xié)同作戰(zhàn)時,它們能釋放出遠(yuǎn)超單一大語言模型的潛力。

智能體將打破傳統(tǒng)聊天機(jī)器人的界限,它們的應(yīng)用形態(tài)將經(jīng)歷一場革新,變得更加多樣化和深入人類活動的各個方面。

隨著邊緣AI的興起,大模型將不再局限于大型服務(wù)器,它們將走向邊緣,被嵌入到眾多小型設(shè)備中,實(shí)現(xiàn)真正的無處不在。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17617
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3472

    瀏覽量

    42945
  • 自動駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14007

    瀏覽量

    167747
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2794

    瀏覽量

    3438
收藏 人收藏

    評論

    相關(guān)推薦

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國內(nèi)率先原生支持FP8計(jì)算精度的國產(chǎn)GPU企業(yè),摩爾線程迅速響應(yīng),并在短時間內(nèi),成功實(shí)現(xiàn)對DeepSeek各個開源項(xiàng)目的全面支持,涵蓋FlashMLA
    的頭像 發(fā)表于 03-04 10:06 ?181次閱讀

    DLPC120+DLP3021是否可以實(shí)現(xiàn)live stream?

    DLPC120+DLP3021是否可以實(shí)現(xiàn)live stream?
    發(fā)表于 02-21 06:16

    Orange Business推出Live Intelligence:簡化企業(yè)級生成式AI部署

    Orange Business近期正式推出了一項(xiàng)名為Live Intelligence的創(chuàng)新解決方案,旨在為企業(yè)和地方政府提供全面且便捷的生成式AI服務(wù)。該方案的推出,標(biāo)志著Orange
    的頭像 發(fā)表于 12-27 13:55 ?479次閱讀

    高校開源開發(fā)者培養(yǎng)分論壇亮點(diǎn)前瞻

    數(shù)字化時代,開源成為了全球軟件與技術(shù)創(chuàng)新的重要驅(qū)動力,從Linux操作系統(tǒng)到Android移動平臺,從人工智能框架到云計(jì)算基礎(chǔ)設(shè)施,一個個開源項(xiàng)目遍地開花。然而,在
    的頭像 發(fā)表于 12-17 14:06 ?273次閱讀

    SSM框架的源碼解析與理解

    MVC模式,使得開發(fā)Web應(yīng)用程序變得更加高效和簡單。 1. Spring框架 基本功能: Spring是一個開源的Java平臺,它提供了全面的基礎(chǔ)設(shè)施支持,以便開發(fā)Java應(yīng)用程序。Spring
    的頭像 發(fā)表于 12-17 09:20 ?492次閱讀

    SSM框架在Java開發(fā)中的應(yīng)用 如何使用SSM進(jìn)行web開發(fā)

    。以下是對SSM框架在Java開發(fā)中的應(yīng)用,以及如何使用SSM進(jìn)行web開發(fā)的介紹: SSM框架的組件及其作用 Spring :Spring是一個開源的Java/Java EE全功能棧
    的頭像 發(fā)表于 12-16 17:28 ?814次閱讀

    用于SLAM中點(diǎn)云地圖綜合評估的開源框架

    在SLAM中評估大規(guī)模的點(diǎn)云地圖仍頗具挑戰(zhàn),主要原因在于缺乏統(tǒng)一、穩(wěn)健且高效的評估框架。本文提出了MapEval,這是一個用于點(diǎn)云地圖綜合評估的開源框架。在模擬數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上開展的大量實(shí)驗(yàn)
    的頭像 發(fā)表于 12-13 11:18 ?469次閱讀
    用于SLAM中點(diǎn)云地圖綜合評估的<b class='flag-5'>開源</b><b class='flag-5'>框架</b>

    PerfXCloud重磅升級 阿里開源最強(qiáng)視覺語言模型Qwen2-VL-7B強(qiáng)勢上線!

    「重磅通知」 :PerfXCloud 再度華麗升級,現(xiàn)已全面支持迄今為止 最為卓越的開源視覺模型 Qwen2-VL-7B 。這一重大突破將為用戶帶來更加震撼的視覺體驗(yàn),進(jìn)一步拓展創(chuàng)意的邊界,快來
    的頭像 發(fā)表于 10-23 11:07 ?457次閱讀
    PerfXCloud重磅升級  阿里<b class='flag-5'>開源</b>最強(qiáng)視覺語言模型Qwen2-VL-7B<b class='flag-5'>強(qiáng)勢</b>上線!

    Matepad pro12.2 上市半個月,但是還沒有在開源網(wǎng)站看到該項(xiàng)目的開源信息,違背開源精神

    Matepad pro12.2 上市半個月,本人自己也購買了同款12+256的pad,想要同步學(xué)習(xí)下這款pad的一些體驗(yàn)還不錯的功能點(diǎn),但是目前為止還沒有在開源網(wǎng)站看到該項(xiàng)目的開源信息,也查詢不到
    發(fā)表于 08-27 17:25

    谷歌推出Gemini Live,開啟AI語音聊天新紀(jì)元

    在萬眾矚目的Pixel 9系列手機(jī)發(fā)布會上,谷歌震撼宣布了一項(xiàng)創(chuàng)新服務(wù)——Gemini Live,該服務(wù)自今日起,率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標(biāo)志著谷歌在人工智能語音交互領(lǐng)域邁出了重要一步,旨在為用戶帶來前所未有的移動對話體驗(yàn)。
    的頭像 發(fā)表于 08-15 17:29 ?836次閱讀

    英偉達(dá)將全面轉(zhuǎn)向開源GPU內(nèi)核模塊

    英偉達(dá)公司近期宣布了一項(xiàng)重大決策,即全面轉(zhuǎn)向開源GPU內(nèi)核模塊,并計(jì)劃最終以此取代閉源驅(qū)動程序。這一戰(zhàn)略轉(zhuǎn)變標(biāo)志著英偉達(dá)在開源領(lǐng)域邁出了重要一步,旨在為用戶提供更強(qiáng)大、更全面的Linu
    的頭像 發(fā)表于 07-19 15:26 ?667次閱讀

    萬界星空科技商業(yè)開源MES系統(tǒng)全面解析

    開源MES系統(tǒng)具有定制化、節(jié)省成本、開放性和適應(yīng)性等優(yōu)勢和特點(diǎn),可以幫助企業(yè)更好地管理生產(chǎn)流程。萬界星空MES制造執(zhí)行系統(tǒng)的Java開源版本,為制造業(yè)企業(yè)提供了全面的生產(chǎn)管理解決方案。
    的頭像 發(fā)表于 07-15 14:02 ?469次閱讀
    萬界星空科技商業(yè)<b class='flag-5'>開源</b>MES系統(tǒng)<b class='flag-5'>全面</b>解析

    全球首個芯片設(shè)計(jì)開源大模型SemiKong正式發(fā)布

    在科技日新月異的今天,全球首個芯片設(shè)計(jì)開源大模型SemiKong的正式發(fā)布,無疑為半導(dǎo)體行業(yè)投下了一枚震撼彈,預(yù)示著一場深刻的行業(yè)變革即將拉開序幕。這款由Aitomatic與FPT S
    的頭像 發(fā)表于 07-14 10:01 ?1118次閱讀

    螞蟻集團(tuán)發(fā)布首個開源金融場景多智能體框架

    在第七屆數(shù)字中國建設(shè)峰會上,螞蟻集團(tuán)宣布了一項(xiàng)引人注目的舉措:正式開源其多智能體框架agentUniverse。這一框架不僅是金融領(lǐng)域的首個開源多智能體技術(shù)
    的頭像 發(fā)表于 05-28 09:25 ?811次閱讀

    Android系統(tǒng)引入新功能,提升Live Caption功能表現(xiàn)

    Live Caption 早在 2019 年就投放市場,它獨(dú)具特色,能在本地手機(jī)上實(shí)時將音頻內(nèi)容轉(zhuǎn)換成字幕,適用于多種場景,如播客、視頻網(wǎng)站、語音消息及本地拍攝視頻等。
    的頭像 發(fā)表于 05-18 14:13 ?1266次閱讀