0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里AI打破視覺(jué)對(duì)話識(shí)別紀(jì)錄,AI的認(rèn)知能力邁上新臺(tái)階!

PCB行業(yè)工程師技術(shù)交流 ? 來(lái)源:YXQ ? 2019-07-02 16:01 ? 次閱讀

近日, 在第二屆視覺(jué)對(duì)話競(jìng)賽Visual Dialogue Challenge中,阿里AI擊敗了微軟、首爾大學(xué)等十支參賽隊(duì)伍,獲得冠軍。

(阿里AI在視覺(jué)對(duì)話競(jìng)賽中得冠)

據(jù)了解,視覺(jué)對(duì)話競(jìng)賽由美國(guó)佐治亞理工大學(xué)、Facebook人工智能實(shí)驗(yàn)室(FAIR)等機(jī)構(gòu)聯(lián)合全球視覺(jué)技術(shù)領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議CVPR發(fā)起,是目前視覺(jué)對(duì)話領(lǐng)域最權(quán)威的競(jìng)賽之一。

該競(jìng)賽要求參賽的AI在看完近萬(wàn)張圖片后,回答出人類對(duì)于任一圖片任一內(nèi)容的提問(wèn)。競(jìng)賽結(jié)果顯示,阿里AI以74.57%的準(zhǔn)確率獲得冠軍,將上一屆比賽的紀(jì)錄提高了16.82%。在相同的數(shù)據(jù)集中,人類的準(zhǔn)確率僅為64.27%。

傳統(tǒng)的視覺(jué)AI主要針對(duì)目標(biāo)的檢測(cè)和識(shí)別,例如識(shí)別出圖片是否是一只貓,但對(duì)復(fù)雜場(chǎng)景中目標(biāo)之間的邏輯關(guān)系理解、推理能力較弱,無(wú)法回答“這只貓旁邊的男生穿了什么顏色的衣服”等復(fù)雜問(wèn)題,也難以將圖片信息轉(zhuǎn)化為人類理解的語(yǔ)言輸出。

阿里AI的突破在于提出了“遞歸探索對(duì)話模型”,綜合集成了圖像識(shí)別、關(guān)系推理與自然語(yǔ)言理解三大能力,它通過(guò)高效利用標(biāo)注信息學(xué)習(xí)出模仿人類認(rèn)知復(fù)雜場(chǎng)景的思維方式,能夠有效識(shí)別圖片里的實(shí)體以及它們之間的關(guān)系,推理出圖片所描述的事件內(nèi)容,并通過(guò)對(duì)上下文進(jìn)行有效建模,理解人類提出的問(wèn)題及真實(shí)意圖,給出自然準(zhǔn)確的回復(fù)。

視覺(jué)對(duì)話是近年來(lái)快速崛起的AI研究方向,目的在于教會(huì)機(jī)器用自然語(yǔ)言與人類討論視覺(jué)內(nèi)容。如果說(shuō)視覺(jué)識(shí)別技術(shù),讓機(jī)器具備了視覺(jué)能力;那么視覺(jué)對(duì)話技術(shù),則使得機(jī)器擁有了對(duì)真實(shí)視覺(jué)世界的理解與推斷能力,意味著AI的認(rèn)知能力將邁上新的臺(tái)階。

據(jù)了解,這項(xiàng)技術(shù)未來(lái)將被應(yīng)用在人機(jī)交互諸多場(chǎng)景:地震后在廢墟中尋找幸存者的救援機(jī)器人,能夠更加及時(shí)、高效地綜合指揮指令和場(chǎng)景信息作出行動(dòng);視障人士可以通過(guò)提問(wèn)阿里AI,理解網(wǎng)絡(luò)照片中的內(nèi)容,了解自身所處的周圍環(huán)境;無(wú)人駕駛車輛對(duì)影響因子的意圖理解會(huì)更為準(zhǔn)確,乘客的乘坐體驗(yàn)更好。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31054

    瀏覽量

    269407
  • 阿里巴巴
    +關(guān)注

    關(guān)注

    7

    文章

    1617

    瀏覽量

    47297

原文標(biāo)題:不忘初心 奮勇當(dāng)先——光華科技連續(xù)9年成為中國(guó)電子電路專用化學(xué)品民族企業(yè)No.1

文章出處:【微信號(hào):ruziniubbs,微信公眾號(hào):PCB行業(yè)工程師技術(shù)交流】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    HarmonyOS NEXT 應(yīng)用開(kāi)發(fā)練習(xí):AI智能對(duì)話

    顯示發(fā)送的時(shí)間戳,以便用戶了解消息的發(fā)送時(shí)間。 這個(gè)DEMO展示了如何使用ArkTS和擴(kuò)展后的ChatUI框架(或類似功能的庫(kù))在HarmonyOS NEXT創(chuàng)建一個(gè)功能豐富的AI智能對(duì)話框。我們可以根據(jù)需要進(jìn)一步定制和擴(kuò)展這
    發(fā)表于 01-03 11:29

    唯創(chuàng)知音WT3000A AI智能對(duì)話方案介紹

    AI
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2025年01月02日 11:02:41

    如何在STM32f4系列開(kāi)發(fā)板上部署STM32Cube.AI,

    已下載STM32Cube.AI擴(kuò)展包,但是無(wú)法使用,感覺(jué)像是沒(méi)有部署AI模型,我是想要通過(guò)攝像頭拍照,上傳圖像后,經(jīng)過(guò)開(kāi)發(fā)板處理器進(jìn)行AI模型處理識(shí)別過(guò)后,告訴我
    發(fā)表于 11-18 09:39

    唯創(chuàng)知音WT3000A模塊 AI對(duì)話功能介紹

    AI
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年11月15日 16:01:15

    莫拉維克悖論與多模態(tài)AI:邁向機(jī)器人認(rèn)知的新時(shí)代

    莫拉維克悖論揭示了人工智能系統(tǒng)在處理高級(jí)推理與基本感知運(yùn)動(dòng)技能上的巨大差異。對(duì)于AI而言,復(fù)雜的邏輯任務(wù)似乎比人類習(xí)以為常的感知運(yùn)動(dòng)技能更容易實(shí)現(xiàn)。這一悖論凸顯了當(dāng)前AI與人類認(rèn)知能力之間的鴻溝。
    的頭像 發(fā)表于 10-26 15:00 ?642次閱讀

    AI大模型在圖像識(shí)別中的優(yōu)勢(shì)

    AI大模型在圖像識(shí)別中展現(xiàn)出了顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)主要源于其強(qiáng)大的計(jì)算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對(duì)AI大模型在圖像
    的頭像 發(fā)表于 10-23 15:01 ?743次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    人們對(duì)AI for Science的關(guān)注推向了高潮。 2. 跨學(xué)科融合與科學(xué)研究新范式 AI與生命科學(xué)的結(jié)合,不僅推動(dòng)了生命科學(xué)本身的進(jìn)步,還促進(jìn)了多個(gè)學(xué)科之間的交叉融合。這種跨學(xué)科的合作模式,打破
    發(fā)表于 10-14 09:21

    人工智能ai4s試讀申請(qǐng)

    目前人工智能在繪畫對(duì)話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題,本書對(duì)ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬
    發(fā)表于 09-09 15:36

    基于迅為RK3588開(kāi)發(fā)板的AI圖像識(shí)別方案

    源源不斷的動(dòng)力。 ■ 無(wú)與倫比的視覺(jué)盛宴最高支持8K編碼+8K解碼,能夠同時(shí)處理多路視頻流,確保每一幀畫面都流暢如絲,細(xì)膩入微。 ■ 智馭未來(lái)的AI力量RK3588內(nèi)置了6Tops(即每秒處理6萬(wàn)億次
    發(fā)表于 08-13 11:26

    聆思CSK6視覺(jué)語(yǔ)音大模型AI開(kāi)發(fā)板入門資源合集(硬件資料、大模型語(yǔ)音/多模態(tài)交互/英語(yǔ)評(píng)測(cè)SDK合集)

    自定義大模型應(yīng)用并接入到開(kāi)發(fā)套件實(shí)現(xiàn)語(yǔ)音交互,由淺入深地展示如何開(kāi)發(fā)自己的大模型助手。 離線AI能力示例SDK清單 序號(hào)AI 能力 1語(yǔ)音
    發(fā)表于 06-18 17:33

    梯云物聯(lián)|AI提高物聯(lián)網(wǎng)感知能力:讓電梯更智能、安全!

    在當(dāng)今日新月異的科技浪潮中,人工智能(AI)與物聯(lián)網(wǎng)(IoT)的深度融合正在為各行各業(yè)帶來(lái)革命性的變化。特別是在電梯行業(yè)中,AI技術(shù)的引入不僅極大地提升了物聯(lián)網(wǎng)的感知能力,更讓電梯變得更加智能和安全。
    的頭像 發(fā)表于 06-03 11:49 ?541次閱讀
    梯云物聯(lián)|<b class='flag-5'>AI</b>提高物聯(lián)網(wǎng)感<b class='flag-5'>知能力</b>:讓電梯更智能、安全!

    【AIBOX快速入門】2步玩轉(zhuǎn)AI對(duì)話

    隨著目前AI的高速發(fā)展,大批量AI硬件應(yīng)運(yùn)而生,但使用門檻普遍較高。為了解決這類問(wèn)題,F(xiàn)irefly開(kāi)源團(tuán)隊(duì)推出了基于Web的AI對(duì)話應(yīng)用:FireflyChat,讓
    的頭像 發(fā)表于 05-30 08:02 ?576次閱讀
    【AIBOX快速入門】2步玩轉(zhuǎn)<b class='flag-5'>AI</b><b class='flag-5'>對(duì)話</b>

    開(kāi)發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

    功能簡(jiǎn)介 該應(yīng)用是在Openharmony 4.0系統(tǒng)開(kāi)發(fā)的一個(gè)目標(biāo)識(shí)別AI應(yīng)用,旨在從上到下打通Openharmony AI子系統(tǒng),展示Openharmony系統(tǒng)的
    發(fā)表于 04-11 16:14

    搭載星火認(rèn)知大模型的AI鼠標(biāo):一鍵呼出AI助手,辦公更高效

    搭載星火認(rèn)知大模型的AI鼠標(biāo):一鍵呼出AI助手,辦公更高效 在這個(gè)AI時(shí)代,如果你想在激烈競(jìng)爭(zhēng)的職場(chǎng)中不被淘汰,訊飛AI鼠標(biāo)AM30就是你的
    的頭像 發(fā)表于 03-25 11:52 ?512次閱讀
    搭載星火<b class='flag-5'>認(rèn)知</b>大模型的<b class='flag-5'>AI</b>鼠標(biāo):一鍵呼出<b class='flag-5'>AI</b>助手,辦公更高效

    計(jì)算機(jī)視覺(jué)AI如何識(shí)別與理解圖像

    計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域的一個(gè)重要分支,它致力于讓機(jī)器能夠像人類一樣理解和解釋圖像。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們對(duì)于如何讓AI識(shí)別和理解圖像產(chǎn)生了濃厚的興趣。本文將探討計(jì)算機(jī)視覺(jué)
    的頭像 發(fā)表于 01-12 08:27 ?1474次閱讀
    計(jì)算機(jī)<b class='flag-5'>視覺(jué)</b>:<b class='flag-5'>AI</b>如何<b class='flag-5'>識(shí)別</b>與理解圖像