0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

視覺對話能力讓AI邁上新臺階

OaXG_jingzhengl ? 來源:YXQ ? 2019-07-02 16:39 ? 次閱讀

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機對話系統(tǒng)所描繪的那樣,擁有智能視覺對話能力的AI隨著技術的不斷突破,正在向我們走來。

每個人都有這樣的回憶,小時候語文老師教我們看圖說話,許多小朋友腦洞大開,說出來的答案讓人啼笑皆非。實際上,看圖說話的能力在年幼時期需要訓練,而對于大一點孩子來說就不成問題了。如今,機器人也能做到看圖說話了。

近日,來自中國AI在這項能力上已經(jīng)打破了世界紀錄。在第二屆全球AI視覺對話競賽(Visual Dialogue Challenge)中,阿里AI擊敗了微軟、首爾大學等十支參賽隊伍,一舉獲得冠軍。

阿里AI在視覺對話競賽中得冠

會“看圖說話”的AI有多聰明?

這場視覺對話競賽由美國佐治亞理工大學、Facebook人工智能實驗室(FAIR)等機構聯(lián)合全球視覺技術領域頂級學術會議CVPR發(fā)起,是目前視覺對話領域最權威的競賽之一。

該競賽要求參賽的AI在看完近萬張圖片后,回答出人類對于任一圖片任一內容的提問。這要求AI不僅能夠描述出圖片中內容的概況,還要經(jīng)得起人類對圖片各種細節(jié)的追問。比如,在一張撐著雨傘的人物圖片中,說出傘是什么顏色的,有多少人在圖中,附近有什么物品和建筑物等等信息。

視覺對話中AI可以從容應對人類提問(左為AI、右為人類)

競賽結果顯示,阿里AI以74.57%的準確率獲得冠軍,將上一屆比賽的紀錄提高了16.82%,并且超過微軟AI的64.78%的準確率。而在相同的數(shù)據(jù)集中,人類的準確率僅為64.27%,AI甚至勝過了人類。

傳統(tǒng)的視覺AI主要針對目標的檢測和識別,但對復雜場景中目標之間的邏輯關系理解、推理能力較弱,無法回答表達圖片對象直接關系的復雜問題,也難以將圖片信息轉化為人類理解的語言輸出。

這意味著,要實現(xiàn)視覺對話能力,傳統(tǒng)的視覺AI在學會“看圖”之后,還要有一種語言模型來支撐它“說話”。阿里AI的突破就在于提出了“遞歸探索對話模型”。

視覺對話AI與用戶交流圖像內容

這一模型通過標注信息學習出模仿人類認知復雜場景的思維方式,能識別圖片里的實體以及它們之間的關系,推理出圖片所描述的事件內容,并通過對上下文進行有效建模,綜合集成了圖像識別、關系推理與自然語言理解三大能力,能理解人類提出的問題及真實意圖,給出自然準確的回復。

視覺對話能力讓AI邁上新臺階

AI能“看圖說話”,這樣的應用其實距離我們并不遙遠,微軟之前推出了一款年齡測試工具How-old.net ,曾經(jīng)刷爆微博和朋友圈,所應用的就是這一技術的應用。

目前微軟還開放了能“看圖說話”的AI系統(tǒng),用戶進入官網(wǎng)上傳圖片,稍等一會,就能看到系統(tǒng)對于圖片的描述。其準確率雖然不低但依舊有待提升,以一張曾經(jīng)廣為流傳的黑人問號表情圖片為例,AI很快給出了客觀的回答:“我覺得這是籃球隊員尼克·楊露出牙齒微笑?!?/p>

AI視覺對話識別圖片信息

以“看圖說話”為代表的視覺對話是近年來快速崛起的AI研究方向,目的在于教會機器用自然語言與人類討論視覺內容,這能夠使機器擁有了對真實視覺世界的理解與推斷能力,也意味著AI的認知能力將邁上新的臺階。

可以預見,這項技術未來將被應用在人機交互諸多場景:

在火災、地震后在廢墟中尋找幸存者的救援機器人,能夠代替人類之眼,深入危險的現(xiàn)場,及時、高效地綜合指揮指令和場景信息作出行動。

視覺對話技術有望人類提高地震救援效率

視障人士可以通過提問AI,理解圖像中的內容,了解自身所處的周圍環(huán)境,為其生活起居帶來更多的便利。

無人駕駛車輛也可以在行駛中通過視覺對話,更加準確理解人類意圖征詢人類的意見,讓乘客的乘坐體驗更好。

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機對話系統(tǒng)所描繪的那樣,擁有智能視覺對話能力的AI隨著技術的不斷突破,正在向我們走來。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    162

    文章

    4379

    瀏覽量

    120396
  • AI
    AI
    +關注

    關注

    87

    文章

    30998

    瀏覽量

    269312

原文標題:機器人看圖說話能力比肩人類!中國AI超越微軟,打破世界紀錄

文章出處:【微信號:jingzhenglizixun,微信公眾號:機器人博覽】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    HarmonyOS NEXT 應用開發(fā)練習:AI智能對話

    顯示發(fā)送的時間戳,以便用戶了解消息的發(fā)送時間。 這個DEMO展示了如何使用ArkTS和擴展后的ChatUI框架(或類似功能的庫)在HarmonyOS NEXT創(chuàng)建一個功能豐富的AI智能對話框。我們可以根據(jù)需要進一步定制和擴展這
    發(fā)表于 01-03 11:29

    季豐電子全新推出MonitorMaster三代

    在芯片測試領域,精準的電壓、電流監(jiān)控是確保產(chǎn)品性能和穩(wěn)定性的關鍵。季豐電子全新推出的MonitorMaster三代,為高溫操作壽命測試(HTOL)和高加速溫濕度偏壓測試(HAST)提供了更強大的技術支持,助力芯片測試新臺階
    的頭像 發(fā)表于 01-02 11:49 ?170次閱讀
    季豐電子全新推出MonitorMaster三代

    機器視覺?|?從缺芯困境突圍?德威視降本、提速、創(chuàng)新的三贏局面

    客戶概況:深圳市德威視科技有限公司(MindVisionTechnologyCo.,Ltd.)成立于2011年,專注于機器視覺和工業(yè)自動化領域,提供高性能的工業(yè)相機及解決方案。公司擁有近500名
    的頭像 發(fā)表于 12-27 11:35 ?132次閱讀
    機器<b class='flag-5'>視覺</b>?|?從缺芯困境突圍?<b class='flag-5'>邁</b>德威視降本、提速、創(chuàng)新的三贏局面

    AI對話魔法 Prompt Engineering 探索指南

    Engineering 就是設計和優(yōu)化與AI對話的“提示詞”或“指令”,AI能準確理解并提供有用的回應。 Prompt Engineering 主要包括以下幾個方面: 1.明確目標
    的頭像 發(fā)表于 11-07 10:11 ?819次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>對話</b>魔法 Prompt Engineering 探索指南

    中科曙光推動液冷技術產(chǎn)業(yè)加速落地

    當前,我國算力基礎設施建設如火如荼,算力規(guī)模不斷新臺階。算力設施的高功耗,對冷卻設備和技術提出了更高要求。傳統(tǒng)液冷數(shù)據(jù)中心面臨著三個痛點難題:缺乏尖端實驗和研發(fā)環(huán)境、產(chǎn)品化能力不足
    的頭像 發(fā)表于 09-20 15:48 ?474次閱讀

    對話藍牙技術聯(lián)盟首席執(zhí)行官Neville Meijers

    藍牙技術聯(lián)盟(Bluetooth SIG)于近日宣布Neville Meijers擔任新任首席執(zhí)行官。Neville Meijers將為藍牙技術聯(lián)盟帶來長期積累的變革領導力和堅持不懈的創(chuàng)新精神,他曾以此幫助電信和無線企業(yè)新臺階
    的頭像 發(fā)表于 09-04 09:27 ?415次閱讀

    消息稱蘋果正在洽談投資OpenAI

    科技巨頭蘋果公司近期傳出新動向,據(jù)可靠消息透露,該公司正積極與人工智能領域的先鋒OpenAI進行投資洽談。此次合作的具體金額及細節(jié)尚未對外公布,但業(yè)界普遍預計,這一舉動將進一步鞏固OpenAI在AI領域的領先地位,并推動其估值
    的頭像 發(fā)表于 09-02 16:47 ?589次閱讀

    AWS與Workday深化合作,推進生成式AI功能開發(fā)

    在云計算與人工智能融合發(fā)展的新篇章中,亞馬遜旗下的Amazon Web Services(AWS)與領先的企業(yè)管理軟件提供商Workday宣布深化合作,共同探索并開發(fā)前沿的生成式人工智能(AI)功能。此次強強聯(lián)合,標志著雙方在推動企業(yè)客戶數(shù)字化轉型、提升運營效率及優(yōu)化人才管理等方面的合作
    的頭像 發(fā)表于 07-19 16:11 ?595次閱讀

    納宏光電榮獲ISO9001:2015質量管理體系認證及IATF16949:2016車規(guī)質量體系認證,品質管理再上新臺階

    認證。這兩大認證的通過,不僅標志著納宏光電在產(chǎn)品質量管理和汽車行業(yè)標準方面上了新臺階,為納宏的光電持續(xù)發(fā)展和市場拓展奠定了堅實基礎,也進一步彰顯了納宏光電致力于為
    的頭像 發(fā)表于 07-08 09:26 ?445次閱讀
    納宏光電榮獲ISO9001:2015質量管理體系認證及IATF16949:2016車規(guī)質量體系認證,品質管理再上<b class='flag-5'>新臺階</b>

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    大模型語音問答、拍照識圖、大模型繪圖等豐富供能示例,支持語音喚醒、多輪語音交互。 2智能對話除了大模型語音對話,還集成了可離線運行的坐姿檢測算法,是一個 大模型在線服務+離線AI能力
    發(fā)表于 06-18 17:33

    【AIBOX快速入門】2步玩轉AI對話

    隨著目前AI的高速發(fā)展,大批量AI硬件應運而生,但使用門檻普遍較高。為了解決這類問題,F(xiàn)irefly開源團隊推出了基于Web的AI對話應用:FireflyChat,
    的頭像 發(fā)表于 05-30 08:02 ?571次閱讀
    【AIBOX快速入門】2步玩轉<b class='flag-5'>AI</b><b class='flag-5'>對話</b>

    臺階儀測量膜厚怎么測

    可以通過覆蓋同樣材料的基片或使用其他方法形成。2.儀器設置:在臺階設置掃描參數(shù),包括掃描速率(Speed)、掃描長度(length)、掃描類型(profile)
    的頭像 發(fā)表于 05-22 09:53 ?1709次閱讀
    <b class='flag-5'>臺階</b>儀測量膜厚怎么測

    華為助力電信安全公司和江蘇電信實現(xiàn)DDoS攻擊“閃防”能力

    攻擊“閃防”解決方案商用試點,標志著中國電信業(yè)務安全能力新臺階,DDoS攻擊“閃防”解決方案向產(chǎn)品化邁出堅實的一步。
    的頭像 發(fā)表于 05-19 11:12 ?820次閱讀
    華為助力電信安全公司和江蘇電信實現(xiàn)DDoS攻擊“閃防”<b class='flag-5'>能力</b>

    和芯星通獲ISO14001環(huán)境管理和ISO45001職業(yè)健康安全管理體系認證

    近日,和芯星通正式通過ISO14001環(huán)境管理體系認證和ISO45001職業(yè)健康安全管理體系認證,標志著公司管理體系在制度化、規(guī)范化、精細化方面新臺階,綜合管理軟實力進入新軌道。
    的頭像 發(fā)表于 04-09 18:25 ?768次閱讀
    和芯星通獲ISO14001環(huán)境管理和ISO45001職業(yè)健康安全管理體系認證

    越影視覺AI看見這世界的繁花

    視覺領域,將是AI最先爆發(fā)的地方
    的頭像 發(fā)表于 03-15 10:04 ?1141次閱讀