0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

IBM發(fā)布最新AI模型,幫視障者“看”到更多

DR2b_Aiobservat ? 來源:YXQ ? 2019-06-25 08:47 ? 次閱讀

在IBM最新的論文中,研究人員提出了一種能自主制作多樣化、創(chuàng)造性和符合人類語境的圖片文字說明的模型。實驗證明,圖片的文字說明取得了“良好”的性能,未來可以為強大的新計算機視覺系統(tǒng)奠定了基礎(chǔ)。

無論是報社、雜志社還是新媒體,編輯們最不愿意干得事情就是為圖片搭配文字說明。事實上這項工作必要且重要但實際操作上又非??菰?。

不過,一個振奮人心的消息是,AI可能很快就能處理大部分工作。6月18日在加州長灘舉行的2019年計算機視覺和模式識別會議(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu發(fā)表了一篇論文《改進圖像說明的對抗性語義對齊》,提出了一種能夠自主制作多樣化、創(chuàng)造性和符合人類語境的圖片文字說明的模型。

在論文中,他們將圖像說明作為一種有條件的GAN(生成式對抗網(wǎng)絡(luò))訓練進行研究,提出了一種上下文感知的LSTM字幕器和共同注意鑒別器,它們加強了圖像和字幕之間的語義對齊。

研究人員根據(jù)經(jīng)驗著重研究了SCST和ST兩種訓練方法的可行性。他們發(fā)現(xiàn)即使沒有直接訪問鑒別器梯度,SCST也比ST顯示出更穩(wěn)定的梯度行為和更好的結(jié)果。進而還解決了對這些模型進行自動評估的開放性問題,引入了一個新的語義評分,并證明了它與人類判斷的強相關(guān)性。

作為評估范例,一個重要的標準是生成器能夠概括出平常不會一起出現(xiàn)的對象之間的組合關(guān)系。為此研究人員引入了一個小標題能脫離上下文(OOC)測試集。OOC與常規(guī)語義評分相結(jié)合,為圖片搭配說明文字得體系提出了新基準。當面向OOC和MS-COCO進行測試時,可以發(fā)現(xiàn)基于SCST的訓練在語義評分和人類評估方面都有很強的表現(xiàn),有望成為高效離散GAN訓練的一種有價值的新方法。

目前,構(gòu)建系統(tǒng)需要解決自動說明文字系統(tǒng)的一個主要缺點:順序語言生成導致語法正確—但同質(zhì)、非自然和語義不相關(guān)的結(jié)構(gòu)。

研究者的方法是通過一個注意力文字說明模型來解決這個問題,模型使用它正在觀察的照片中的場景片段來造句。在每一個生成步驟中,團隊的AI都可以選擇關(guān)注最后一步的視覺或文本提示。

為了確保生成的文字說明聽起來不太機械化,研究團隊在訓練時使用了生成對抗網(wǎng)絡(luò)(GANs)——由生成樣本的生成器和試圖區(qū)分生成樣本和現(xiàn)實世界樣本的鑒別器組成的兩部分神經(jīng)網(wǎng)絡(luò)。共同注意鑒別器通過一個在像素級匹配場景和生成單詞的模型對新句子的“自然度”進行評分,使文字說明者能夠通過圖像和句子成對來進行合成。

文字說明系統(tǒng)中的另一個常見問題是,如何避免訓練數(shù)據(jù)集的偏差,即經(jīng)常遭受過度擬合(特定數(shù)據(jù)集過于接近的分析)就需要構(gòu)建診斷工具,否則并不適合推廣到學習對象(“床和臥室”)出現(xiàn)在看不見的環(huán)境(“床和森林”)中的場景。為此,研究人員提出了一種標題圖像的測試語料庫,其設(shè)計方式使得不良模型性能表明過度擬合。

在實驗中,Amazon's Mechanical Turk評估人員負責識別AI模型生成的文字說明,并判斷每句話對相應(yīng)圖像的描述程度,給出幾個真實的和合成的樣本,研究人員表示,他們的文字說明總體上取得了“良好”的性能。他們相信他們的工作為強大的新計算機視覺系統(tǒng)奠定了基礎(chǔ),并打算在未來的工作中繼續(xù)探索這些系統(tǒng)。另外,銜接語言和視覺語義的鴻溝表明需要將常識和推理融入場景理解中。

未來,圖像文字說明的自動生成和場景理解的進步,使AI系統(tǒng)可以作為視覺障礙者的助理改善他們的日常生活。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • IBM
    IBM
    +關(guān)注

    關(guān)注

    3

    文章

    1763

    瀏覽量

    74801
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31490

    瀏覽量

    269893

原文標題:IBM發(fā)布最新AI模型,幫視障者“看”到更多

文章出處:【微信號:Aiobservation,微信公眾號:人工智能觀察】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    IBM攜手歐萊雅開發(fā)首個可持續(xù)化妝品AI模型

    的關(guān)鍵洞察,幫助歐萊雅使用可持續(xù)的原材料,從而減少能源和材料浪費。雙方將開發(fā)定制的AI 基礎(chǔ)模型,以顯著提高歐萊雅研發(fā)與創(chuàng)新團隊的能力,助力公司在各類化妝品和全球范圍內(nèi)進一步提升業(yè)績和消費滿意度。這一基于化妝品配方的基礎(chǔ)
    的頭像 發(fā)表于 01-21 09:22 ?204次閱讀

    IBM推出高性能AI模型Granite 3.0

    在近日舉行的IBM年度TechXchange大會上,IBM正式推出了其最先進的AI模型家族——Granite 3.0。這款旗艦級語言模型代表
    的頭像 發(fā)表于 10-28 17:39 ?494次閱讀

    IBM發(fā)布Granite 3.0 AI模型家族

    IBM在近日舉行的年度TechXchange大會上,正式推出了其迄今為止最先進的AI模型家族——Granite 3.0。這一系列的發(fā)布標志著IBM
    的頭像 發(fā)表于 10-23 17:09 ?468次閱讀

    IBM發(fā)布面向企業(yè)的人工智能模型新版本

    近日,IBM正式發(fā)布了其面向企業(yè)的人工智能模型——Granite 3.0的最新版本,旨在抓住當前企業(yè)紛紛擁抱生成式AI技術(shù)的熱潮。與IBM
    的頭像 發(fā)表于 10-22 17:32 ?488次閱讀

    IBM Granite系列模型被Forrester評為“強勁表現(xiàn)

    近日,IBM 憑借其旗艦 Granite 系列模型,在 2024年第二季度的《Forrester Wave:語言 AI 基礎(chǔ)模型》報告中,被評為“強勁表現(xiàn)
    的頭像 發(fā)表于 08-16 11:34 ?517次閱讀

    智行者——視聽障礙出行輔助AI小車設(shè)計

    摘要據(jù)統(tǒng)計,我國人數(shù)達1731萬人,聽力殘疾患者2780萬人。視聽障礙對出行和交流需求迫切,但現(xiàn)有設(shè)施和輔具局限性大,使他們面臨出行難題。因此,我們開發(fā)了一款安全、精準、語音與手部交互的導航避
    的頭像 發(fā)表于 07-19 08:11 ?743次閱讀
    智行者——視聽障礙<b class='flag-5'>者</b>出行輔助<b class='flag-5'>AI</b>小車設(shè)計

    騰云馭智出海時 IBM如何用1%的數(shù)據(jù)讓你與眾不同

    ——IBM混合云與AI為中國企業(yè)出海提供有力支持之系列報道(三) 北京2024年6月24日?/美通社/ -- IBM日前在北京舉行媒體會,從IBM的戰(zhàn)略、定位、實踐,
    的頭像 發(fā)表于 06-24 17:34 ?474次閱讀
    騰云馭智出海時 <b class='flag-5'>看</b><b class='flag-5'>IBM</b>如何用1%的數(shù)據(jù)讓你與眾不同

    2024 TUYA全球開發(fā)大會盛大啟幕,Cube AI模型重磅首發(fā)!

    2024TUYA全球開發(fā)大會上,重磅推出AI模型、AI開發(fā)工具、AI小程序開發(fā)基座等重量級產(chǎn)品,讓A
    的頭像 發(fā)表于 05-31 08:15 ?395次閱讀
    2024 TUYA全球開發(fā)<b class='flag-5'>者</b>大會盛大啟幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首發(fā)!

    2024 TUYA全球開發(fā)大會盛大啟幕,Cube AI模型重磅首發(fā)!

    2024 TUYA全球開發(fā)大會上,重磅推出AI模型、AI開發(fā)工具、AI小程序開發(fā)基座等重量級產(chǎn)品,讓
    發(fā)表于 05-30 09:13 ?242次閱讀
    2024 TUYA全球開發(fā)<b class='flag-5'>者</b>大會盛大啟幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首發(fā)!

    IBM開源AI模型,推動AI企業(yè)化應(yīng)用

    IBM近日宣布,將把一系列先進的人工智能模型以開源軟件的形式發(fā)布,此舉標志著人工智能技術(shù)在企業(yè)應(yīng)用上的新篇章。公司表示,隨著watsonx平臺推出滿一年,該平臺將迎來重大更新,新增的數(shù)據(jù)和自動化功能將使企業(yè)能夠更輕松地集成和部署
    的頭像 發(fā)表于 05-22 09:25 ?511次閱讀

    紅帽發(fā)布RHEL AI開發(fā)預覽版,集成IBM Granite模型,簡化AI開發(fā)流程

    RHEL AI依托InstructLab開源項目,結(jié)合IBM Research的開源授權(quán)Granite大型語言模型與InstructLab模型對齊工具,采用LAB(Large-scal
    的頭像 發(fā)表于 05-08 15:01 ?520次閱讀

    開發(fā)手機 AI - 目標識別 demo

    功能簡介 該應(yīng)用是在Openharmony 4.0系統(tǒng)上開發(fā)的一個目標識別的AI應(yīng)用,旨在從上到下打通Openharmony AI子系統(tǒng),展示Openharmony系統(tǒng)的AI能力,并為開發(fā)
    發(fā)表于 04-11 16:14

    使用CUBEAI部署tflite模型STM32F0中,模型創(chuàng)建失敗怎么解決?

    看到CUBE_AI已經(jīng)支持STM32F0系列芯片,就想拿來入門嵌入式AI。 生成的模型很小,是可以部署F0上的,但是一直無法創(chuàng)建成功。
    發(fā)表于 03-15 08:10

    IBM在watsonx上提供開源的Mistral AI模型

    IBM 提供 Mixtral-8x7B 的優(yōu)化版本,該版本可將延遲時間最多縮短 75% IBM、第三方和開源模型的目錄不斷增加,為客戶提供更多選擇和靈活性 是 watsonx 人工智能
    的頭像 發(fā)表于 03-12 19:10 ?1351次閱讀

    谷歌發(fā)布開源AI模型Gemma

    近日,谷歌發(fā)布了全新AI模型Gemma,這款模型為各種規(guī)模的組織提供了前所未有的機會,以負責任的方式在商業(yè)應(yīng)用中進行分發(fā)。
    的頭像 發(fā)表于 02-28 17:38 ?890次閱讀