微軟開(kāi)發(fā)了一種新的圖像字幕算法,在某些有限的測(cè)試中,其準(zhǔn)確率超過(guò)了人類(lèi)。該人工智能系統(tǒng)已被用于更新該公司為視障人士提供的助理應(yīng)用程序 “Seeing AI”,并將很快被納入Word、Outlook和PowerPoint等其他微軟產(chǎn)品中。在那里,它將被用于為圖像創(chuàng)建alt文本等任務(wù),這一功能對(duì)于提高無(wú)障礙性尤為重要。
這些應(yīng)用包括微軟自己的Seeing AI,該公司于2017年首次發(fā)布。Seeing AI利用計(jì)算機(jī)視覺(jué)為視障人士描述通過(guò)智能手機(jī)攝像頭看到的世界。它可以識(shí)別家庭物品,閱讀和掃描文本,描述場(chǎng)景,甚至識(shí)別朋友。它還可以用來(lái)描述其他應(yīng)用中的圖像,包括電子郵件客戶端、社交媒體應(yīng)用和WhatsApp等消息應(yīng)用。
微軟沒(méi)有披露Seeing AI的用戶數(shù)量,但Azure AI的企業(yè)副總裁Eric Boyd告訴The Verge,該軟件是 “為盲人或低視力人士提供的領(lǐng)先應(yīng)用之一”。Seeing AI已經(jīng)連續(xù)三年被盲人和低視力iOS用戶社區(qū)AppleVis評(píng)選為最佳應(yīng)用或最佳輔助應(yīng)用。
微軟新的圖像字幕算法將顯著提高Seeing AI的性能,因?yàn)樗粌H能識(shí)別物體,還能更精確地描述它們之間的關(guān)系。因此,該算法可以在看一張圖片時(shí),不僅能說(shuō)出圖片中包含哪些物品和物體(如 “一個(gè)人、一把椅子、一個(gè)手風(fēng)琴”),還能說(shuō)出它們之間的互動(dòng)關(guān)系(如 “一個(gè)人坐在椅子上,正在拉手風(fēng)琴”)。微軟表示,該算法是其之前自2015年開(kāi)始使用的圖像字幕系統(tǒng)的兩倍。
該算法在9月份發(fā)表的一篇預(yù)印論文中進(jìn)行了描述,在一個(gè)被稱為 “nocaps ”的圖像字幕基準(zhǔn)測(cè)試上取得了有史以來(lái)最高的分?jǐn)?shù)。這是一個(gè)業(yè)界領(lǐng)先的圖像字幕評(píng)分板,不過(guò)它有自己的限制條件。nocaps基準(zhǔn)測(cè)試由超過(guò)166,000個(gè)人類(lèi)生成的字幕組成,描述了從Open Images Dataset中提取的約15,100張圖片。這些圖片涵蓋了一系列場(chǎng)景,從運(yùn)動(dòng)到假日抓拍,再到美食攝影等等。
責(zé)任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6602瀏覽量
104151 -
AI
+關(guān)注
關(guān)注
87文章
31028瀏覽量
269367
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論