微軟的一項(xiàng)新AI項(xiàng)目旨在自動(dòng)為文檔和電子郵件中的圖像添加字幕,以便視覺障礙軟件讀取圖像。
微軟的研究人員在有關(guān)預(yù)印本存儲庫arXiv的論文中解釋了他們的機(jī)器學(xué)習(xí)模型的原理。
該模型使用可視語音詞匯預(yù)訓(xùn)練(VIVO),它利用大量成對的圖像標(biāo)簽數(shù)據(jù)來學(xué)習(xí)視覺詞匯。然后,使用帶有適當(dāng)字幕的圖像的第二個(gè)數(shù)據(jù)以幫助教AI如何最好地描述圖片。
“理想情況下,每個(gè)人都應(yīng)在文檔,網(wǎng)絡(luò),社交媒體中為所有圖像添加替代文本,因?yàn)檫@可以使盲人訪問內(nèi)容并參與對話。但是,可惜,人們卻沒有。”微軟AI平臺小組的軟件工程經(jīng)理Saqib Shaikh說。
總體而言,研究人員希望AI能夠提供Microsoft現(xiàn)有字幕系統(tǒng)兩倍的性能。
為了對新AI的性能進(jìn)行基準(zhǔn)測試,研究人員將其納入了“無上限”挑戰(zhàn)。在撰寫本文時(shí),Microsoft的AI現(xiàn)在在其排行榜上排名第一。
“無上限的挑戰(zhàn)實(shí)際上是如何描述您在訓(xùn)練數(shù)據(jù)中沒有看到的那些新穎的物體?”微軟研究實(shí)驗(yàn)室的首席研究經(jīng)理王麗娟評論道。
希望使用Microsoft自動(dòng)字幕AI來構(gòu)建應(yīng)用程序的開發(fā)人員已經(jīng)可以這樣做,因?yàn)锳zure Cognitive Services的Computer Vision軟件包中提供了該功能。
微軟令人印象深刻的SeeingAI應(yīng)用程序?qū)⑹褂眯碌腁I進(jìn)行更新,該應(yīng)用程序使用計(jì)算機(jī)視覺描述視力障礙者的周圍環(huán)境。
“圖像字幕是可以實(shí)現(xiàn)廣泛服務(wù)的核心計(jì)算機(jī)視覺功能之一,”Azure AI認(rèn)知服務(wù)的CTO黃表示。
黃繼續(xù)說:“我們AI的這一突破以Azure為平臺,以服務(wù)于更多客戶?!?“這不僅是研究上的突破;在Azure上將突破轉(zhuǎn)化為生產(chǎn)所需的時(shí)間也是突破?!?/p>
改進(jìn)的自動(dòng)字幕功能也有望在今年晚些時(shí)候在Outlook,Word和PowerPoint中使用。
責(zé)任編輯:YYX
-
微軟
+關(guān)注
關(guān)注
4文章
6619瀏覽量
104238 -
AI
+關(guān)注
關(guān)注
87文章
31294瀏覽量
269653
發(fā)布評論請先 登錄
相關(guān)推薦
評論