0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳細(xì)介紹三個領(lǐng)域中來自微軟亞洲研究院的那些硬核論文

DPVg_AI_era ? 來源:lq ? 2019-01-28 09:08 ? 次閱讀

AAAI即將舉行,本文帶來微軟亞洲研究院入選的27篇論文解讀,包括機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺和圖形學(xué)等多個領(lǐng)域。

人工智能領(lǐng)域的國際頂級會議 AAAI 2019 將于 1 月 27 日至 2 月 1 日在美國夏威夷舉行。

根據(jù)已經(jīng)公布的論文錄取結(jié)果,今年的大會錄取率創(chuàng)歷史新低,投稿數(shù)量高達(dá) 7745 篇,錄取的數(shù)量僅有 16% 左右。

在被錄取的論文中,來自微軟亞洲研究院的有 27 篇之多,包括了機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺和圖形學(xué)等多個領(lǐng)域。本文將詳細(xì)介紹這三個領(lǐng)域中來自微軟亞洲研究院的那些硬核論文。

機(jī)器學(xué)習(xí)

非自回歸機(jī)器翻譯模型的兩種優(yōu)化新方式

2018 年,非自回歸(Non-Autoregressive)機(jī)器翻譯模型引起了眾多研究人員的興趣。非自回歸模型打破了翻譯過程順序性,將原來自回歸機(jī)器翻譯的逐詞順序生成轉(zhuǎn)變?yōu)橐淮涡援a(chǎn)生所有目標(biāo)端單詞,極大地提升了機(jī)器翻譯速度。然而,隨著順序依賴關(guān)系的打破,非自回歸模型的翻譯準(zhǔn)確率卻遠(yuǎn)遠(yuǎn)不及自回歸機(jī)器翻譯模型;同時,漏翻譯和重復(fù)翻譯也將翻譯質(zhì)量大打折扣。微軟亞洲研究院分別通過以下兩篇論文提出了針對上述兩個問題的解決方法。

代表論文:Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

論文鏈接:https://arxiv.org/abs/1812.09664

在該論文中,研究員提出了兩種方法來提升解碼器的輸入質(zhì)量,減少翻譯精度的損失。如下圖所示:第一種方法(Phrase-Table Lookup)直接利用詞表將源語言查表翻譯成目標(biāo)語言并輸入到解碼器,第二種方法(Embedding Mapping)通過詞級別的對抗學(xué)習(xí)以及句子級別的對齊信息,將源語言的詞向量對齊到目標(biāo)語言的詞向量,作為解碼器的輸入。

通過在 WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En 一共 4 個翻譯語言上的實(shí)驗(yàn),相比基線模型(NART),這種方法達(dá)到了 3~5 個 BLEU 分的提升,相比先前最好的工作(IR-NAT)有 1~5 個 BLEU 分的提升。

該模型翻譯精度更加接近 AT 模型,在 WMT16 En-Ro 數(shù)據(jù)集上,相比 AT 模型(Transformer)僅有 1 個 BLEU 分的差距。在翻譯速度方面,相比 AT 模型(Transformer)最高有 25 倍的翻譯速度提升;相比 NAT 模型(LT、NART、IR-NAT)也有速度上的提升。

同時這兩種方法各有優(yōu)勢,Phrase-Table Lookup 在數(shù)據(jù)質(zhì)量比較好的 WMT14 De-En 以及 IWSLT De-En 數(shù)據(jù)集上優(yōu)勢明顯,因?yàn)槟芑谟?xùn)練集得到高質(zhì)量的詞典,而在 WMT14 En-De 以及 WMT16 En-Ro 上,得到的詞典質(zhì)量較差,因此 Embedding Mapping 更能顯現(xiàn)出優(yōu)勢。

代表論文:Non-Autoregressive Machine Translation with Auxiliary Regularization

論文鏈接:https://taoqin.github.io/papers/nat.reg.AAAI2019.pdf

對于非自回歸模型的重復(fù)翻譯和漏翻譯的問題,該論文提出了基于輔助約束(Auxiliary Regularization)的非自回歸翻譯模型,如下圖。

重復(fù)翻譯的產(chǎn)生代表解碼器端相鄰位置的隱層表示(Hidden Representation)有著極大的相似性,從而解碼產(chǎn)生同樣的翻譯單詞。為此,研究員提出了相似性約束(Similarity Regularization)來限制兩個相鄰位置的隱層表示向量之間的關(guān)系:

其中 s_cos 代表兩個向量之間的余弦距離。H_t 代表解碼器第 t 個位置的隱層狀態(tài)向量,y_t 代表第 t 個位置的目標(biāo)單詞的單詞嵌入(embedding)向量。L_sim 的意義在于,如果相鄰兩個位置(t 和 t+1)的目標(biāo)單詞語義接近(s_cos?很大 ),那么 h_t 和 h_(t+1) 也應(yīng)該很接近,反之亦然。

對于漏翻譯,可以重建約束(Reconstruction Regularization),在非自回歸模型的頂部添加一個反方向的自回歸翻譯模型,進(jìn)而要求解碼器的隱層向量在該反方向的模型中重建源端句子。通過這一約束,強(qiáng)制要求非自回歸模型的翻譯含有所有信息以克服漏翻譯的問題。

通過在多個數(shù)據(jù)集上與各個基線算法進(jìn)行了性能的對比,包括對于翻譯質(zhì)量和翻譯速度的衡量。NAT-REG 算法不僅具有良好的性能,在翻譯速度(上圖最后兩列)也有了顯著的提升。通過這兩項(xiàng)約束項(xiàng),非自回歸機(jī)器翻譯模型的重復(fù)翻譯和漏翻譯的現(xiàn)象得到了極大的緩解。

深度神經(jīng)網(wǎng)絡(luò)模型的泛化及對泛化誤差的刻畫

在機(jī)器學(xué)習(xí)領(lǐng)域,理解深度神經(jīng)網(wǎng)絡(luò)模型的泛化性質(zhì)以及刻畫其泛化誤差是一個熱點(diǎn),論文 “Capacity Control of ReLU Neural Networks by Basis-path Norm” 論述了這一理論研究。

代表論文:Capacity Control of ReLU Neural Networks by Basis-path Norm

論文鏈接:https://arxiv.org/abs/1809.07122

ReLU 神經(jīng)網(wǎng)絡(luò)具有正伸縮不變性,即一個隱節(jié)點(diǎn)的所有入邊乘以一個正常數(shù) c, 同時所有出邊除以一個正常數(shù) c, ReLU 神經(jīng)網(wǎng)絡(luò)的輸出值不變。因此,一個恰當(dāng)?shù)呐c神經(jīng)網(wǎng)絡(luò)泛化性質(zhì)有關(guān)的度量,應(yīng)該也具有正伸縮不變性。基于 ReLU 神經(jīng)網(wǎng)絡(luò)的路徑的度量也滿足該性質(zhì)。

對于神經(jīng)網(wǎng)絡(luò)的路徑(path),將 ReLU 神經(jīng)網(wǎng)絡(luò)看做一個有向無環(huán)圖,一條路徑 p 即為輸入節(jié)點(diǎn)至輸出節(jié)點(diǎn)的一條通路,路徑的值 v(p) 被定義為其所經(jīng)過的參數(shù)的乘積。那么 ReLU 神經(jīng)網(wǎng)絡(luò)的第 k 維輸出可以表示為:

,?

其中 P_(i→k) 表示連接第 i 個輸入節(jié)以及第 k 個輸出節(jié)點(diǎn)的所有路徑的集合;a(p;x) 取值為 1 或 0,分別代表該路徑的值在經(jīng)過多層激活函數(shù)作用后是否流入輸出。

路徑 p_(i,j) 的值等于 w_(1,i)?w_(2,j), 那么路徑之間相互關(guān)聯(lián),例如 v(p_(2,2) )=(v(p_(1,2) )?v(p_(2,1) ))/v(p_(1,1) ) 。

Path-norm 被定義為所有路徑值的 L2 - 范數(shù),其被證明與 ReLU 神經(jīng)網(wǎng)絡(luò)的泛化能力緊密相關(guān)。然而,神經(jīng)網(wǎng)絡(luò)所有路徑值是相關(guān)聯(lián)的(如上圖),這會使得當(dāng) Path-norm 作為約束加入優(yōu)化算法中時,無法求解出閉式的更新法則。有工作通過研究路徑值之間的關(guān)系,在所有路徑值中找到了一組互不相關(guān)的路徑,稱為基路徑,并且其余路徑均可通過基路徑的值進(jìn)行計(jì)算。

這一論文提出了一個基于基路徑的度量。首先,基路徑可以分為兩類,一類的值在表達(dá)非基路徑時出現(xiàn)在分子,第二類的值在表達(dá)非基路徑時出現(xiàn)在分母。于是,出現(xiàn)在分母的基路徑值不能過大或過小。因此,限制前者的值靠近 0,后者的值靠近 1,受此啟發(fā),研究員提出了一個僅基于基路徑的度量:BP-norm。

定義 1: (BP-norm) 對于任意的路徑值向量

BP-norm 定義如下:

,

其中

根據(jù) BP-norm, 可得如下泛化誤差的上界。

定理 1: 至少以概率 1-δ, 泛化誤差 (測試誤差 – 訓(xùn)練誤差) of hypothesis space F can be upper bounded as

其中 Φ(u;d,H,L)=(e^2u+d?u^2) (1+H?u^2?e^2u)^(L-2) (4H)^L, d 表示輸入維度, H 表示網(wǎng)絡(luò)的寬度, L 表示網(wǎng)絡(luò)的深度。

將 BP-norm 作為正則項(xiàng)加入損失函數(shù),并用 SGD 和 G-SGD 來優(yōu)化 BP 正則損失函數(shù)。下表展示了算法在圖像分類任務(wù)上的訓(xùn)練誤差、測試誤差和泛化誤差,其中Δ反映了泛化誤差的大小。結(jié)果表明 BP 正則算法可以有效地降低模型復(fù)雜度,從而取得更小的泛化誤差。

自然語言處理

AI 也可以自動發(fā)彈幕了

彈幕,已經(jīng)成為人們看視頻的一種習(xí)慣;不同用戶之間的彈幕往往會形成上下文回復(fù)關(guān)系,更讓彈幕成為一種新的社交模式。基于這一現(xiàn)象,微軟亞洲研究院設(shè)計(jì)了一款名為 LiveBot 的自動彈幕生成系統(tǒng)。在這一系統(tǒng)中需要克服兩個難點(diǎn):一是要充分理解視頻內(nèi)容,根據(jù)其他用戶的評論彈幕生成適當(dāng)?shù)膬?nèi)容;二是要在合適的時間點(diǎn)顯示在對應(yīng)的視頻幀之上。

代表論文:LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

論文鏈接:http://export.arxiv.org/pdf/1809.04938

該論文論述了兩種深度神經(jīng)網(wǎng)絡(luò)模型,基于視頻和文本的上下文信息來生成彈幕,并構(gòu)建了一個包含 2,361 個視頻和 895,929 條彈幕的大規(guī)模訓(xùn)練數(shù)據(jù)集來驗(yàn)證模型的有效性。

實(shí)驗(yàn)結(jié)果表明,LiveBot 能夠準(zhǔn)確地學(xué)習(xí)到真實(shí)用戶在觀看視頻時進(jìn)行彈幕評論的行為特點(diǎn),有效地進(jìn)行了視頻內(nèi)容的理解和用戶評論的交互,同時在客觀評價指標(biāo)上也取得優(yōu)異的成績。

無監(jiān)督機(jī)器翻譯的最新性能提升

最近一年,無監(jiān)督機(jī)器翻譯逐漸成為機(jī)器翻譯界的一個研究熱點(diǎn)。在無監(jiān)督場景下,神經(jīng)機(jī)器翻譯模型主要通過聯(lián)合訓(xùn)練(joint training)或交替回譯(iterative back-translation)進(jìn)行逐步迭代。但是由于缺乏有效的監(jiān)督信號,回譯得到的偽訓(xùn)練數(shù)據(jù)中會包含大量的噪音,這些噪音在迭代的過程中,會被神經(jīng)機(jī)器翻譯模型強(qiáng)大的模式匹配能力放大,從而損害模型最終的翻譯性能。

代表論文:Unsupervised Neural Machine Translation with SMT as Posterior Regularization

論文鏈接:http://export.arxiv.org/pdf/1901.04112

該論文采用了后驗(yàn)正則(Posterior Regularization)的方式將 SMT(統(tǒng)計(jì)機(jī)器翻譯)引入到無監(jiān)督 NMT 的訓(xùn)練過程中,并通過 EM 過程交替優(yōu)化 SMT 和 NMT 模型,使得無監(jiān)督 NMT 迭代過程中的噪音能夠被有效去除,同時 NMT 模型也彌補(bǔ)了 SMT 模型在句子流暢性方面的不足。

該方法的整體結(jié)構(gòu)大致分為兩部分,如上圖所示。左邊是模型初始化,通過單語數(shù)據(jù)訓(xùn)練出兩種語言(如英語和法語)的詞向量(word embedding),之后通過無監(jiān)督的訓(xùn)練方法得到 cross-lingual embedding,并通過計(jì)算其余弦相似度得到初始的詞到詞的翻譯概率表(word translation table)。這個翻譯概率表連同由單語訓(xùn)練得到的語言模型(language model)作為初始的 SMT 模型的特性,從而完成了模型初始化。

上圖右邊是方法的主體部分,初始的 SMT 模型翻譯一批單語數(shù)據(jù),構(gòu)成的偽數(shù)據(jù)作為初始 NMT 模型的訓(xùn)練數(shù)據(jù)。在訓(xùn)練得到初始的 NMT 模型后,將繼續(xù)進(jìn)行交替回譯(右下,iterative back-translation NMT),并用收斂的 NMT 模型翻譯出一批新的偽數(shù)據(jù)。此時產(chǎn)生的偽數(shù)據(jù)含有大量的噪音,可以通過這批偽數(shù)據(jù)訓(xùn)練新的 SMT 模型(右上,SMT as PR)。SMT 模型通過構(gòu)造質(zhì)量更高的基于片段的翻譯概率表(phrase translation table),將偽數(shù)據(jù)中的噪音過濾掉,并通過翻譯新的一批單語數(shù)據(jù),得到互譯性更好的一批偽數(shù)據(jù)。這一批偽數(shù)據(jù)便可以用于調(diào)整(fine-tune)之前的 NMT 模型,之后 NMT 模型再次進(jìn)行交替回譯。我們將訓(xùn)練 NMT 和 SMT 的過程集成在一個 EM 訓(xùn)練框架中,兩個過程進(jìn)行交互迭代直到最終收斂。

在英法 (en-fr) 和英德(en-de)語言對上進(jìn)行的實(shí)驗(yàn)中,這一方法明顯優(yōu)于以前的方法,顯著提高了無監(jiān)督機(jī)器翻譯的性能。

新型 TTS:結(jié)合了 Tacotron2 和 Transformer 的優(yōu)點(diǎn)

人機(jī)交互中有項(xiàng)重要的任務(wù),即文本合成語音(Text to speech,TTS),以達(dá)到合成清晰自然且接近真人錄音的音頻。

在過去的幾十年里,基于拼接的模型(concatenative model)和基于參數(shù)的模型(parametric model)是 TTS 領(lǐng)域的兩大主流;然而,兩者都有著非常復(fù)雜的流水線,而且挑選有效的聲學(xué)特征通常是非常耗時且與語言密切相關(guān)的。除此之外,這兩種方法合成的音頻不流暢,而且在韻律和發(fā)音上與真人錄音都有較大的差距。

隨著神經(jīng)網(wǎng)絡(luò)的興起,一些端到端(end to end)的 TTS 模型逐漸出現(xiàn),如 Tacotron 和 Tacotron2,使得合成的音頻質(zhì)量有了非常大的進(jìn)步,甚至在某些特定的數(shù)據(jù)集上與真人錄音不相上下。這種端到端的 TTS 模型主要有兩部分:編碼器和解碼器。編碼器負(fù)責(zé)將文本映射到語義空間(semantic space)中,生成一個隱狀態(tài)序列;接著由解碼器(通常是一個基于 RNN 的神經(jīng)網(wǎng)絡(luò))配合注意力機(jī)制(attention mechanism)將這個隱狀態(tài)序列解碼成頻譜。

然而,在 RNN 中,每一個隱狀態(tài)的生成都要基于之前所有的隱狀態(tài)以及當(dāng)前時刻的輸入;因此模型只能串行地進(jìn)行計(jì)算,限制了網(wǎng)絡(luò)的并行計(jì)算能力,從而降低了運(yùn)算效率。并且 RNN 難以對距離較遠(yuǎn)的兩個輸入建立直接的依賴關(guān)系。而最近流行的自關(guān)注網(wǎng)絡(luò)(Transformer)在訓(xùn)練中可以實(shí)現(xiàn)并行計(jì)算,而且有能力在輸入序列的任意兩個 token 之間建立起直接的依賴。

代表論文:Neural Speech Synthesis with Transformer Network

論文鏈接:https://arxiv.org/abs/1809.08895

該論文中結(jié)合了 Tacotron2 和 Transformer 的優(yōu)點(diǎn),提出了新的 TTS 模型:通過使用多頭注意力 (multi-head attention) 機(jī)制代替了原本 Tacotron2 中的 RNN 以及編碼器和解碼器之間的 attention。這樣,一方面通過自注意力(self attention) 機(jī)制,網(wǎng)絡(luò)可以并行計(jì)算,從而使訓(xùn)練效率達(dá)到了原來的 4 倍;同時,任意兩個輸入之間可以建立起直接的長距離依賴。另一方面,多頭的注意力機(jī)制可以從多個角度對輸入信息進(jìn)行整合。

如上圖,在 Tacotron2 的基礎(chǔ)上,使用 Transformer 的 encoder 和 decoder 分別代替原有的雙向 RNN 編碼器和雙層 RNN 解碼器;另一方面原始的注意力機(jī)制被多頭注意力機(jī)制取代從而能更好地對輸入信息進(jìn)行特征提?。怀酥馕覀冞€對其它的網(wǎng)絡(luò)結(jié)構(gòu),如 positional encoding 進(jìn)行了調(diào)整。在該模型中,由于有自注意力機(jī)制的存在,可以更好地建立長距離依賴,從而能對包括韻律在內(nèi)的音頻特征進(jìn)行更好的建模。

在 MOS 測試(滿分 5 分)中, Tacotron2 和 Transformer TTS model 均能夠得到很接近真實(shí)的人聲錄音(即 ground truth)的得分。在 CMOS 測試中(成對比較,得分 [-3,3] 分),我們的方法相比 Tacotron2 能夠得到顯著的性能提升。

另一方面,對比 Transformer TTS model 和 Tacotron2 合成的 mel 譜,可以發(fā)現(xiàn),在低頻部分二者相近,都表現(xiàn)出了很強(qiáng)的能力;在高頻部分,Transformer TTS model 能更好地還原頻譜的紋理,從而使合成的音頻有更高的質(zhì)量。

基于改寫的復(fù)述生成模型更高效

代表論文:Dictionary-Guided Editing Networks for Paraphrase Generation

論文鏈接:https://arxiv.org/pdf/1806.08077.pdf

在自然語言處理中,句子復(fù)述應(yīng)用很廣泛,例如被應(yīng)用在信息檢索、自動文摘、句子翻譯等任務(wù)。句子復(fù)述(Paraphrase)是指換一種方式表達(dá)原句,同時要與原句意思相同。人在完成句子復(fù)述的時候,往往會使用同義詞替換句子中的一些詞語,然后對替換后的句子進(jìn)行簡單的修改。

以此為出發(fā)點(diǎn),該論文提出了基于改寫網(wǎng)絡(luò)的復(fù)述生成模型。復(fù)述生成模型首先使用原句進(jìn)行檢索,得到一組詞語級別的復(fù)述對;然后將檢索得到的復(fù)述對進(jìn)行編碼,得到一組固定長度的向量;最后基于改寫網(wǎng)絡(luò)完成句子的復(fù)述。

上圖所示,復(fù)述生成模型建立在序列到序列模型(Seq2Seq)的框架下,進(jìn)行解碼的過程中,采用了注意力機(jī)制(attention mechanism),對檢索得到的復(fù)述對進(jìn)行權(quán)重組合,將加權(quán)之后的結(jié)果用于解碼器。如模型在解碼到 overcome 的時候,會更加側(cè)重于使用(overcome,get rid of)這樣的復(fù)述對。通過注意力機(jī)制讓模型自己學(xué)習(xí)如何進(jìn)行改寫,在哪些地方需要進(jìn)行替換和調(diào)整。

通過在 MSCOCO 和 Quora 兩個公開數(shù)據(jù)集上實(shí)驗(yàn),如上圖所示,基于改寫網(wǎng)絡(luò)的復(fù)述生成模型在 MSCOCO 數(shù)據(jù)集上取得了最好的實(shí)驗(yàn)結(jié)果,在 Quora 數(shù)據(jù)集上,在貪婪搜索的條件下取得了最好的結(jié)果。

另外,通過分析實(shí)驗(yàn)結(jié)果顯示,如上圖,在生成的復(fù)述中,機(jī)器會基于檢索得到的復(fù)述對進(jìn)行改寫和替換,采用這種方式既保證了復(fù)述結(jié)果與原句的區(qū)別,同時又不會改變原意。

計(jì)算機(jī)視覺

MonoGRNet:單張圖像估測物體三維位置

在圖像中,傳統(tǒng)的物體定位或檢測估計(jì)二維邊界框,可以框住屬于圖像平面上物體的可見部分。但是,這種檢測結(jié)果無法在真實(shí)的 3D 世界中提供場景理解的幾何感知,這對很多應(yīng)用的意義并不大。

代表論文:MonoGRNet:A Geometric Reasoning Network for Monocular 3D Object Localization

論文鏈接:https://arxiv.org/abs/1811.10247

該論文提出了使用 MonoGRNet,從單目 RGB 圖像中通過幾何推斷,在已觀察到的二維投影平面和在未觀察到的深度維度中定位物體非模態(tài)三維邊界框(Amodal Bounding Box, ABBox-3D),即實(shí)現(xiàn)了由二維視頻確定物體的三維位置。

MonoGRNet 的主要思想是將 3D 定位問題解耦為幾個漸進(jìn)式子任務(wù),這些子任務(wù)可以使用單目 RGB 數(shù)據(jù)來解決。網(wǎng)絡(luò)從感知 2D 圖像平面中的語義開始,然后在 3D 空間中執(zhí)行幾何推理。這里需要克服一個具有挑戰(zhàn)性的問題是,在不計(jì)算像素級深度圖的情況下準(zhǔn)確估計(jì)實(shí)例 3D 中心的深度。該論文提出了一種新的個體級深度估計(jì)(Instance Depth Estimation, IDE)模塊,該模塊探索深度特征映射的大型感知域以捕獲粗略的實(shí)例深度,然后聯(lián)合更高分辨率的早期特征以優(yōu)化 IDE。

為了同時檢索水平和垂直位置,首先要預(yù)測 3D 中心的 2D 投影。結(jié)合 IDE,然后將投影中心拉伸到真實(shí) 3D 空間以獲得最終的 3D 對象位置。所有組件都集成到端到端網(wǎng)絡(luò) MonoGRNet 中,其中有三個 3D 推理分支,如下圖。最后通過聯(lián)合的幾何損失函數(shù)進(jìn)行優(yōu)化,最大限度地減少 3D 邊界在整體背景下的邊界框的差異。

MonoGRNet 由四個子網(wǎng)絡(luò)組成,用于 2D 檢測(棕色),個體深度估計(jì)(綠色),3D 位置估計(jì)(藍(lán)色)和局部角落回歸(黃色)。在檢測到的 2D 邊界框的引導(dǎo)下,網(wǎng)絡(luò)首先估計(jì) 3D 框中心的深度和 2D 投影以獲得全局 3D 位置,然后在本地環(huán)境中回歸各個角坐標(biāo)。最終的 3D 邊界框基于估計(jì)的 3D 位置和局部角落在全局環(huán)境中以端到端的方式進(jìn)行優(yōu)化。

根據(jù)對具有挑戰(zhàn)性的 KITTI 數(shù)據(jù)集的實(shí)驗(yàn)表明,該網(wǎng)絡(luò)在 3D 物體定位方面優(yōu)于最先進(jìn)的單眼方法,且推理時間最短。

3D 檢測性能,KITTI 驗(yàn)證集上的 3D 邊界框的平均精度和 每張圖像的推理時間。注意不比較基于 Stereo 的方法 3DOP,列出以供參考。

MVPNet:單張圖像重建物體三維模型

在相同的圖像中,由于形狀、紋理,照明和相機(jī)配置的不同,若想從單幅 RGB 圖像重建三維物體,這是一個強(qiáng)不適定的問題。但深度學(xué)習(xí)模型讓我們重新定義這個任務(wù),即從一個特定的分布生成實(shí)際樣本。深度卷積神經(jīng)網(wǎng)絡(luò)得益于規(guī)則的表達(dá)形式、數(shù)據(jù)采樣密度高、權(quán)重共享等等。

三角網(wǎng)格(triangular mesh)是表面(surface)的主要表示形式,但它的不規(guī)則結(jié)構(gòu)不易編碼和解碼;大多數(shù)現(xiàn)存的深網(wǎng)使用三維體素網(wǎng)格(3D volumetric grid),但是稠密采樣計(jì)算復(fù)雜性高;最近的一些方法提倡無序點(diǎn)云表示,但無序?qū)傩孕枰~外的計(jì)算才能為點(diǎn)對點(diǎn)建立一一對應(yīng)的映射,這各高代價的映射算法,通常會使用較少的點(diǎn)來表示,從而產(chǎn)生稀疏的表面。

代表論文:MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

論文鏈接:https://arxiv.org/abs/1811.09410

為了描繪稠密的表面,該論文引入了一種有效的基于多視圖(multi-view)的表現(xiàn)形式,通過用多個視點(diǎn)可見的稠密點(diǎn)云并集來表示表面,分配視點(diǎn)時覆蓋盡量多的表面。

(a)MVPC 表示。1-VPC 中的每個像素都存儲來自該像素的反投影表面點(diǎn)(x,y,z)及其可見性 v 。存儲的三維點(diǎn)根據(jù)圖像平面上的二維網(wǎng)格進(jìn)行三角化,此圖顯示網(wǎng)格三角形的法線以指示表面的方向。(b)給定 RGB 圖像,MVPNet 生成一組 1-VPC,它們的聯(lián)合形成了預(yù)測的 MVPC。幾何損失函數(shù)用來測量預(yù)測和真實(shí)的 MVPC。

上圖描繪了多視圖點(diǎn)云(MVPC)。每個點(diǎn)云存儲在嵌入視圖像平面中的二維網(wǎng)格中。單視點(diǎn)云(1-VPC)看起來像深度圖,但每個像素存儲三維坐標(biāo)和可見性信息,而不是來自該像素的反投影表面點(diǎn)的深度。反投影變換提供了 1-VPC 中具有相等攝像機(jī)參數(shù)的點(diǎn)集的一對一映射。同時,該論文從二維網(wǎng)格引入三維點(diǎn)的局部連通性,促使基于這些反投影點(diǎn)形成三角形網(wǎng)格表面。至此,表面重建問題被轉(zhuǎn)化為回歸存儲在 MVPC 中的三維坐標(biāo)和可見性信息。

通過使用編碼器 - 解碼器網(wǎng)絡(luò)作為條件采樣器來生成 MVPC,上圖(b)所示。編碼器提取圖像特征并分別將它們與不同的視點(diǎn)特征組合。解碼器由多個權(quán)重共享分支組成,每個分支生成一個視圖相關(guān)的點(diǎn)云。所有 1-VPC 的聯(lián)合構(gòu)成了最終的 MVPC,如下圖。

給定輸入圖像 I,由編碼器和解碼器組成的 MVPNet 對 N 個視點(diǎn) c _i 的 1-VPC 進(jìn)行回歸。 N 個特征(z,c_i)被饋送到解碼器的 N 個分支中,其中分支共享權(quán)重。

這里提出了一種新穎的幾何損失函數(shù),如下圖,來衡量真實(shí)三維表面與二維平面相比的差異。與先前基于視圖的方法不同,他們間接計(jì)算二維投影空間(即圖像平面)中的特征而且忽略了由于從三維到二維的降維而導(dǎo)致的信息損失,這里 MVPC 允許我們在構(gòu)造的三角形網(wǎng)格上作離散表面變化的積分,即直接計(jì)算了三維表面。幾何損失函數(shù)整合了三維體積變化,預(yù)測置信度和多視圖一致性,大大提高了三維重建的精確度。

損失函數(shù)(a)1-VPC 的逐點(diǎn)距離(b)準(zhǔn)量三維體積差異(c)多視圖一致性

下圖展示了在公共數(shù)據(jù)集 ShapeNet 和真實(shí)圖像的結(jié)果,可見這個方法可以生成稠密的三維表面。另外,使用兩個學(xué)到的特征作線性差值后再用解碼器生成的三維重建模型,MVPNet 學(xué)到的特征空間具有較好的表達(dá)性和連續(xù)性。

ShapeNet 數(shù)據(jù)集結(jié)果比較

真實(shí)圖像三維重建結(jié)果

學(xué)習(xí)到的特征線性插值生成的三維重建結(jié)果

微軟亞洲研究院全部被接受論文列表如下:

Active Mini-Batch Sampling using Repulsive Point Processes

Balanced Sparsity for Efficient DNN Inference on GPU

Capacity Control of ReLU Neural Networks by Basis-path Norm

Deep Single-View 3D Object Reconstruction with Visual Hull Embedding

Detect or Track: Towards Cost-Effective Video Object Detection/Tracking

Dictionary-Guided Editing Networks for Paraphrase Generation

DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching

Explainable Recommendation Through Attentive Multi-View Learning

FANDA: A Novel Approach to Perform Follow-up Query Analysis

Learning Basis Representation to Refine 3D Human Pose Estimations

Leveraging Web Semantic Knowledgein Word Representation Learning

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

MonoGRNet:A Geometric Reasoning Network for Monocular 3D Object Localization

MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

Neural Speech Synthesis with Transformer Network

Non-Autoregressive Machine Translation with Auxiliary Regularization

Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Regularizing Neural Machine Translation byTarget-bidirectional Agreement

Response Generation by Context-aware Prototype Editing

Sentence-wise Smooth Regularization for Sequence to Sequence Learning

Session-based Recommendation with Graph Neural Network

TableSense: Mask R-CNN for Spreadsheet Table Detection

Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder

Trust Region Evolution Strategies

Unsupervised Neural Machine Translation with SMT asPosterior Regularization

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6617

    瀏覽量

    104214
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8428

    瀏覽量

    132830
  • 論文
    +關(guān)注

    關(guān)注

    1

    文章

    103

    瀏覽量

    14969

原文標(biāo)題:AAAI 2019:一文看全微軟亞洲研究院 27 篇重點(diǎn)論文

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    人工智能方向在哪里?看微軟亞洲研究院四任院長的建言

    11月14日,李開復(fù)、張亞勤、沈向洋、洪小文同時現(xiàn)身中關(guān)村丹棱街微軟亞洲研究院,這四人分別為微軟亞洲
    發(fā)表于 11-17 11:01 ?1268次閱讀

    中馬研究院正式掛牌成立

    `  12月30日下午,中馬研究院于園區(qū)正式掛牌成立,園區(qū)管委會副主任楊健豪、主任助理曹全來出席并為研究院揭牌,園區(qū)管委會經(jīng)濟(jì)發(fā)展局全體成員見證揭牌?! ≈旭R研究院旨在打造“立足中馬、面向東盟的新型
    發(fā)表于 01-07 16:02

    中科海西研究院泉州裝備制造研究所現(xiàn)代電機(jī)控制與電力電子實(shí)驗(yàn)室招聘公告

    與團(tuán)隊(duì)合作精神;5. 有研發(fā)團(tuán)隊(duì)的管理工作經(jīng)歷優(yōu)先。、福利待遇 參照中科海西研究院(福建物質(zhì)結(jié)構(gòu)研究所)相應(yīng)規(guī)定給予薪酬等待遇,年底有項(xiàng)目獎金; 符合泉州市及所屬縣(市、區(qū))相關(guān)政
    發(fā)表于 06-30 16:27

    英特爾研究院與聯(lián)想研究院簽署研究院合作框架協(xié)議

    英特爾研究院與聯(lián)想研究院日前在北京簽署了《研究院合作框架協(xié)議》,宣布雙方將在PC及移動互聯(lián)網(wǎng)領(lǐng)域,立足3~5年長遠(yuǎn)技術(shù)研究,開展協(xié)同創(chuàng)新深度
    發(fā)表于 04-13 08:42 ?550次閱讀

    微軟將在上海設(shè)立微軟亞洲研究院

    9月17日,在上海舉辦的2018世界人工智能大會上,微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負(fù)責(zé)人沈向洋宣布:微軟將成立
    的頭像 發(fā)表于 09-19 14:55 ?6252次閱讀

    微軟亞洲研究院被譽(yù)為AI黃埔軍校,覆蓋了國內(nèi)高科技領(lǐng)導(dǎo)的半壁江山

    如火如荼的人工智能熱潮,眾多AI明星企業(yè)創(chuàng)始人和聯(lián)合創(chuàng)始人從微軟亞洲研究院走出來,物聯(lián)網(wǎng)高級顧問楊劍勇指出,有李開復(fù)創(chuàng)辦了創(chuàng)新工場,以及機(jī)器視覺獨(dú)角獸商湯科技、依圖科技、曠視科技。李開復(fù)在朋友圈聲稱
    的頭像 發(fā)表于 11-06 15:16 ?5083次閱讀

    ICLR 2019最佳論文日前揭曉 微軟與麻省等獲最佳論文獎項(xiàng)

    ICLR 2019最佳論文日前揭曉。來自微軟研究院、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)和來自
    的頭像 發(fā)表于 05-11 09:10 ?2392次閱讀

    微軟亞洲研究院"創(chuàng)新匯": AI為數(shù)字化轉(zhuǎn)型注入動能

    世界都在進(jìn)行一場變革式的數(shù)字化轉(zhuǎn)型。數(shù)字化轉(zhuǎn)型不是終點(diǎn),而是一旅程。我們將以微軟亞洲研究院的技術(shù)優(yōu)勢和人才資源為基礎(chǔ),與不同行業(yè)、領(lǐng)域的現(xiàn)
    發(fā)表于 06-29 12:17 ?584次閱讀

    微軟亞洲研究院開發(fā)出了一種超級鳳凰人工智能系統(tǒng)

    微軟亞洲研究院(MSR Asia)開發(fā)出麻將人工智能(AI)系統(tǒng)——超級鳳凰(Suphx)。研發(fā)者們相信,它不僅掌握了麻將對弈,還能夠贏得99%的對局,做好了解決實(shí)際任務(wù)的準(zhǔn)備。
    發(fā)表于 04-15 11:48 ?1232次閱讀

    微軟亞洲研究院研究員們提出了一種模型壓縮的新思路

    近日,來自微軟亞洲研究院自然語言計(jì)算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學(xué)生模型距離的知識蒸餾不同的模型壓縮新方
    的頭像 發(fā)表于 11-24 09:48 ?1672次閱讀

    為什么中國移動3月成立了三個研究院?

    三個月成立三個研究院,中國移動這是要干啥? 中國移動正在科技創(chuàng)新主力軍的方向加速狂奔。形成了“下羊城大灣區(qū)探海,入杭州人間天堂問鼎、上南京紫金山攬?jiān)隆钡膭?chuàng)新集群。 在三個月中國移動分布
    的頭像 發(fā)表于 01-28 14:17 ?5224次閱讀

    無線及移動網(wǎng)絡(luò)領(lǐng)域專家邱鋰力加入微軟亞洲研究院

    微軟亞洲研究院宣布,無線及移動網(wǎng)絡(luò)領(lǐng)域的國際頂級專家邱鋰力博士正式加入微軟亞洲
    的頭像 發(fā)表于 01-25 10:25 ?1395次閱讀

    微軟亞洲研究院把Transformer深度提升到1000層

    本周論文包括尤洋團(tuán)隊(duì)FastFold上線,訓(xùn)練時間從11天壓縮至67小時;微軟亞洲研究院直接把 Transformer 深度提升到 1000 層等
    的頭像 發(fā)表于 03-24 14:22 ?2141次閱讀

    微軟亞洲研究院否認(rèn)撤離中國,但確認(rèn)部分 AI 科學(xué)家將遷至溫哥華

    建立一新的實(shí)驗(yàn)室,確認(rèn)將包含微軟在中國的 AI 研究專家到新實(shí)驗(yàn)室當(dāng)中。同時,MSRA 早前還否認(rèn)其撤離中國。 MSRA 在一份聲明中表示:“我們正在溫哥華建立一新的實(shí)驗(yàn)室,與
    的頭像 發(fā)表于 06-20 08:48 ?838次閱讀

    科學(xué)匠人 | 邊江:在研究院的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道

    基礎(chǔ)科研的創(chuàng)新為技術(shù)落地應(yīng)用提供了動力,而來自真實(shí)世界的業(yè)務(wù)需求則為基礎(chǔ)科研提供了靈感和方向。當(dāng)人工智能進(jìn)入大模型時代,什么樣的技術(shù)創(chuàng)新才能更好地落地于產(chǎn)業(yè)?對此,微軟亞洲研究院資深首
    的頭像 發(fā)表于 08-04 00:10 ?707次閱讀
    科學(xué)匠人 | 邊江:在<b class='flag-5'>研究院</b>的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道