AAAI即將舉行,本文帶來微軟亞洲研究院入選的27篇論文解讀,包括機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺和圖形學(xué)等多個領(lǐng)域。
人工智能領(lǐng)域的國際頂級會議 AAAI 2019 將于 1 月 27 日至 2 月 1 日在美國夏威夷舉行。
根據(jù)已經(jīng)公布的論文錄取結(jié)果,今年的大會錄取率創(chuàng)歷史新低,投稿數(shù)量高達(dá) 7745 篇,錄取的數(shù)量僅有 16% 左右。
在被錄取的論文中,來自微軟亞洲研究院的有 27 篇之多,包括了機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺和圖形學(xué)等多個領(lǐng)域。本文將詳細(xì)介紹這三個領(lǐng)域中來自微軟亞洲研究院的那些硬核論文。
機(jī)器學(xué)習(xí)
非自回歸機(jī)器翻譯模型的兩種優(yōu)化新方式
2018 年,非自回歸(Non-Autoregressive)機(jī)器翻譯模型引起了眾多研究人員的興趣。非自回歸模型打破了翻譯過程順序性,將原來自回歸機(jī)器翻譯的逐詞順序生成轉(zhuǎn)變?yōu)橐淮涡援a(chǎn)生所有目標(biāo)端單詞,極大地提升了機(jī)器翻譯速度。然而,隨著順序依賴關(guān)系的打破,非自回歸模型的翻譯準(zhǔn)確率卻遠(yuǎn)遠(yuǎn)不及自回歸機(jī)器翻譯模型;同時,漏翻譯和重復(fù)翻譯也將翻譯質(zhì)量大打折扣。微軟亞洲研究院分別通過以下兩篇論文提出了針對上述兩個問題的解決方法。
代表論文:Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input
論文鏈接:https://arxiv.org/abs/1812.09664
在該論文中,研究員提出了兩種方法來提升解碼器的輸入質(zhì)量,減少翻譯精度的損失。如下圖所示:第一種方法(Phrase-Table Lookup)直接利用詞表將源語言查表翻譯成目標(biāo)語言并輸入到解碼器,第二種方法(Embedding Mapping)通過詞級別的對抗學(xué)習(xí)以及句子級別的對齊信息,將源語言的詞向量對齊到目標(biāo)語言的詞向量,作為解碼器的輸入。
通過在 WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En 一共 4 個翻譯語言上的實(shí)驗(yàn),相比基線模型(NART),這種方法達(dá)到了 3~5 個 BLEU 分的提升,相比先前最好的工作(IR-NAT)有 1~5 個 BLEU 分的提升。
該模型翻譯精度更加接近 AT 模型,在 WMT16 En-Ro 數(shù)據(jù)集上,相比 AT 模型(Transformer)僅有 1 個 BLEU 分的差距。在翻譯速度方面,相比 AT 模型(Transformer)最高有 25 倍的翻譯速度提升;相比 NAT 模型(LT、NART、IR-NAT)也有速度上的提升。
同時這兩種方法各有優(yōu)勢,Phrase-Table Lookup 在數(shù)據(jù)質(zhì)量比較好的 WMT14 De-En 以及 IWSLT De-En 數(shù)據(jù)集上優(yōu)勢明顯,因?yàn)槟芑谟?xùn)練集得到高質(zhì)量的詞典,而在 WMT14 En-De 以及 WMT16 En-Ro 上,得到的詞典質(zhì)量較差,因此 Embedding Mapping 更能顯現(xiàn)出優(yōu)勢。
代表論文:Non-Autoregressive Machine Translation with Auxiliary Regularization
論文鏈接:https://taoqin.github.io/papers/nat.reg.AAAI2019.pdf
對于非自回歸模型的重復(fù)翻譯和漏翻譯的問題,該論文提出了基于輔助約束(Auxiliary Regularization)的非自回歸翻譯模型,如下圖。
重復(fù)翻譯的產(chǎn)生代表解碼器端相鄰位置的隱層表示(Hidden Representation)有著極大的相似性,從而解碼產(chǎn)生同樣的翻譯單詞。為此,研究員提出了相似性約束(Similarity Regularization)來限制兩個相鄰位置的隱層表示向量之間的關(guān)系:
其中 s_cos 代表兩個向量之間的余弦距離。H_t 代表解碼器第 t 個位置的隱層狀態(tài)向量,y_t 代表第 t 個位置的目標(biāo)單詞的單詞嵌入(embedding)向量。L_sim 的意義在于,如果相鄰兩個位置(t 和 t+1)的目標(biāo)單詞語義接近(s_cos?很大 ),那么 h_t 和 h_(t+1) 也應(yīng)該很接近,反之亦然。
對于漏翻譯,可以重建約束(Reconstruction Regularization),在非自回歸模型的頂部添加一個反方向的自回歸翻譯模型,進(jìn)而要求解碼器的隱層向量在該反方向的模型中重建源端句子。通過這一約束,強(qiáng)制要求非自回歸模型的翻譯含有所有信息以克服漏翻譯的問題。
通過在多個數(shù)據(jù)集上與各個基線算法進(jìn)行了性能的對比,包括對于翻譯質(zhì)量和翻譯速度的衡量。NAT-REG 算法不僅具有良好的性能,在翻譯速度(上圖最后兩列)也有了顯著的提升。通過這兩項(xiàng)約束項(xiàng),非自回歸機(jī)器翻譯模型的重復(fù)翻譯和漏翻譯的現(xiàn)象得到了極大的緩解。
深度神經(jīng)網(wǎng)絡(luò)模型的泛化及對泛化誤差的刻畫
在機(jī)器學(xué)習(xí)領(lǐng)域,理解深度神經(jīng)網(wǎng)絡(luò)模型的泛化性質(zhì)以及刻畫其泛化誤差是一個熱點(diǎn),論文 “Capacity Control of ReLU Neural Networks by Basis-path Norm” 論述了這一理論研究。
代表論文:Capacity Control of ReLU Neural Networks by Basis-path Norm
論文鏈接:https://arxiv.org/abs/1809.07122
ReLU 神經(jīng)網(wǎng)絡(luò)具有正伸縮不變性,即一個隱節(jié)點(diǎn)的所有入邊乘以一個正常數(shù) c, 同時所有出邊除以一個正常數(shù) c, ReLU 神經(jīng)網(wǎng)絡(luò)的輸出值不變。因此,一個恰當(dāng)?shù)呐c神經(jīng)網(wǎng)絡(luò)泛化性質(zhì)有關(guān)的度量,應(yīng)該也具有正伸縮不變性。基于 ReLU 神經(jīng)網(wǎng)絡(luò)的路徑的度量也滿足該性質(zhì)。
對于神經(jīng)網(wǎng)絡(luò)的路徑(path),將 ReLU 神經(jīng)網(wǎng)絡(luò)看做一個有向無環(huán)圖,一條路徑 p 即為輸入節(jié)點(diǎn)至輸出節(jié)點(diǎn)的一條通路,路徑的值 v(p) 被定義為其所經(jīng)過的參數(shù)的乘積。那么 ReLU 神經(jīng)網(wǎng)絡(luò)的第 k 維輸出可以表示為:
,?
其中 P_(i→k) 表示連接第 i 個輸入節(jié)以及第 k 個輸出節(jié)點(diǎn)的所有路徑的集合;a(p;x) 取值為 1 或 0,分別代表該路徑的值在經(jīng)過多層激活函數(shù)作用后是否流入輸出。
路徑 p_(i,j) 的值等于 w_(1,i)?w_(2,j), 那么路徑之間相互關(guān)聯(lián),例如 v(p_(2,2) )=(v(p_(1,2) )?v(p_(2,1) ))/v(p_(1,1) ) 。
Path-norm 被定義為所有路徑值的 L2 - 范數(shù),其被證明與 ReLU 神經(jīng)網(wǎng)絡(luò)的泛化能力緊密相關(guān)。然而,神經(jīng)網(wǎng)絡(luò)所有路徑值是相關(guān)聯(lián)的(如上圖),這會使得當(dāng) Path-norm 作為約束加入優(yōu)化算法中時,無法求解出閉式的更新法則。有工作通過研究路徑值之間的關(guān)系,在所有路徑值中找到了一組互不相關(guān)的路徑,稱為基路徑,并且其余路徑均可通過基路徑的值進(jìn)行計(jì)算。
這一論文提出了一個基于基路徑的度量。首先,基路徑可以分為兩類,一類的值在表達(dá)非基路徑時出現(xiàn)在分子,第二類的值在表達(dá)非基路徑時出現(xiàn)在分母。于是,出現(xiàn)在分母的基路徑值不能過大或過小。因此,限制前者的值靠近 0,后者的值靠近 1,受此啟發(fā),研究員提出了一個僅基于基路徑的度量:BP-norm。
定義 1: (BP-norm) 對于任意的路徑值向量
BP-norm 定義如下:
,
其中
根據(jù) BP-norm, 可得如下泛化誤差的上界。
定理 1: 至少以概率 1-δ, 泛化誤差 (測試誤差 – 訓(xùn)練誤差) of hypothesis space F can be upper bounded as
其中 Φ(u;d,H,L)=(e^2u+d?u^2) (1+H?u^2?e^2u)^(L-2) (4H)^L, d 表示輸入維度, H 表示網(wǎng)絡(luò)的寬度, L 表示網(wǎng)絡(luò)的深度。
將 BP-norm 作為正則項(xiàng)加入損失函數(shù),并用 SGD 和 G-SGD 來優(yōu)化 BP 正則損失函數(shù)。下表展示了算法在圖像分類任務(wù)上的訓(xùn)練誤差、測試誤差和泛化誤差,其中Δ反映了泛化誤差的大小。結(jié)果表明 BP 正則算法可以有效地降低模型復(fù)雜度,從而取得更小的泛化誤差。
自然語言處理
AI 也可以自動發(fā)彈幕了
彈幕,已經(jīng)成為人們看視頻的一種習(xí)慣;不同用戶之間的彈幕往往會形成上下文回復(fù)關(guān)系,更讓彈幕成為一種新的社交模式。基于這一現(xiàn)象,微軟亞洲研究院設(shè)計(jì)了一款名為 LiveBot 的自動彈幕生成系統(tǒng)。在這一系統(tǒng)中需要克服兩個難點(diǎn):一是要充分理解視頻內(nèi)容,根據(jù)其他用戶的評論彈幕生成適當(dāng)?shù)膬?nèi)容;二是要在合適的時間點(diǎn)顯示在對應(yīng)的視頻幀之上。
代表論文:LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
論文鏈接:http://export.arxiv.org/pdf/1809.04938
該論文論述了兩種深度神經(jīng)網(wǎng)絡(luò)模型,基于視頻和文本的上下文信息來生成彈幕,并構(gòu)建了一個包含 2,361 個視頻和 895,929 條彈幕的大規(guī)模訓(xùn)練數(shù)據(jù)集來驗(yàn)證模型的有效性。
實(shí)驗(yàn)結(jié)果表明,LiveBot 能夠準(zhǔn)確地學(xué)習(xí)到真實(shí)用戶在觀看視頻時進(jìn)行彈幕評論的行為特點(diǎn),有效地進(jìn)行了視頻內(nèi)容的理解和用戶評論的交互,同時在客觀評價指標(biāo)上也取得優(yōu)異的成績。
無監(jiān)督機(jī)器翻譯的最新性能提升
最近一年,無監(jiān)督機(jī)器翻譯逐漸成為機(jī)器翻譯界的一個研究熱點(diǎn)。在無監(jiān)督場景下,神經(jīng)機(jī)器翻譯模型主要通過聯(lián)合訓(xùn)練(joint training)或交替回譯(iterative back-translation)進(jìn)行逐步迭代。但是由于缺乏有效的監(jiān)督信號,回譯得到的偽訓(xùn)練數(shù)據(jù)中會包含大量的噪音,這些噪音在迭代的過程中,會被神經(jīng)機(jī)器翻譯模型強(qiáng)大的模式匹配能力放大,從而損害模型最終的翻譯性能。
代表論文:Unsupervised Neural Machine Translation with SMT as Posterior Regularization
論文鏈接:http://export.arxiv.org/pdf/1901.04112
該論文采用了后驗(yàn)正則(Posterior Regularization)的方式將 SMT(統(tǒng)計(jì)機(jī)器翻譯)引入到無監(jiān)督 NMT 的訓(xùn)練過程中,并通過 EM 過程交替優(yōu)化 SMT 和 NMT 模型,使得無監(jiān)督 NMT 迭代過程中的噪音能夠被有效去除,同時 NMT 模型也彌補(bǔ)了 SMT 模型在句子流暢性方面的不足。
該方法的整體結(jié)構(gòu)大致分為兩部分,如上圖所示。左邊是模型初始化,通過單語數(shù)據(jù)訓(xùn)練出兩種語言(如英語和法語)的詞向量(word embedding),之后通過無監(jiān)督的訓(xùn)練方法得到 cross-lingual embedding,并通過計(jì)算其余弦相似度得到初始的詞到詞的翻譯概率表(word translation table)。這個翻譯概率表連同由單語訓(xùn)練得到的語言模型(language model)作為初始的 SMT 模型的特性,從而完成了模型初始化。
上圖右邊是方法的主體部分,初始的 SMT 模型翻譯一批單語數(shù)據(jù),構(gòu)成的偽數(shù)據(jù)作為初始 NMT 模型的訓(xùn)練數(shù)據(jù)。在訓(xùn)練得到初始的 NMT 模型后,將繼續(xù)進(jìn)行交替回譯(右下,iterative back-translation NMT),并用收斂的 NMT 模型翻譯出一批新的偽數(shù)據(jù)。此時產(chǎn)生的偽數(shù)據(jù)含有大量的噪音,可以通過這批偽數(shù)據(jù)訓(xùn)練新的 SMT 模型(右上,SMT as PR)。SMT 模型通過構(gòu)造質(zhì)量更高的基于片段的翻譯概率表(phrase translation table),將偽數(shù)據(jù)中的噪音過濾掉,并通過翻譯新的一批單語數(shù)據(jù),得到互譯性更好的一批偽數(shù)據(jù)。這一批偽數(shù)據(jù)便可以用于調(diào)整(fine-tune)之前的 NMT 模型,之后 NMT 模型再次進(jìn)行交替回譯。我們將訓(xùn)練 NMT 和 SMT 的過程集成在一個 EM 訓(xùn)練框架中,兩個過程進(jìn)行交互迭代直到最終收斂。
在英法 (en-fr) 和英德(en-de)語言對上進(jìn)行的實(shí)驗(yàn)中,這一方法明顯優(yōu)于以前的方法,顯著提高了無監(jiān)督機(jī)器翻譯的性能。
新型 TTS:結(jié)合了 Tacotron2 和 Transformer 的優(yōu)點(diǎn)
人機(jī)交互中有項(xiàng)重要的任務(wù),即文本合成語音(Text to speech,TTS),以達(dá)到合成清晰自然且接近真人錄音的音頻。
在過去的幾十年里,基于拼接的模型(concatenative model)和基于參數(shù)的模型(parametric model)是 TTS 領(lǐng)域的兩大主流;然而,兩者都有著非常復(fù)雜的流水線,而且挑選有效的聲學(xué)特征通常是非常耗時且與語言密切相關(guān)的。除此之外,這兩種方法合成的音頻不流暢,而且在韻律和發(fā)音上與真人錄音都有較大的差距。
隨著神經(jīng)網(wǎng)絡(luò)的興起,一些端到端(end to end)的 TTS 模型逐漸出現(xiàn),如 Tacotron 和 Tacotron2,使得合成的音頻質(zhì)量有了非常大的進(jìn)步,甚至在某些特定的數(shù)據(jù)集上與真人錄音不相上下。這種端到端的 TTS 模型主要有兩部分:編碼器和解碼器。編碼器負(fù)責(zé)將文本映射到語義空間(semantic space)中,生成一個隱狀態(tài)序列;接著由解碼器(通常是一個基于 RNN 的神經(jīng)網(wǎng)絡(luò))配合注意力機(jī)制(attention mechanism)將這個隱狀態(tài)序列解碼成頻譜。
然而,在 RNN 中,每一個隱狀態(tài)的生成都要基于之前所有的隱狀態(tài)以及當(dāng)前時刻的輸入;因此模型只能串行地進(jìn)行計(jì)算,限制了網(wǎng)絡(luò)的并行計(jì)算能力,從而降低了運(yùn)算效率。并且 RNN 難以對距離較遠(yuǎn)的兩個輸入建立直接的依賴關(guān)系。而最近流行的自關(guān)注網(wǎng)絡(luò)(Transformer)在訓(xùn)練中可以實(shí)現(xiàn)并行計(jì)算,而且有能力在輸入序列的任意兩個 token 之間建立起直接的依賴。
代表論文:Neural Speech Synthesis with Transformer Network
論文鏈接:https://arxiv.org/abs/1809.08895
該論文中結(jié)合了 Tacotron2 和 Transformer 的優(yōu)點(diǎn),提出了新的 TTS 模型:通過使用多頭注意力 (multi-head attention) 機(jī)制代替了原本 Tacotron2 中的 RNN 以及編碼器和解碼器之間的 attention。這樣,一方面通過自注意力(self attention) 機(jī)制,網(wǎng)絡(luò)可以并行計(jì)算,從而使訓(xùn)練效率達(dá)到了原來的 4 倍;同時,任意兩個輸入之間可以建立起直接的長距離依賴。另一方面,多頭的注意力機(jī)制可以從多個角度對輸入信息進(jìn)行整合。
如上圖,在 Tacotron2 的基礎(chǔ)上,使用 Transformer 的 encoder 和 decoder 分別代替原有的雙向 RNN 編碼器和雙層 RNN 解碼器;另一方面原始的注意力機(jī)制被多頭注意力機(jī)制取代從而能更好地對輸入信息進(jìn)行特征提?。怀酥馕覀冞€對其它的網(wǎng)絡(luò)結(jié)構(gòu),如 positional encoding 進(jìn)行了調(diào)整。在該模型中,由于有自注意力機(jī)制的存在,可以更好地建立長距離依賴,從而能對包括韻律在內(nèi)的音頻特征進(jìn)行更好的建模。
在 MOS 測試(滿分 5 分)中, Tacotron2 和 Transformer TTS model 均能夠得到很接近真實(shí)的人聲錄音(即 ground truth)的得分。在 CMOS 測試中(成對比較,得分 [-3,3] 分),我們的方法相比 Tacotron2 能夠得到顯著的性能提升。
另一方面,對比 Transformer TTS model 和 Tacotron2 合成的 mel 譜,可以發(fā)現(xiàn),在低頻部分二者相近,都表現(xiàn)出了很強(qiáng)的能力;在高頻部分,Transformer TTS model 能更好地還原頻譜的紋理,從而使合成的音頻有更高的質(zhì)量。
基于改寫的復(fù)述生成模型更高效
代表論文:Dictionary-Guided Editing Networks for Paraphrase Generation
論文鏈接:https://arxiv.org/pdf/1806.08077.pdf
在自然語言處理中,句子復(fù)述應(yīng)用很廣泛,例如被應(yīng)用在信息檢索、自動文摘、句子翻譯等任務(wù)。句子復(fù)述(Paraphrase)是指換一種方式表達(dá)原句,同時要與原句意思相同。人在完成句子復(fù)述的時候,往往會使用同義詞替換句子中的一些詞語,然后對替換后的句子進(jìn)行簡單的修改。
以此為出發(fā)點(diǎn),該論文提出了基于改寫網(wǎng)絡(luò)的復(fù)述生成模型。復(fù)述生成模型首先使用原句進(jìn)行檢索,得到一組詞語級別的復(fù)述對;然后將檢索得到的復(fù)述對進(jìn)行編碼,得到一組固定長度的向量;最后基于改寫網(wǎng)絡(luò)完成句子的復(fù)述。
上圖所示,復(fù)述生成模型建立在序列到序列模型(Seq2Seq)的框架下,進(jìn)行解碼的過程中,采用了注意力機(jī)制(attention mechanism),對檢索得到的復(fù)述對進(jìn)行權(quán)重組合,將加權(quán)之后的結(jié)果用于解碼器。如模型在解碼到 overcome 的時候,會更加側(cè)重于使用(overcome,get rid of)這樣的復(fù)述對。通過注意力機(jī)制讓模型自己學(xué)習(xí)如何進(jìn)行改寫,在哪些地方需要進(jìn)行替換和調(diào)整。
通過在 MSCOCO 和 Quora 兩個公開數(shù)據(jù)集上實(shí)驗(yàn),如上圖所示,基于改寫網(wǎng)絡(luò)的復(fù)述生成模型在 MSCOCO 數(shù)據(jù)集上取得了最好的實(shí)驗(yàn)結(jié)果,在 Quora 數(shù)據(jù)集上,在貪婪搜索的條件下取得了最好的結(jié)果。
另外,通過分析實(shí)驗(yàn)結(jié)果顯示,如上圖,在生成的復(fù)述中,機(jī)器會基于檢索得到的復(fù)述對進(jìn)行改寫和替換,采用這種方式既保證了復(fù)述結(jié)果與原句的區(qū)別,同時又不會改變原意。
計(jì)算機(jī)視覺
MonoGRNet:單張圖像估測物體三維位置
在圖像中,傳統(tǒng)的物體定位或檢測估計(jì)二維邊界框,可以框住屬于圖像平面上物體的可見部分。但是,這種檢測結(jié)果無法在真實(shí)的 3D 世界中提供場景理解的幾何感知,這對很多應(yīng)用的意義并不大。
代表論文:MonoGRNet:A Geometric Reasoning Network for Monocular 3D Object Localization
論文鏈接:https://arxiv.org/abs/1811.10247
該論文提出了使用 MonoGRNet,從單目 RGB 圖像中通過幾何推斷,在已觀察到的二維投影平面和在未觀察到的深度維度中定位物體非模態(tài)三維邊界框(Amodal Bounding Box, ABBox-3D),即實(shí)現(xiàn)了由二維視頻確定物體的三維位置。
MonoGRNet 的主要思想是將 3D 定位問題解耦為幾個漸進(jìn)式子任務(wù),這些子任務(wù)可以使用單目 RGB 數(shù)據(jù)來解決。網(wǎng)絡(luò)從感知 2D 圖像平面中的語義開始,然后在 3D 空間中執(zhí)行幾何推理。這里需要克服一個具有挑戰(zhàn)性的問題是,在不計(jì)算像素級深度圖的情況下準(zhǔn)確估計(jì)實(shí)例 3D 中心的深度。該論文提出了一種新的個體級深度估計(jì)(Instance Depth Estimation, IDE)模塊,該模塊探索深度特征映射的大型感知域以捕獲粗略的實(shí)例深度,然后聯(lián)合更高分辨率的早期特征以優(yōu)化 IDE。
為了同時檢索水平和垂直位置,首先要預(yù)測 3D 中心的 2D 投影。結(jié)合 IDE,然后將投影中心拉伸到真實(shí) 3D 空間以獲得最終的 3D 對象位置。所有組件都集成到端到端網(wǎng)絡(luò) MonoGRNet 中,其中有三個 3D 推理分支,如下圖。最后通過聯(lián)合的幾何損失函數(shù)進(jìn)行優(yōu)化,最大限度地減少 3D 邊界在整體背景下的邊界框的差異。
MonoGRNet 由四個子網(wǎng)絡(luò)組成,用于 2D 檢測(棕色),個體深度估計(jì)(綠色),3D 位置估計(jì)(藍(lán)色)和局部角落回歸(黃色)。在檢測到的 2D 邊界框的引導(dǎo)下,網(wǎng)絡(luò)首先估計(jì) 3D 框中心的深度和 2D 投影以獲得全局 3D 位置,然后在本地環(huán)境中回歸各個角坐標(biāo)。最終的 3D 邊界框基于估計(jì)的 3D 位置和局部角落在全局環(huán)境中以端到端的方式進(jìn)行優(yōu)化。
根據(jù)對具有挑戰(zhàn)性的 KITTI 數(shù)據(jù)集的實(shí)驗(yàn)表明,該網(wǎng)絡(luò)在 3D 物體定位方面優(yōu)于最先進(jìn)的單眼方法,且推理時間最短。
3D 檢測性能,KITTI 驗(yàn)證集上的 3D 邊界框的平均精度和 每張圖像的推理時間。注意不比較基于 Stereo 的方法 3DOP,列出以供參考。
MVPNet:單張圖像重建物體三維模型
在相同的圖像中,由于形狀、紋理,照明和相機(jī)配置的不同,若想從單幅 RGB 圖像重建三維物體,這是一個強(qiáng)不適定的問題。但深度學(xué)習(xí)模型讓我們重新定義這個任務(wù),即從一個特定的分布生成實(shí)際樣本。深度卷積神經(jīng)網(wǎng)絡(luò)得益于規(guī)則的表達(dá)形式、數(shù)據(jù)采樣密度高、權(quán)重共享等等。
三角網(wǎng)格(triangular mesh)是表面(surface)的主要表示形式,但它的不規(guī)則結(jié)構(gòu)不易編碼和解碼;大多數(shù)現(xiàn)存的深網(wǎng)使用三維體素網(wǎng)格(3D volumetric grid),但是稠密采樣計(jì)算復(fù)雜性高;最近的一些方法提倡無序點(diǎn)云表示,但無序?qū)傩孕枰~外的計(jì)算才能為點(diǎn)對點(diǎn)建立一一對應(yīng)的映射,這各高代價的映射算法,通常會使用較少的點(diǎn)來表示,從而產(chǎn)生稀疏的表面。
代表論文:MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image
論文鏈接:https://arxiv.org/abs/1811.09410
為了描繪稠密的表面,該論文引入了一種有效的基于多視圖(multi-view)的表現(xiàn)形式,通過用多個視點(diǎn)可見的稠密點(diǎn)云并集來表示表面,分配視點(diǎn)時覆蓋盡量多的表面。
(a)MVPC 表示。1-VPC 中的每個像素都存儲來自該像素的反投影表面點(diǎn)(x,y,z)及其可見性 v 。存儲的三維點(diǎn)根據(jù)圖像平面上的二維網(wǎng)格進(jìn)行三角化,此圖顯示網(wǎng)格三角形的法線以指示表面的方向。(b)給定 RGB 圖像,MVPNet 生成一組 1-VPC,它們的聯(lián)合形成了預(yù)測的 MVPC。幾何損失函數(shù)用來測量預(yù)測和真實(shí)的 MVPC。
上圖描繪了多視圖點(diǎn)云(MVPC)。每個點(diǎn)云存儲在嵌入視圖像平面中的二維網(wǎng)格中。單視點(diǎn)云(1-VPC)看起來像深度圖,但每個像素存儲三維坐標(biāo)和可見性信息,而不是來自該像素的反投影表面點(diǎn)的深度。反投影變換提供了 1-VPC 中具有相等攝像機(jī)參數(shù)的點(diǎn)集的一對一映射。同時,該論文從二維網(wǎng)格引入三維點(diǎn)的局部連通性,促使基于這些反投影點(diǎn)形成三角形網(wǎng)格表面。至此,表面重建問題被轉(zhuǎn)化為回歸存儲在 MVPC 中的三維坐標(biāo)和可見性信息。
通過使用編碼器 - 解碼器網(wǎng)絡(luò)作為條件采樣器來生成 MVPC,上圖(b)所示。編碼器提取圖像特征并分別將它們與不同的視點(diǎn)特征組合。解碼器由多個權(quán)重共享分支組成,每個分支生成一個視圖相關(guān)的點(diǎn)云。所有 1-VPC 的聯(lián)合構(gòu)成了最終的 MVPC,如下圖。
給定輸入圖像 I,由編碼器和解碼器組成的 MVPNet 對 N 個視點(diǎn) c _i 的 1-VPC 進(jìn)行回歸。 N 個特征(z,c_i)被饋送到解碼器的 N 個分支中,其中分支共享權(quán)重。
這里提出了一種新穎的幾何損失函數(shù),如下圖,來衡量真實(shí)三維表面與二維平面相比的差異。與先前基于視圖的方法不同,他們間接計(jì)算二維投影空間(即圖像平面)中的特征而且忽略了由于從三維到二維的降維而導(dǎo)致的信息損失,這里 MVPC 允許我們在構(gòu)造的三角形網(wǎng)格上作離散表面變化的積分,即直接計(jì)算了三維表面。幾何損失函數(shù)整合了三維體積變化,預(yù)測置信度和多視圖一致性,大大提高了三維重建的精確度。
損失函數(shù)(a)1-VPC 的逐點(diǎn)距離(b)準(zhǔn)量三維體積差異(c)多視圖一致性
下圖展示了在公共數(shù)據(jù)集 ShapeNet 和真實(shí)圖像的結(jié)果,可見這個方法可以生成稠密的三維表面。另外,使用兩個學(xué)到的特征作線性差值后再用解碼器生成的三維重建模型,MVPNet 學(xué)到的特征空間具有較好的表達(dá)性和連續(xù)性。
ShapeNet 數(shù)據(jù)集結(jié)果比較
真實(shí)圖像三維重建結(jié)果
學(xué)習(xí)到的特征線性插值生成的三維重建結(jié)果
微軟亞洲研究院全部被接受論文列表如下:
Active Mini-Batch Sampling using Repulsive Point Processes
Balanced Sparsity for Efficient DNN Inference on GPU
Capacity Control of ReLU Neural Networks by Basis-path Norm
Deep Single-View 3D Object Reconstruction with Visual Hull Embedding
Detect or Track: Towards Cost-Effective Video Object Detection/Tracking
Dictionary-Guided Editing Networks for Paraphrase Generation
DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching
Explainable Recommendation Through Attentive Multi-View Learning
FANDA: A Novel Approach to Perform Follow-up Query Analysis
Learning Basis Representation to Refine 3D Human Pose Estimations
Leveraging Web Semantic Knowledgein Word Representation Learning
LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
MonoGRNet:A Geometric Reasoning Network for Monocular 3D Object Localization
MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image
Neural Speech Synthesis with Transformer Network
Non-Autoregressive Machine Translation with Auxiliary Regularization
Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input
Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features
Read + Verify: Machine Reading Comprehension with Unanswerable Questions
Regularizing Neural Machine Translation byTarget-bidirectional Agreement
Response Generation by Context-aware Prototype Editing
Sentence-wise Smooth Regularization for Sequence to Sequence Learning
Session-based Recommendation with Graph Neural Network
TableSense: Mask R-CNN for Spreadsheet Table Detection
Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder
Trust Region Evolution Strategies
Unsupervised Neural Machine Translation with SMT asPosterior Regularization
-
微軟
+關(guān)注
關(guān)注
4文章
6617瀏覽量
104214 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132830 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
14969
原文標(biāo)題:AAAI 2019:一文看全微軟亞洲研究院 27 篇重點(diǎn)論文
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論