欧美日韩一区二区三区精品不卡,韩国免费a级作爱片无码

AAAI即將舉行，本文帶來微軟亞洲研究院入選的27篇論文解讀，包括機器學習、自然語言處理（NLP）、計算機視覺和圖形學等多個領域。

人工智能領域的國際頂級會議 AAAI 2019 將于 1 月 27 日至 2 月 1 日在美國夏威夷舉行。

根據(jù)已經(jīng)公布的論文錄取結果，今年的大會錄取率創(chuàng)歷史新低，投稿數(shù)量高達 7745 篇，錄取的數(shù)量僅有 16% 左右。

在被錄取的論文中，來自微軟亞洲研究院的有 27 篇之多，包括了機器學習、自然語言處理（NLP）、計算機視覺和圖形學等多個領域。本文將詳細介紹這三個領域中來自微軟亞洲研究院的那些硬核論文。

機器學習

非自回歸機器翻譯模型的兩種優(yōu)化新方式

2018 年，非自回歸（Non-Autoregressive）機器翻譯模型引起了眾多研究人員的興趣。非自回歸模型打破了翻譯過程順序性，將原來自回歸機器翻譯的逐詞順序生成轉(zhuǎn)變?yōu)橐淮涡援a(chǎn)生所有目標端單詞，極大地提升了機器翻譯速度。然而，隨著順序依賴關系的打破，非自回歸模型的翻譯準確率卻遠遠不及自回歸機器翻譯模型；同時，漏翻譯和重復翻譯也將翻譯質(zhì)量大打折扣。微軟亞洲研究院分別通過以下兩篇論文提出了針對上述兩個問題的解決方法。

代表論文：Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

論文鏈接：https://arxiv.org/abs/1812.09664

在該論文中，研究員提出了兩種方法來提升解碼器的輸入質(zhì)量，減少翻譯精度的損失。如下圖所示：第一種方法（Phrase-Table Lookup）直接利用詞表將源語言查表翻譯成目標語言并輸入到解碼器，第二種方法（Embedding Mapping）通過詞級別的對抗學習以及句子級別的對齊信息，將源語言的詞向量對齊到目標語言的詞向量，作為解碼器的輸入。

通過在 WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En 一共 4 個翻譯語言上的實驗，相比基線模型（NART），這種方法達到了 3~5 個 BLEU 分的提升，相比先前最好的工作（IR-NAT）有 1~5 個 BLEU 分的提升。

該模型翻譯精度更加接近 AT 模型，在 WMT16 En-Ro 數(shù)據(jù)集上，相比 AT 模型（Transformer）僅有 1 個 BLEU 分的差距。在翻譯速度方面，相比 AT 模型（Transformer）最高有 25 倍的翻譯速度提升；相比 NAT 模型（LT、NART、IR-NAT）也有速度上的提升。

同時這兩種方法各有優(yōu)勢，Phrase-Table Lookup 在數(shù)據(jù)質(zhì)量比較好的 WMT14 De-En 以及 IWSLT De-En 數(shù)據(jù)集上優(yōu)勢明顯，因為能基于訓練集得到高質(zhì)量的詞典，而在 WMT14 En-De 以及 WMT16 En-Ro 上，得到的詞典質(zhì)量較差，因此 Embedding Mapping 更能顯現(xiàn)出優(yōu)勢。

代表論文：Non-Autoregressive Machine Translation with Auxiliary Regularization

論文鏈接：https://taoqin.github.io/papers/nat.reg.AAAI2019.pdf

對于非自回歸模型的重復翻譯和漏翻譯的問題，該論文提出了基于輔助約束（Auxiliary Regularization）的非自回歸翻譯模型，如下圖。

重復翻譯的產(chǎn)生代表解碼器端相鄰位置的隱層表示（Hidden Representation）有著極大的相似性，從而解碼產(chǎn)生同樣的翻譯單詞。為此，研究員提出了相似性約束（Similarity Regularization）來限制兩個相鄰位置的隱層表示向量之間的關系：

其中 s_cos 代表兩個向量之間的余弦距離。H_t 代表解碼器第 t 個位置的隱層狀態(tài)向量，y_t 代表第 t 個位置的目標單詞的單詞嵌入（embedding）向量。L_sim 的意義在于，如果相鄰兩個位置（t 和 t+1）的目標單詞語義接近（s_cos?很大），那么 h_t 和 h_(t+1) 也應該很接近，反之亦然。

對于漏翻譯，可以重建約束（Reconstruction Regularization），在非自回歸模型的頂部添加一個反方向的自回歸翻譯模型，進而要求解碼器的隱層向量在該反方向的模型中重建源端句子。通過這一約束，強制要求非自回歸模型的翻譯含有所有信息以克服漏翻譯的問題。

通過在多個數(shù)據(jù)集上與各個基線算法進行了性能的對比，包括對于翻譯質(zhì)量和翻譯速度的衡量。NAT-REG 算法不僅具有良好的性能，在翻譯速度（上圖最后兩列）也有了顯著的提升。通過這兩項約束項，非自回歸機器翻譯模型的重復翻譯和漏翻譯的現(xiàn)象得到了極大的緩解。

深度神經(jīng)網(wǎng)絡模型的泛化及對泛化誤差的刻畫

在機器學習領域，理解深度神經(jīng)網(wǎng)絡模型的泛化性質(zhì)以及刻畫其泛化誤差是一個熱點，論文 “Capacity Control of ReLU Neural Networks by Basis-path Norm” 論述了這一理論研究。

代表論文：Capacity Control of ReLU Neural Networks by Basis-path Norm

論文鏈接：https://arxiv.org/abs/1809.07122

ReLU 神經(jīng)網(wǎng)絡具有正伸縮不變性，即一個隱節(jié)點的所有入邊乘以一個正常數(shù) c, 同時所有出邊除以一個正常數(shù) c, ReLU 神經(jīng)網(wǎng)絡的輸出值不變。因此，一個恰當?shù)呐c神經(jīng)網(wǎng)絡泛化性質(zhì)有關的度量，應該也具有正伸縮不變性。基于 ReLU 神經(jīng)網(wǎng)絡的路徑的度量也滿足該性質(zhì)。

對于神經(jīng)網(wǎng)絡的路徑（path），將 ReLU 神經(jīng)網(wǎng)絡看做一個有向無環(huán)圖，一條路徑 p 即為輸入節(jié)點至輸出節(jié)點的一條通路，路徑的值 v(p) 被定義為其所經(jīng)過的參數(shù)的乘積。那么 ReLU 神經(jīng)網(wǎng)絡的第 k 維輸出可以表示為：

其中 P_(i→k) 表示連接第 i 個輸入節(jié)以及第 k 個輸出節(jié)點的所有路徑的集合；a(p;x) 取值為 1 或 0，分別代表該路徑的值在經(jīng)過多層激活函數(shù)作用后是否流入輸出。

路徑 p_(i,j) 的值等于 w_(1,i)?w_(2,j), 那么路徑之間相互關聯(lián)，例如 v(p_(2,2) )=(v(p_(1,2) )?v(p_(2,1) ))/v(p_(1,1) ) 。

Path-norm 被定義為所有路徑值的 L2 - 范數(shù)，其被證明與 ReLU 神經(jīng)網(wǎng)絡的泛化能力緊密相關。然而，神經(jīng)網(wǎng)絡所有路徑值是相關聯(lián)的（如上圖），這會使得當 Path-norm 作為約束加入優(yōu)化算法中時，無法求解出閉式的更新法則。有工作通過研究路徑值之間的關系，在所有路徑值中找到了一組互不相關的路徑，稱為基路徑，并且其余路徑均可通過基路徑的值進行計算。

這一論文提出了一個基于基路徑的度量。首先，基路徑可以分為兩類，一類的值在表達非基路徑時出現(xiàn)在分子，第二類的值在表達非基路徑時出現(xiàn)在分母。于是，出現(xiàn)在分母的基路徑值不能過大或過小。因此，限制前者的值靠近 0，后者的值靠近 1，受此啟發(fā)，研究員提出了一個僅基于基路徑的度量：BP-norm。

定義 1: (BP-norm) 對于任意的路徑值向量

BP-norm 定義如下：

其中

根據(jù) BP-norm, 可得如下泛化誤差的上界。

定理 1: 至少以概率 1-δ, 泛化誤差 (測試誤差 – 訓練誤差) of hypothesis space F can be upper bounded as

其中 Φ(u;d,H,L)=(e^2u+d?u^2) (1+H?u^2?e^2u)^(L-2) (4H)^L, d 表示輸入維度, H 表示網(wǎng)絡的寬度, L 表示網(wǎng)絡的深度。

將 BP-norm 作為正則項加入損失函數(shù)，并用 SGD 和 G-SGD 來優(yōu)化 BP 正則損失函數(shù)。下表展示了算法在圖像分類任務上的訓練誤差、測試誤差和泛化誤差，其中Δ反映了泛化誤差的大小。結果表明 BP 正則算法可以有效地降低模型復雜度，從而取得更小的泛化誤差。

自然語言處理

AI 也可以自動發(fā)彈幕了

彈幕，已經(jīng)成為人們看視頻的一種習慣；不同用戶之間的彈幕往往會形成上下文回復關系，更讓彈幕成為一種新的社交模式?；谶@一現(xiàn)象，微軟亞洲研究院設計了一款名為 LiveBot 的自動彈幕生成系統(tǒng)。在這一系統(tǒng)中需要克服兩個難點：一是要充分理解視頻內(nèi)容，根據(jù)其他用戶的評論彈幕生成適當?shù)膬?nèi)容；二是要在合適的時間點顯示在對應的視頻幀之上。

代表論文：LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

論文鏈接：http://export.arxiv.org/pdf/1809.04938

該論文論述了兩種深度神經(jīng)網(wǎng)絡模型，基于視頻和文本的上下文信息來生成彈幕，并構建了一個包含 2,361 個視頻和 895,929 條彈幕的大規(guī)模訓練數(shù)據(jù)集來驗證模型的有效性。

實驗結果表明，LiveBot 能夠準確地學習到真實用戶在觀看視頻時進行彈幕評論的行為特點，有效地進行了視頻內(nèi)容的理解和用戶評論的交互，同時在客觀評價指標上也取得優(yōu)異的成績。

無監(jiān)督機器翻譯的最新性能提升

最近一年，無監(jiān)督機器翻譯逐漸成為機器翻譯界的一個研究熱點。在無監(jiān)督場景下，神經(jīng)機器翻譯模型主要通過聯(lián)合訓練（joint training）或交替回譯（iterative back-translation）進行逐步迭代。但是由于缺乏有效的監(jiān)督信號，回譯得到的偽訓練數(shù)據(jù)中會包含大量的噪音，這些噪音在迭代的過程中，會被神經(jīng)機器翻譯模型強大的模式匹配能力放大，從而損害模型最終的翻譯性能。

代表論文：Unsupervised Neural Machine Translation with SMT as Posterior Regularization

論文鏈接：http://export.arxiv.org/pdf/1901.04112

該論文采用了后驗正則（Posterior Regularization）的方式將 SMT（統(tǒng)計機器翻譯）引入到無監(jiān)督 NMT 的訓練過程中，并通過 EM 過程交替優(yōu)化 SMT 和 NMT 模型，使得無監(jiān)督 NMT 迭代過程中的噪音能夠被有效去除，同時 NMT 模型也彌補了 SMT 模型在句子流暢性方面的不足。

該方法的整體結構大致分為兩部分，如上圖所示。左邊是模型初始化，通過單語數(shù)據(jù)訓練出兩種語言（如英語和法語）的詞向量（word embedding），之后通過無監(jiān)督的訓練方法得到 cross-lingual embedding，并通過計算其余弦相似度得到初始的詞到詞的翻譯概率表（word translation table）。這個翻譯概率表連同由單語訓練得到的語言模型（language model）作為初始的 SMT 模型的特性，從而完成了模型初始化。

上圖右邊是方法的主體部分，初始的 SMT 模型翻譯一批單語數(shù)據(jù)，構成的偽數(shù)據(jù)作為初始 NMT 模型的訓練數(shù)據(jù)。在訓練得到初始的 NMT 模型后，將繼續(xù)進行交替回譯（右下，iterative back-translation NMT），并用收斂的 NMT 模型翻譯出一批新的偽數(shù)據(jù)。此時產(chǎn)生的偽數(shù)據(jù)含有大量的噪音，可以通過這批偽數(shù)據(jù)訓練新的 SMT 模型（右上，SMT as PR）。SMT 模型通過構造質(zhì)量更高的基于片段的翻譯概率表（phrase translation table），將偽數(shù)據(jù)中的噪音過濾掉，并通過翻譯新的一批單語數(shù)據(jù)，得到互譯性更好的一批偽數(shù)據(jù)。這一批偽數(shù)據(jù)便可以用于調(diào)整（fine-tune）之前的 NMT 模型，之后 NMT 模型再次進行交替回譯。我們將訓練 NMT 和 SMT 的過程集成在一個 EM 訓練框架中，兩個過程進行交互迭代直到最終收斂。

在英法 (en-fr) 和英德（en-de）語言對上進行的實驗中，這一方法明顯優(yōu)于以前的方法，顯著提高了無監(jiān)督機器翻譯的性能。

新型 TTS：結合了 Tacotron2 和 Transformer 的優(yōu)點

人機交互中有項重要的任務，即文本合成語音（Text to speech，TTS），以達到合成清晰自然且接近真人錄音的音頻。

在過去的幾十年里，基于拼接的模型（concatenative model）和基于參數(shù)的模型（parametric model）是 TTS 領域的兩大主流；然而，兩者都有著非常復雜的流水線，而且挑選有效的聲學特征通常是非常耗時且與語言密切相關的。除此之外，這兩種方法合成的音頻不流暢，而且在韻律和發(fā)音上與真人錄音都有較大的差距。

隨著神經(jīng)網(wǎng)絡的興起，一些端到端（end to end）的 TTS 模型逐漸出現(xiàn)，如 Tacotron 和 Tacotron2，使得合成的音頻質(zhì)量有了非常大的進步，甚至在某些特定的數(shù)據(jù)集上與真人錄音不相上下。這種端到端的 TTS 模型主要有兩部分：編碼器和解碼器。編碼器負責將文本映射到語義空間（semantic space）中，生成一個隱狀態(tài)序列；接著由解碼器（通常是一個基于 RNN 的神經(jīng)網(wǎng)絡）配合注意力機制（attention mechanism）將這個隱狀態(tài)序列解碼成頻譜。

然而，在 RNN 中，每一個隱狀態(tài)的生成都要基于之前所有的隱狀態(tài)以及當前時刻的輸入；因此模型只能串行地進行計算，限制了網(wǎng)絡的并行計算能力，從而降低了運算效率。并且 RNN 難以對距離較遠的兩個輸入建立直接的依賴關系。而最近流行的自關注網(wǎng)絡（Transformer）在訓練中可以實現(xiàn)并行計算，而且有能力在輸入序列的任意兩個 token 之間建立起直接的依賴。

代表論文：Neural Speech Synthesis with Transformer Network

論文鏈接：https://arxiv.org/abs/1809.08895

該論文中結合了 Tacotron2 和 Transformer 的優(yōu)點，提出了新的 TTS 模型：通過使用多頭注意力 (multi-head attention) 機制代替了原本 Tacotron2 中的 RNN 以及編碼器和解碼器之間的 attention。這樣，一方面通過自注意力(self attention) 機制，網(wǎng)絡可以并行計算，從而使訓練效率達到了原來的 4 倍；同時，任意兩個輸入之間可以建立起直接的長距離依賴。另一方面，多頭的注意力機制可以從多個角度對輸入信息進行整合。

如上圖，在 Tacotron2 的基礎上，使用 Transformer 的 encoder 和 decoder 分別代替原有的雙向 RNN 編碼器和雙層 RNN 解碼器；另一方面原始的注意力機制被多頭注意力機制取代從而能更好地對輸入信息進行特征提??；除此之外我們還對其它的網(wǎng)絡結構，如 positional encoding 進行了調(diào)整。在該模型中，由于有自注意力機制的存在，可以更好地建立長距離依賴，從而能對包括韻律在內(nèi)的音頻特征進行更好的建模。

在 MOS 測試（滿分 5 分）中， Tacotron2 和 Transformer TTS model 均能夠得到很接近真實的人聲錄音（即 ground truth）的得分。在 CMOS 測試中（成對比較，得分 [-3,3] 分），我們的方法相比 Tacotron2 能夠得到顯著的性能提升。

另一方面，對比 Transformer TTS model 和 Tacotron2 合成的 mel 譜，可以發(fā)現(xiàn)，在低頻部分二者相近，都表現(xiàn)出了很強的能力；在高頻部分，Transformer TTS model 能更好地還原頻譜的紋理，從而使合成的音頻有更高的質(zhì)量。

基于改寫的復述生成模型更高效

代表論文：Dictionary-Guided Editing Networks for Paraphrase Generation

論文鏈接：https://arxiv.org/pdf/1806.08077.pdf

在自然語言處理中，句子復述應用很廣泛，例如被應用在信息檢索、自動文摘、句子翻譯等任務。句子復述（Paraphrase）是指換一種方式表達原句，同時要與原句意思相同。人在完成句子復述的時候，往往會使用同義詞替換句子中的一些詞語，然后對替換后的句子進行簡單的修改。

以此為出發(fā)點，該論文提出了基于改寫網(wǎng)絡的復述生成模型。復述生成模型首先使用原句進行檢索，得到一組詞語級別的復述對；然后將檢索得到的復述對進行編碼，得到一組固定長度的向量；最后基于改寫網(wǎng)絡完成句子的復述。

上圖所示，復述生成模型建立在序列到序列模型（Seq2Seq）的框架下，進行解碼的過程中，采用了注意力機制（attention mechanism），對檢索得到的復述對進行權重組合，將加權之后的結果用于解碼器。如模型在解碼到 overcome 的時候，會更加側(cè)重于使用（overcome，get rid of）這樣的復述對。通過注意力機制讓模型自己學習如何進行改寫，在哪些地方需要進行替換和調(diào)整。

通過在 MSCOCO 和 Quora 兩個公開數(shù)據(jù)集上實驗，如上圖所示，基于改寫網(wǎng)絡的復述生成模型在 MSCOCO 數(shù)據(jù)集上取得了最好的實驗結果，在 Quora 數(shù)據(jù)集上，在貪婪搜索的條件下取得了最好的結果。

另外，通過分析實驗結果顯示，如上圖，在生成的復述中，機器會基于檢索得到的復述對進行改寫和替換，采用這種方式既保證了復述結果與原句的區(qū)別，同時又不會改變原意。

計算機視覺

MonoGRNet：單張圖像估測物體三維位置

在圖像中，傳統(tǒng)的物體定位或檢測估計二維邊界框，可以框住屬于圖像平面上物體的可見部分。但是，這種檢測結果無法在真實的 3D 世界中提供場景理解的幾何感知，這對很多應用的意義并不大。

代表論文：MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization

論文鏈接：https://arxiv.org/abs/1811.10247

該論文提出了使用 MonoGRNet，從單目 RGB 圖像中通過幾何推斷，在已觀察到的二維投影平面和在未觀察到的深度維度中定位物體非模態(tài)三維邊界框（Amodal Bounding Box, ABBox-3D），即實現(xiàn)了由二維視頻確定物體的三維位置。

MonoGRNet 的主要思想是將 3D 定位問題解耦為幾個漸進式子任務，這些子任務可以使用單目 RGB 數(shù)據(jù)來解決。網(wǎng)絡從感知 2D 圖像平面中的語義開始，然后在 3D 空間中執(zhí)行幾何推理。這里需要克服一個具有挑戰(zhàn)性的問題是，在不計算像素級深度圖的情況下準確估計實例 3D 中心的深度。該論文提出了一種新的個體級深度估計（Instance Depth Estimation, IDE）模塊，該模塊探索深度特征映射的大型感知域以捕獲粗略的實例深度，然后聯(lián)合更高分辨率的早期特征以優(yōu)化 IDE。

為了同時檢索水平和垂直位置，首先要預測 3D 中心的 2D 投影。結合 IDE，然后將投影中心拉伸到真實 3D 空間以獲得最終的 3D 對象位置。所有組件都集成到端到端網(wǎng)絡 MonoGRNet 中，其中有三個 3D 推理分支，如下圖。最后通過聯(lián)合的幾何損失函數(shù)進行優(yōu)化，最大限度地減少 3D 邊界在整體背景下的邊界框的差異。

MonoGRNet 由四個子網(wǎng)絡組成，用于 2D 檢測（棕色），個體深度估計（綠色），3D 位置估計（藍色）和局部角落回歸（黃色）。在檢測到的 2D 邊界框的引導下，網(wǎng)絡首先估計 3D 框中心的深度和 2D 投影以獲得全局 3D 位置，然后在本地環(huán)境中回歸各個角坐標。最終的 3D 邊界框基于估計的 3D 位置和局部角落在全局環(huán)境中以端到端的方式進行優(yōu)化。

根據(jù)對具有挑戰(zhàn)性的 KITTI 數(shù)據(jù)集的實驗表明，該網(wǎng)絡在 3D 物體定位方面優(yōu)于最先進的單眼方法，且推理時間最短。

3D 檢測性能，KITTI 驗證集上的 3D 邊界框的平均精度和每張圖像的推理時間。注意不比較基于 Stereo 的方法 3DOP，列出以供參考。

MVPNet：單張圖像重建物體三維模型

在相同的圖像中，由于形狀、紋理，照明和相機配置的不同，若想從單幅 RGB 圖像重建三維物體，這是一個強不適定的問題。但深度學習模型讓我們重新定義這個任務，即從一個特定的分布生成實際樣本。深度卷積神經(jīng)網(wǎng)絡得益于規(guī)則的表達形式、數(shù)據(jù)采樣密度高、權重共享等等。

三角網(wǎng)格（triangular mesh）是表面（surface）的主要表示形式，但它的不規(guī)則結構不易編碼和解碼；大多數(shù)現(xiàn)存的深網(wǎng)使用三維體素網(wǎng)格（3D volumetric grid），但是稠密采樣計算復雜性高；最近的一些方法提倡無序點云表示，但無序?qū)傩孕枰~外的計算才能為點對點建立一一對應的映射，這各高代價的映射算法，通常會使用較少的點來表示，從而產(chǎn)生稀疏的表面。

代表論文：MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

論文鏈接：https://arxiv.org/abs/1811.09410

為了描繪稠密的表面，該論文引入了一種有效的基于多視圖（multi-view）的表現(xiàn)形式，通過用多個視點可見的稠密點云并集來表示表面，分配視點時覆蓋盡量多的表面。

（a）MVPC 表示。1-VPC 中的每個像素都存儲來自該像素的反投影表面點（x，y，z）及其可見性 v 。存儲的三維點根據(jù)圖像平面上的二維網(wǎng)格進行三角化，此圖顯示網(wǎng)格三角形的法線以指示表面的方向。（b）給定 RGB 圖像，MVPNet 生成一組 1-VPC，它們的聯(lián)合形成了預測的 MVPC。幾何損失函數(shù)用來測量預測和真實的 MVPC。

上圖描繪了多視圖點云（MVPC）。每個點云存儲在嵌入視圖像平面中的二維網(wǎng)格中。單視點云（1-VPC）看起來像深度圖，但每個像素存儲三維坐標和可見性信息，而不是來自該像素的反投影表面點的深度。反投影變換提供了 1-VPC 中具有相等攝像機參數(shù)的點集的一對一映射。同時，該論文從二維網(wǎng)格引入三維點的局部連通性，促使基于這些反投影點形成三角形網(wǎng)格表面。至此，表面重建問題被轉(zhuǎn)化為回歸存儲在 MVPC 中的三維坐標和可見性信息。

通過使用編碼器 - 解碼器網(wǎng)絡作為條件采樣器來生成 MVPC，上圖（b）所示。編碼器提取圖像特征并分別將它們與不同的視點特征組合。解碼器由多個權重共享分支組成，每個分支生成一個視圖相關的點云。所有 1-VPC 的聯(lián)合構成了最終的 MVPC，如下圖。

給定輸入圖像 I，由編碼器和解碼器組成的 MVPNet 對 N 個視點 c _i 的 1-VPC 進行回歸。 N 個特征（z，c_i）被饋送到解碼器的 N 個分支中，其中分支共享權重。

這里提出了一種新穎的幾何損失函數(shù)，如下圖，來衡量真實三維表面與二維平面相比的差異。與先前基于視圖的方法不同，他們間接計算二維投影空間（即圖像平面）中的特征而且忽略了由于從三維到二維的降維而導致的信息損失，這里 MVPC 允許我們在構造的三角形網(wǎng)格上作離散表面變化的積分，即直接計算了三維表面。幾何損失函數(shù)整合了三維體積變化，預測置信度和多視圖一致性，大大提高了三維重建的精確度。

損失函數(shù)（a）1-VPC 的逐點距離（b）準量三維體積差異（c）多視圖一致性

下圖展示了在公共數(shù)據(jù)集 ShapeNet 和真實圖像的結果，可見這個方法可以生成稠密的三維表面。另外，使用兩個學到的特征作線性差值后再用解碼器生成的三維重建模型，MVPNet 學到的特征空間具有較好的表達性和連續(xù)性。

ShapeNet 數(shù)據(jù)集結果比較

真實圖像三維重建結果

學習到的特征線性插值生成的三維重建結果

微軟亞洲研究院全部被接受論文列表如下：

Active Mini-Batch Sampling using Repulsive Point Processes

Balanced Sparsity for Efficient DNN Inference on GPU

Capacity Control of ReLU Neural Networks by Basis-path Norm

Deep Single-View 3D Object Reconstruction with Visual Hull Embedding

Detect or Track: Towards Cost-Effective Video Object Detection/Tracking

Dictionary-Guided Editing Networks for Paraphrase Generation

DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching

Explainable Recommendation Through Attentive Multi-View Learning

FANDA: A Novel Approach to Perform Follow-up Query Analysis

Learning Basis Representation to Refine 3D Human Pose Estimations

Leveraging Web Semantic Knowledgein Word Representation Learning

LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization

MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

Neural Speech Synthesis with Transformer Network

Non-Autoregressive Machine Translation with Auxiliary Regularization

Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

Regularizing Neural Machine Translation byTarget-bidirectional Agreement

Response Generation by Context-aware Prototype Editing

Sentence-wise Smooth Regularization for Sequence to Sequence Learning

Session-based Recommendation with Graph Neural Network

TableSense: Mask R-CNN for Spreadsheet Table Detection

Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder

Trust Region Evolution Strategies

Unsupervised Neural Machine Translation with SMT asPosterior Regularization

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6646

瀏覽量
105171
機器學習

機器學習

+關注

關注
66

文章
8473

瀏覽量
133742
論文

論文

+關注

關注
1

文章
103

瀏覽量
15070

原文標題：AAAI 2019：一文看全微軟亞洲研究院 27 篇重點論文

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

人工智能方向在哪里？看微軟亞洲研究院四任院長的建言

11月14日，李開復、張亞勤、沈向洋、洪小文同時現(xiàn)身中關村丹棱街微軟亞洲研究院，這四個人分別為微軟亞洲

發(fā)表于 11-17 11:01 ?1308次閱讀

中馬研究院正式掛牌成立

`　　12月30日下午，中馬研究院于園區(qū)正式掛牌成立，園區(qū)管委會副主任楊健豪、主任助理曹全來出席并為研究院揭牌，園區(qū)管委會經(jīng)濟發(fā)展局全體成員見證揭牌。　　中馬研究院旨在打造“立足中馬、面向東盟的新型

發(fā)表于 01-07 16:02

中科院海西研究院泉州裝備制造研究所現(xiàn)代電機控制與電力電子實驗室招聘公告

與團隊合作精神；5. 有研發(fā)團隊的管理工作經(jīng)歷優(yōu)先。三、福利待遇參照中科院海西研究院（福建物質(zhì)結構研究所）相應規(guī)定給予薪酬等待遇，年底有項目獎金；符合泉州市及所屬縣（市、區(qū)）相關政

發(fā)表于 06-30 16:27

英特爾研究院與聯(lián)想研究院簽署研究院合作框架協(xié)議

英特爾研究院與聯(lián)想研究院日前在北京簽署了《研究院合作框架協(xié)議》，宣布雙方將在PC及移動互聯(lián)網(wǎng)領域，立足3~5年長遠技術研究，開展協(xié)同創(chuàng)新深度

發(fā)表于 04-13 08:42 ?575次閱讀

微軟將在上海設立微軟亞洲研究院

9月17日，在上海舉辦的2018世界人工智能大會上，微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負責人沈向洋宣布：微軟將成立

發(fā)表于 09-19 14:55 ?6322次閱讀

微軟亞洲研究院被譽為AI黃埔軍校,覆蓋了國內(nèi)高科技領導的半壁江山

如火如荼的人工智能熱潮，眾多AI明星企業(yè)創(chuàng)始人和聯(lián)合創(chuàng)始人從微軟亞洲研究院走出來，物聯(lián)網(wǎng)高級顧問楊劍勇指出，有李開復創(chuàng)辦了創(chuàng)新工場，以及機器視覺獨角獸商湯科技、依圖科技、曠視科技。李開復在朋友圈聲稱

發(fā)表于 11-06 15:16 ?5201次閱讀

ICLR 2019最佳論文日前揭曉微軟與麻省等獲最佳論文獎項

ICLR 2019最佳論文日前揭曉。來自微軟研究院、加拿大蒙特利爾學習算法研究所 (MILA)和來自

發(fā)表于 05-11 09:10 ?2482次閱讀

微軟亞洲研究院＂創(chuàng)新匯＂： AI為數(shù)字化轉(zhuǎn)型注入動能

世界都在進行一場變革式的數(shù)字化轉(zhuǎn)型。數(shù)字化轉(zhuǎn)型不是終點，而是一個旅程。我們將以微軟亞洲研究院的技術優(yōu)勢和人才資源為基礎，與不同行業(yè)、領域的現(xiàn)

發(fā)表于 06-29 12:17 ?620次閱讀

微軟亞洲研究院開發(fā)出了一種超級鳳凰人工智能系統(tǒng)

微軟亞洲研究院（MSR Asia）開發(fā)出麻將人工智能（AI）系統(tǒng)——超級鳳凰（Suphx）。研發(fā)者們相信，它不僅掌握了麻將對弈，還能夠贏得99%的對局，做好了解決實際任務的準備。

發(fā)表于 04-15 11:48 ?1313次閱讀

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

近日，來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學生模型距離的知識蒸餾不同的模型壓縮新方

發(fā)表于 11-24 09:48 ?1766次閱讀

為什么中國移動3個月成立了三個研究院?

三個月成立三個研究院，中國移動這是要干啥？中國移動正在科技創(chuàng)新主力軍的方向加速狂奔。形成了“下羊城大灣區(qū)探海，入杭州人間天堂問鼎、上南京紫金山攬月”的創(chuàng)新集群。在三個月中國移動分布

發(fā)表于 01-28 14:17 ?5401次閱讀

無線及移動網(wǎng)絡領域專家邱鋰力加入微軟亞洲研究院

微軟亞洲研究院宣布，無線及移動網(wǎng)絡領域的國際頂級專家邱鋰力博士正式加入微軟亞洲

發(fā)表于 01-25 10:25 ?1466次閱讀

微軟亞洲研究院把Transformer深度提升到1000層

本周論文包括尤洋團隊FastFold上線，訓練時間從11天壓縮至67小時;微軟亞洲研究院直接把 Transformer 深度提升到 1000 層等研

發(fā)表于 03-24 14:22 ?2272次閱讀

微軟亞洲研究院否認撤離中國，但確認部分 AI 科學家將遷至溫哥華

建立一個新的實驗室，確認將包含微軟在中國的 AI 研究專家到新實驗室當中。同時，MSRA 早前還否認其撤離中國。 MSRA 在一份聲明中表示：“我們正在溫哥華建立一個新的實驗室，與

發(fā)表于 06-20 08:48 ?973次閱讀

科學匠人 | 邊江：在研究院的七年“技癢”，探尋大模型助力AI與產(chǎn)業(yè)融合之道

基礎科研的創(chuàng)新為技術落地應用提供了動力，而來自真實世界的業(yè)務需求則為基礎科研提供了靈感和方向。當人工智能進入大模型時代，什么樣的技術創(chuàng)新才能更好地落地于產(chǎn)業(yè)？對此，微軟亞洲研究院資深首

發(fā)表于 08-04 00:10 ?802次閱讀

搜索歷史

詳細介紹三個領域中來自微軟亞洲研究院的那些硬核論文

評論

人工智能方向在哪里？看微軟亞洲研究院四任院長的建言

中馬研究院正式掛牌成立

中科院海西研究院泉州裝備制造研究所現(xiàn)代電機控制與電力電子實驗室招聘公告

英特爾研究院與聯(lián)想研究院簽署研究院合作框架協(xié)議

微軟將在上海設立微軟亞洲研究院

微軟亞洲研究院被譽為AI黃埔軍校,覆蓋了國內(nèi)高科技領導的半壁江山

ICLR 2019最佳論文日前揭曉微軟與麻省等獲最佳論文獎項

微軟亞洲研究院＂創(chuàng)新匯＂： AI為數(shù)字化轉(zhuǎn)型注入動能

微軟亞洲研究院開發(fā)出了一種超級鳳凰人工智能系統(tǒng)

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

為什么中國移動3個月成立了三個研究院?

無線及移動網(wǎng)絡領域專家邱鋰力加入微軟亞洲研究院

微軟亞洲研究院把Transformer深度提升到1000層

微軟亞洲研究院否認撤離中國，但確認部分 AI 科學家將遷至溫哥華

科學匠人 | 邊江：在研究院的七年“技癢”，探尋大模型助力AI與產(chǎn)業(yè)融合之道

電子發(fā)燒友