榴莲视频APP污成人版,少妇AAA级久久久无码精品片,欧美另类偷自拍视频二区

1 前言

大多數(shù)現(xiàn)有的3D網(wǎng)絡(luò)架構(gòu)通過稠密且規(guī)則的三維體素網(wǎng)格來代替2D像素陣列，并使用3D卷積和池化操作來處理該網(wǎng)格。然而，對于稠密的三維數(shù)據(jù)，計算和內(nèi)存需求隨著分辨率的提高呈三次方增長。因此，現(xiàn)有的3D網(wǎng)絡(luò)僅限于較低的3D分辨率，通常為30的3次方個體素。

2 相關(guān)背景

盡管2D卷積網(wǎng)絡(luò)在從圖像中提取信息方面已被證明是非常成功的，但在處理三維數(shù)據(jù)方面的工作相對較少。我們回顧關(guān)于稠密模型和稀疏模型的現(xiàn)有工作。稠密模型：由于計算和內(nèi)存的限制，稠密模型的常用方法都只能在非常粗的分辨率下處理和生成形狀，通常在30的3次方個體素的數(shù)量級。此外，當(dāng)需要高分辨率的輸出時，例如用于標(biāo)記三維點云時，采用有限的低效滑動窗口技，分辨率的提高降低了網(wǎng)絡(luò)的深度，從而降低了網(wǎng)絡(luò)的表現(xiàn)力。相比之下，所提出的OctNets允許在更高的分辨率下訓(xùn)練深層結(jié)構(gòu)。稀疏模型：只有少數(shù)網(wǎng)絡(luò)架構(gòu)明確地利用了數(shù)據(jù)中的稀疏性。由于這些網(wǎng)絡(luò)不需要窮舉密集卷積，它們具有處理更高分辨率的潛力。部分工作具有減少卷積數(shù)量的潛力，但不會減少所需的內(nèi)存量。因此，他們的工作只考慮最多三層的非常淺的網(wǎng)絡(luò)。

3 方法

為了減少卷積網(wǎng)絡(luò)在稀疏的三維數(shù)據(jù)上的內(nèi)存占用，作者提出了一個自適應(yīng)的空間劃分方案，將計算集中在相關(guān)區(qū)域。由于深度網(wǎng)絡(luò)的數(shù)學(xué)運算，特別是卷積網(wǎng)絡(luò)，在規(guī)則的網(wǎng)格上最容易被理解，作者把注意力限制在三維體素網(wǎng)格的數(shù)據(jù)結(jié)構(gòu)上。在體素網(wǎng)格上最流行的空間劃分結(jié)構(gòu)之一是八叉樹，由于其靈活的分層結(jié)構(gòu)，八叉樹已被廣泛采用。應(yīng)用的領(lǐng)域包括深度融合、圖像渲染和三維重建。在本文中，我們提出了八叉樹形式的三維卷積網(wǎng)絡(luò)，以從高分辨率的三維數(shù)據(jù)中學(xué)習(xí)表征。

3.1 .混合網(wǎng)格-八叉樹數(shù)據(jù)結(jié)構(gòu)

隨著八叉樹深度的增加，其所存在的問題不斷增加。作者使用一種類似于Miller等人提出的混合網(wǎng)格-八叉樹結(jié)構(gòu)來代替單個非平衡八叉樹來表示整個高分辨率3D輸入。作者的核心思想是將一棵八叉樹的最大深度限制在一個很小的數(shù)值，如3層，并將若干個這樣的淺八叉樹沿一個規(guī)則的網(wǎng)格放置。雖然這種數(shù)據(jù)結(jié)構(gòu)可能沒有標(biāo)準(zhǔn)八叉樹那樣的內(nèi)存效率，但仍然可以實現(xiàn)顯著的壓縮比。淺層八叉樹集合的另一個好處是，它們的結(jié)構(gòu)可以使用位串表示進行非常有效的編碼，從而進一步降低訪問時間，并允許高效的GPU實現(xiàn)。通過給定一個深度為3的淺八叉樹，我們用73 bit表示完整的樹。索引為0的第1位表示根節(jié)點是否分裂。進一步，比特1到8表示是否對其中一個子節(jié)點進行了剖分，比特9到72表示孫子節(jié)點的剖分，如圖3所示。樹的深度為3在內(nèi)存消耗和計算效率之間給出了一個很好的折衷。增加八叉樹深度導(dǎo)致存儲樹結(jié)構(gòu)所需的比特數(shù)呈指數(shù)增長，進一步增加了單元遍歷時間。

3.2. 針對網(wǎng)絡(luò)操作

我們現(xiàn)在討論混合網(wǎng)格-八叉樹數(shù)據(jù)結(jié)構(gòu)再網(wǎng)絡(luò)操作上的高效實現(xiàn)。重點介紹卷積網(wǎng)絡(luò)[中最常見的操作：卷積、池化和去池化。卷積卷積操作是深度卷積網(wǎng)絡(luò)中最重要的，同時也是計算開銷最大的操作。對于單個特征圖，將三維張量T與三維卷積核W∈RL × M × N卷積可寫為：

類似地，網(wǎng)格-八叉樹數(shù)據(jù)結(jié)構(gòu)上的卷積定義為：

雖然這個計算結(jié)果與單特征圖的張量卷積與oc2ten、ten2oc包裝器相同，但我們現(xiàn)在能夠定義一個計算上更有效的卷積算子。我們的關(guān)鍵觀察是，對于小的卷積核和大的體素，在體素的小范圍內(nèi)是恒定的，因為它的恒定支持]。因此，我們只需要計算一次體素內(nèi)的卷積，然后沿著體素的表面進行卷積，由于相鄰的體素取值不同，支持度會發(fā)生變化（圖4）。這使83個體素的計算次數(shù)減少了4倍。同時，它還能實現(xiàn)一個更好的緩存機制。

圖4：卷積。該圖說明了33個核（紅色）與83個網(wǎng)格-八叉樹單元（黑色）的卷積。圖中只顯示了三個維度中的兩個。如(a)所示，在網(wǎng)格樹單元內(nèi)的每個位置(i, j, k)都有一個直接的實現(xiàn)，對內(nèi)核進行評估。在這個例子中，這導(dǎo)致了約1萬4千次乘法。相比之下，(b)描述了我們對同一操作的有效實現(xiàn)，只需要約3千次乘法。由于網(wǎng)格-八叉樹單元內(nèi)的所有83個體素都是相同的值，單元內(nèi)的卷積核只需要評估一次。單元邊界的體素需要整合來自相鄰單元的信息。這可以通過截斷內(nèi)核的求和來有效實現(xiàn)。

池化：深度卷積網(wǎng)絡(luò)中另一個重要的操作是池化。池化降低了輸入張量的空間分辨率，聚合更高層次的信息進行進一步處理，從而增加感受野和捕獲上下文。

圖5：池化。在grid-octree結(jié)構(gòu)上的23個池化操作將8個相鄰的淺八叉樹（a）合并為一個淺八叉樹（b）。每個體素的大小被減半并復(fù)制到新的淺八叉樹結(jié)構(gòu)中。最細(xì)分辨率的體素被集中起來。不同的淺層八叉樹用不同的顏色來描述。

例如，卷積步長為 23 最大池化將輸入張量Tin分成23個不重疊的區(qū)域，并計算每個區(qū)域的最大值。形式上，我們有

為了在網(wǎng)格八叉樹數(shù)據(jù)結(jié)構(gòu)上實現(xiàn)池化，我們減少了淺八叉樹的數(shù)量。對于一個具有2D × 2H × 2W淺八叉樹的輸入網(wǎng)格樹Oin，輸出Oout包含D × H × W淺八叉樹。Oin的每個體素的大小減半，并在淺層八叉樹中復(fù)制一個層次。Oin中深度為3的體素被集合起來。這可以被表述為

其中vxd(-)計算淺層八叉樹中索引體素的深度。圖5中描述了一個直觀的例子。

作者為了捕捉精細(xì)的細(xì)節(jié)，體素可以根據(jù)相應(yīng)集合層的原始八叉樹，以最精細(xì)的分辨率再次分割。這使我們能夠充分利用跳躍連接。在作者的語義三維點云標(biāo)簽實驗中，其遵循這種方法。去池化對于語義分割等多個任務(wù)，期望的網(wǎng)絡(luò)輸出與網(wǎng)絡(luò)輸入大小相同。雖然池化對于增加網(wǎng)絡(luò)的感受野大小和捕獲上下文至關(guān)重要，但它會損失空間分辨率。為了提高網(wǎng)絡(luò)的分辨率，U型網(wǎng)絡(luò)架構(gòu)已經(jīng)成為流行的，其使用池化操作編碼信息，并在解碼器部分使用去池化或反卷積層提高分辨率[ 51 ]，可能與跳躍連接（skip-connections）[ 9、19]結(jié)合以提高精度。最簡單的去池化策略使用最近鄰插值，可以在稠密輸入T in∈RD × H × W和輸出T out∈R2D × 2H × 2W張量上進行如下形式化：

同樣，我們可以在混合網(wǎng)格-八叉樹數(shù)據(jù)結(jié)構(gòu)上定義類似的操作，即

這個操作也改變了數(shù)據(jù)結(jié)構(gòu)：淺層八叉樹的數(shù)量增加了8倍，因為每個深度為0的節(jié)點會產(chǎn)生一個新的淺層八叉樹。所有其他節(jié)點的大小都增加了一倍。因此，在這個操作之后，樹的深度減少了。這個操作的直觀例子見圖6。備注：為了捕捉精細(xì)的細(xì)節(jié)，體素可以根據(jù)相應(yīng)集合層的原始八叉樹，以最精細(xì)的分辨率再次分割。這使我們能夠充分利用跳過的連接。在我們的語義三維點云標(biāo)簽實驗中，我們遵循這種方法。

4 .實驗評估

在本節(jié)中，作者利用OctNet來研究輸入分辨率對三種不同3D任務(wù)的影響：3D形狀分類、3D方向估計和3D點云語義分割。為了將分辨率的影響從其他因素中分離出來，作者考慮較為簡單的網(wǎng)絡(luò)結(jié)構(gòu)。數(shù)據(jù)增強、2D / 3D聯(lián)合建?；蚣蓪W(xué)習(xí)等正交技術(shù)可能會進一步提高模型的性能。

4.1. 3D Classification

作者使用流行的ModelNet10數(shù)據(jù)集進行3D形狀分類任務(wù)。該數(shù)據(jù)集包含10個形狀類別，包括用于訓(xùn)練的3991個3D形狀和用于測試的908個3D形狀。每個形狀被提供為一個三角形網(wǎng)格，以規(guī)范的姿態(tài)定向。作者將三角形網(wǎng)格轉(zhuǎn)換為稠密的各自的網(wǎng)格-八叉樹占用網(wǎng)格，其中一個體素如果與網(wǎng)格相交則設(shè)置為1。我們對每個網(wǎng)格進行縮放以擬合成一個( N-P)3體素的3D網(wǎng)格，其中N是輸入網(wǎng)格中每個維度的體素數(shù)，P = 2是填充參數(shù)。我們首先研究了輸入分辨率對內(nèi)存占用、運行時間和分類精度的影響。為了實現(xiàn)這個目標(biāo)，作者創(chuàng)建了一系列從83到2563個體素的不同輸入分辨率的網(wǎng)絡(luò)。作者考慮了三種不同類型的網(wǎng)絡(luò)：馬圖拉納等人[ 30 ]的原始VoxNet架構(gòu)，它運行在固定的323個體素網(wǎng)格上，OctNet和它的稠密版本，我們在下文中表示為" DenseNet "。雖然可以通過使用正交方法如網(wǎng)絡(luò)集成[ 5 ]或3D和2D卷積網(wǎng)絡(luò)[ 20 , 42]的組合來獲得性能增益，但在本文中，作者特意關(guān)注"純" 3D卷積網(wǎng)絡(luò)方法，以將分辨率的影響與其他影響因素隔離開來。

圖7 展示了結(jié)果。首先，我們比較了我們的Oct Net 的內(nèi)存消耗和運行時間，如圖7a和7b所示。重要的是，與密集輸入網(wǎng)格相比，OctNets需要更少的內(nèi)存和運行時間來實現(xiàn)高輸入分辨率。

作者注意到，盡管OctNet具有池化表示，但它的性能與它的稠密等價類相當(dāng)。稀疏數(shù)據(jù)允許自適應(yīng)地分配資源而不會損失性能。此外，兩個模型都優(yōu)于較淺的VoxNet架構(gòu)，表明了網(wǎng)絡(luò)深度的重要性。關(guān)于分類精度，我們觀察到低分辨率的改善，但超過323個體素的輸入分辨率的回報遞減。較高的輸入分辨率有助于某些類別，如浴缸，而其他類別則與分辨率無關(guān)，如梳妝臺v。我們通過從ModelNet10數(shù)據(jù)庫中顯示三維形狀的體素化表示來可視化這種缺乏辨別力的情況，如圖8所示。雖然浴缸在低分辨率下看起來與床(或沙發(fā)、桌子)相似，但在更高分辨率下可以成功區(qū)分。

4.2. 3D Orientation Estimation

在本節(jié)中，我們研究了輸入分辨率對三維方向估計的重要性。大多數(shù)現(xiàn)有的三維姿態(tài)估計方法都假設(shè)物體實例的真實三維形狀是已知的。為了評估3D卷積網(wǎng)絡(luò)的泛化能力，我們考慮了一種只知道物體類別的略有不同的設(shè)置。在單個類別的3D形狀的保留集合上訓(xùn)練模型后，我們測試了模型對來自同一類別的未知3D形狀的3D方向的預(yù)測能力。圖10展示了作者得到的結(jié)果。可以觀察到，與分類任務(wù)相比，精細(xì)細(xì)節(jié)對于位姿的估計更為重要。對于OctNet 1 - 3架構(gòu)，我們觀察到性能的穩(wěn)步增加，而對于跨分辨率容量恒定的網(wǎng)絡(luò)(圖10b )，性能水平超過1283體素輸入分辨率。后一實驗的定性結(jié)果如圖11所示。每一行顯示了在幾個輸入分辨率上對兩個隨機選擇的椅子實例的10個不同的預(yù)測，范圍從163到1283。較暗的顏色表示較大的誤差，這些誤差在較低分辨率下出現(xiàn)的頻率更高。相比之下，較高網(wǎng)絡(luò)分辨率下的預(yù)測集中在真實姿態(tài)附近。

在Modelnet10上進行朝向估計。圖中顯示了輸入分辨率從163到1283變化時，3個椅子實例的10個旋轉(zhuǎn)估計值。較暗的顏色表示與真實值有較大的偏差。

4.3. 3D Semantic Segmentation

對于該任務(wù)，我們在643、1283和2563三種不同的輸入分辨率上訓(xùn)練了一個U型網(wǎng)絡(luò)，其中體素大小被選擇使得所有建筑物的高度都與輸入體積相符合。我們首先將點云映射為網(wǎng)格-八叉樹結(jié)構(gòu)。對于所有包含一個點以上的葉子節(jié)點，我們對輸入特征進行平均，并計算地面真值標(biāo)簽的多數(shù)投票進行訓(xùn)練。作為特征，我們使用了二進制體素占有率、RGB顏色、法向量和地面高度。由于訓(xùn)練樣本數(shù)量較少，我們通過施加小幅度的旋轉(zhuǎn)來增加該任務(wù)的數(shù)據(jù)。圖12，作者的結(jié)果清表明，提高輸入分辨率對于獲得最先進的結(jié)果是必不可少的，因為在較粗的分辨率下，更精細(xì)的細(xì)節(jié)會消失。

5 總結(jié)

該作者所提出的OctNet，作為一種新穎的三維表示和數(shù)據(jù)結(jié)構(gòu)表達，使得高分辨率輸入的深度學(xué)習(xí)變得容易。作者提供了一種實現(xiàn)高分辨率輸入的方式，這對物體分類、姿態(tài)估計和語義分割等多個3D學(xué)習(xí)任務(wù)做出了一定的貢獻。隨著對象數(shù)據(jù)集從低分辨率向高分辨率大規(guī)模三維數(shù)據(jù)地轉(zhuǎn)變，OctNet將能夠?qū)崿F(xiàn)進一步的改進，其為未來的研究的提供了一個高效處理高分辨率體素化數(shù)據(jù)的途徑。

審核編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴