編者按:Sentiance首席數(shù)據(jù)科學(xué)家Vincent Spruyt介紹了如何基于CNN和三重?fù)p失函數(shù),學(xué)習(xí)位置嵌入。
在Sentiance,我們開(kāi)發(fā)了一個(gè)平臺(tái),從智能手機(jī)感知數(shù)據(jù)(加速度傳感器、陀螺儀、位置信息等)中提取行為學(xué)的洞見(jiàn)。我們的AI平臺(tái)學(xué)習(xí)用戶模式,能夠據(jù)此預(yù)測(cè)和解釋事件何時(shí)、為何發(fā)生,讓我們的客戶能夠更好地輔助其用戶,在合適的時(shí)間,以合適的方式接觸用戶。
這一平臺(tái)的一個(gè)重要組件是地點(diǎn)映射算法。地點(diǎn)映射的目標(biāo)是根據(jù)位置測(cè)量得出當(dāng)前訪問(wèn)的地點(diǎn),位置測(cè)量來(lái)自智能手機(jī)的位置子系統(tǒng),經(jīng)常不夠精確。
左:估計(jì)用戶實(shí)際訪問(wèn)的相鄰地點(diǎn);右:快速丟棄可能性不大的地點(diǎn),例如海灘上的救生站
盡管地點(diǎn)映射本身就是一個(gè)困難的問(wèn)題,足以專門(mén)寫(xiě)一篇博客,人類的直覺(jué)能在很大程度上幫助解決這一問(wèn)題??紤]上圖中訪問(wèn)圣莫尼卡海灘的例子。稍微一瞥周邊地點(diǎn),就能得出結(jié)論,用戶真去訪問(wèn)一個(gè)救生站的幾率大概非常小。
事實(shí)上,僅僅只是查看某一區(qū)域的地圖,人類常常能夠快速丟棄可能性不大的地點(diǎn),并形成關(guān)于實(shí)際發(fā)生的情況的先驗(yàn)信念。地點(diǎn)在工業(yè)區(qū),公園,海灘旁,市中心,公路旁?
為了在我們的地點(diǎn)映射算法中加入類似的直覺(jué),我們開(kāi)發(fā)了一個(gè)基于深度學(xué)習(xí)的方案,經(jīng)訓(xùn)練后可以編碼地理空間關(guān)系和語(yǔ)義相似性,描述位置的周邊。
編碼器輸出的嵌入捕捉了輸入位置的高層語(yǔ)義
編碼器轉(zhuǎn)換位置為分布表示,類似用于自然語(yǔ)言的Word2Vec。這些嵌入位于一個(gè)度量空間之中,因而遵循代數(shù)規(guī)則。以詞嵌入為例,我們可以推斷單詞相似性,甚至直接在嵌入空間中進(jìn)行算術(shù)運(yùn)算,例如“國(guó)王 - 男人 + 女人 = 王后”。
接下來(lái)我們將討論,如何設(shè)計(jì)一個(gè)方案,將位置坐標(biāo)映射至讓我們可以進(jìn)行類似操作的度量空間。
圖塊生成
柵格化GIS數(shù)據(jù)
給定位置的坐標(biāo)和半徑,我們可以查詢GIS數(shù)據(jù)庫(kù)獲取大量地理信息。我們的GIS數(shù)據(jù)庫(kù)是OpenStreetMap的本地拷貝,存儲(chǔ)在PostGis數(shù)據(jù)庫(kù)中。PostGis是PostgreSQL的一個(gè)方便的擴(kuò)展,增加了空間操作、類型、索引支持。
例如,使用一組查詢語(yǔ)句,我們很容易就可以檢查位置附近是否有河流,到最近的火車(chē)站有多遠(yuǎn),位置是否靠近馬路。此外,道路本身可以作為多段線獲取,而火車(chē)站建筑的輪廓也許能以多邊形對(duì)象的形式提供。
然而,神經(jīng)網(wǎng)絡(luò)難以高效地處理這些未結(jié)構(gòu)化的大量數(shù)據(jù)??紤]到我們的目標(biāo)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)理解形狀和空間關(guān)系,例如距離、包含、封閉、除外,我們決定柵格化位置周邊,得到固定尺寸的圖像,再傳入編碼器。
幸運(yùn)的是,這些有很高效的現(xiàn)成工具。我們使用了Mapnik的Python接口,搭配定制的OpenStreetmap-Carto風(fēng)格頁(yè),得到了一個(gè)高速的柵格化工具,如下圖所示。
我們的柵格化服務(wù)可以通過(guò)參數(shù)方便地進(jìn)行數(shù)據(jù)增強(qiáng),也就是在生成圖塊前旋轉(zhuǎn)、平移地圖,如下圖所示。
這些圖塊均表示同一位置,但朝向、偏移量不同
從圖像到張量
盡管這些柵格化圖塊讓編碼器可以很容易地學(xué)習(xí)捕捉空間結(jié)構(gòu)和關(guān)系,卻有大量信息在柵格化的過(guò)程中丟失了。實(shí)際上,柵格化合并了所有多邊形和多段線,例如道路、建筑、停車(chē)場(chǎng)輪廓、河流,等等。由于GIS數(shù)據(jù)庫(kù)包含這些結(jié)構(gòu)的單獨(dú)信息,讓神經(jīng)網(wǎng)絡(luò)編碼器學(xué)習(xí)如何分割這些結(jié)構(gòu)毫無(wú)道理。
因此,我們并沒(méi)有將數(shù)據(jù)柵格化為三通道RGB圖像(如上面的示意圖所示)。相反,我們修改了柵格化工具,生成一個(gè)12通道的張量,每個(gè)通道包含不同類型的柵格化信息。
為了便于可視化,本文剩下的部分常常使用RGB柵格化圖塊,實(shí)際上它代表12通道張量。
表示學(xué)習(xí)
空間相似性
我們的目標(biāo)是學(xué)習(xí)一個(gè)度量空間,其中語(yǔ)義相似的圖塊對(duì)應(yīng)相近的嵌入向量。那么,問(wèn)題在于如何定義“語(yǔ)義相似”?
一個(gè)樸素的方法是將每個(gè)圖塊表示為直方圖,然后應(yīng)用k-均值聚類,接著使用詞袋模型建??臻g。然而,我們不清楚各個(gè)通道應(yīng)該分配多少權(quán)重。例如,如果道路相似,但建筑不相似,那么這兩個(gè)圖塊仍然算語(yǔ)義相似嗎?
此外,即使兩個(gè)圖塊有相似的直方圖,也不能給我們提供位置周邊的空間結(jié)構(gòu)信息。如果圖塊的一半被大海覆蓋,那么這個(gè)圖塊和另一個(gè)包含大量小池塘、噴水池的圖塊在語(yǔ)義上相似嗎?下圖中的兩個(gè)圖塊會(huì)產(chǎn)生幾乎一模一樣的直方圖:
然而,這兩個(gè)圖塊在語(yǔ)義上并不相同。第一個(gè)圖塊覆蓋的是相互連接的道路,第二個(gè)圖塊覆蓋的是一些小路,這些小路可能通向人們的住所。事實(shí)上,在我們的嵌入空間中,這兩個(gè)圖塊對(duì)應(yīng)的嵌入之間的歐幾里得距離可不小(||p1-p2||2=2.3),盡管兩者的直方圖的卡方距離接近零。
除了使用直方圖,每個(gè)通道也可以總結(jié)為一組特征,例如方向梯度的直方圖,或者更傳統(tǒng)的SIFT或SURF。然而,我們并不打算手工指定哪些特征定義了語(yǔ)義相似性,相反,我們決定借助深度學(xué)習(xí)的力量,學(xué)習(xí)自動(dòng)檢測(cè)有意義的特征。
為了達(dá)成這一點(diǎn),我們將12通道張量傳入作為編碼器的卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)以自監(jiān)督的方式基于三重?fù)p失函數(shù)訓(xùn)練,這意味著無(wú)需手工標(biāo)記的訓(xùn)練數(shù)據(jù)。
自監(jiān)督學(xué)習(xí):三重網(wǎng)絡(luò)
Ailon等提出的三重?fù)p失這一概念,借鑒自孿生網(wǎng)絡(luò)架構(gòu),可以基于無(wú)監(jiān)督特征學(xué)習(xí)進(jìn)行深度度量學(xué)習(xí)。
三重網(wǎng)絡(luò)是一個(gè)基于三元組(x, x+, x-)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu):
錨實(shí)例x
和x語(yǔ)義相似的正例x+
和x語(yǔ)義相異的反例x-
接著訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)滿足下式的嵌入函數(shù)f(.):
從而直接優(yōu)化度量空間,如下圖所示:
Google的FaceNet讓基于三重網(wǎng)絡(luò)的度量學(xué)習(xí)變得更流行了,F(xiàn)aceNet使用三重?fù)p失學(xué)習(xí)類似面孔接近、不同面孔疏遠(yuǎn)的面部圖像嵌入空間。
對(duì)面部識(shí)別而言,正例圖像是和錨圖像屬于同一人的圖像,而反例圖像是從mini batch中隨機(jī)選擇的人的圖像。然而,我們的例子沒(méi)有這么容易選取正例、反例的分類。
為了定義位置的語(yǔ)義相似性,我們可以利用Tobler的地理第一定律:“所有位置之間都有關(guān)系,但近處的關(guān)系比遠(yuǎn)處的關(guān)系密切。”
令I(lǐng)(.)為位置坐標(biāo)到柵格化圖塊的映射,給定變換T(.),該變換在生成位置X的柵格化圖塊前先旋轉(zhuǎn)、平移地圖,然后給定一個(gè)隨機(jī)位置Y,滿足X ≠ Y,那么我們便得到了三元組:
x = I(X)
x+= I(T(X))
x-= I(Y)
因此,我們假定地理上相鄰、部分重疊的兩個(gè)圖塊,相比完全不同的兩個(gè)圖塊,在語(yǔ)義上更相近。
為了避免網(wǎng)絡(luò)僅僅學(xué)習(xí)瑣碎變換,我們?cè)谟?xùn)練過(guò)程中隨機(jī)開(kāi)啟或關(guān)閉正例圖像12個(gè)通道中的部分通道,迫使網(wǎng)絡(luò)在信息的隨機(jī)子集不同(例如,沒(méi)有建筑物,沒(méi)有道路,等等)的情況下,學(xué)習(xí)正例圖塊的相似性。
SoftPN三重?fù)p失函數(shù)
下為我們使用的三重網(wǎng)絡(luò)的一般結(jié)構(gòu)。
上圖中的損失函數(shù)的具體定義如下:
所以優(yōu)化網(wǎng)絡(luò)等價(jià)于最小化向量(d+, d-)和向量(0, 1)的MSE。
下面我們解釋下為什么損失函數(shù)這么定義。我們想要Δ(a,p)盡可能地接近零,Δ(a,n)盡可能大。為了優(yōu)化這一比率,我們應(yīng)用softmax,使兩者位于[0, 1]之間:
三重?fù)p失函數(shù)的這一定義經(jīng)常稱為softmax比率,最早由Ailon等提出。
這一定義的主要問(wèn)題在于,網(wǎng)絡(luò)會(huì)很快學(xué)到一個(gè)d-接近一的嵌入空間,因?yàn)榇蠖鄶?shù)隨機(jī)負(fù)例圖像和瞄圖像大不一樣。因此,大多數(shù)(a,n)對(duì)優(yōu)化過(guò)程中的梯度沒(méi)有貢獻(xiàn),導(dǎo)致網(wǎng)絡(luò)很快停止學(xué)習(xí)。
我們可以使用不同的方法解決這一問(wèn)題,其中之一是難分樣本挖掘,精心選擇(a,n)以確保網(wǎng)絡(luò)可以維持學(xué)習(xí)。然而,在我們的例子中,在不引入偏差的情況下,并不總是清楚如何有效地選取難分樣本。而B(niǎo)alntas等提出的SoftPN三重?fù)p失函數(shù),是一個(gè)更簡(jiǎn)單的方案。
SoftPN損失將上述softmax計(jì)算中的Δ(a,n)替換為min(Δ(a,n), Δ(p,n))。這就使網(wǎng)絡(luò)在優(yōu)化過(guò)程中,試圖學(xué)習(xí)一個(gè)錨嵌入和正例嵌入都盡可能遠(yuǎn)離反例嵌入的度量空間。相反,原本的softmax比率損失只考慮錨嵌入和反例嵌入的距離。
神經(jīng)網(wǎng)絡(luò)架構(gòu)
編碼器部分我們用了相當(dāng)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),包含5個(gè)卷積層,過(guò)濾器大小為3x3,接著是兩個(gè)一維卷積層,一個(gè)密集層。一維卷積通過(guò)跨通道參數(shù)池化起到降維作用。
嵌入層由另一個(gè)密集層加上一個(gè)線性激活函數(shù)構(gòu)成,線性激活函數(shù)使得輸出范圍不限于前一層非線性激活的正值區(qū)域。完整的網(wǎng)絡(luò)架構(gòu)如下圖所示:
我們激進(jìn)地使用dropout和BN,同時(shí)使用了Leaky ReLU激活函數(shù),因?yàn)槲覀冊(cè)趧傞_(kāi)始的測(cè)試中碰到了死亡ReLU問(wèn)題。
此外,我們直接對(duì)輸入應(yīng)用了空間池化,完全丟棄一個(gè)隨機(jī)選擇的通道,迫使網(wǎng)絡(luò)通過(guò)關(guān)注不同的通道學(xué)習(xí)區(qū)分圖像。
整個(gè)網(wǎng)絡(luò)基于Keras實(shí)現(xiàn),僅包含305040參數(shù),使用Adam優(yōu)化在p3.2x large AWS主機(jī)上訓(xùn)練了兩周。
訓(xùn)練數(shù)據(jù)
我們獲取了用戶在我們平臺(tái)上訪問(wèn)的約一百萬(wàn)位置,并增加了用戶沿途拍攝的接近五十萬(wàn)位置。
我們將這一百五十萬(wàn)位置中的每個(gè)位置柵格化為128×128×12的圖塊,表示該位置方圓一百米內(nèi)的區(qū)域。這些張量用作錨圖像。
我們同時(shí)為每個(gè)位置柵格化20張隨機(jī)平移、旋轉(zhuǎn)的圖塊,用作正例圖像。橫縱兩方向的偏移均勻取樣自0到80米的區(qū)間。最終,每個(gè)位置得到了20對(duì)(錨,正例),共計(jì)三百萬(wàn)張圖像。
網(wǎng)絡(luò)訓(xùn)練生成mini batch時(shí)同時(shí)生成三元組。每個(gè)mini batch包含20個(gè)位置。每個(gè)位置隨機(jī)選擇5對(duì)(錨, 正例),而反例圖像則隨機(jī)取樣自mini batch,這樣每個(gè)mini batch大小總共為100。
在生成mini batch的同時(shí)生成三元組,實(shí)際上我們得到了一個(gè)幾乎無(wú)限大的包含獨(dú)特的三元組的數(shù)據(jù)集,鼓勵(lì)網(wǎng)絡(luò)在許多epoch后持續(xù)學(xué)習(xí)。
可視化過(guò)濾器和激活函數(shù)
由于嵌入空間是以自監(jiān)督的方式學(xué)習(xí)的,沒(méi)有使用標(biāo)注數(shù)據(jù),所以難以監(jiān)測(cè)網(wǎng)絡(luò)是否真的在訓(xùn)練中學(xué)到了東西。
可視化網(wǎng)絡(luò)學(xué)習(xí)到的過(guò)濾器是一個(gè)不全面但仍然很有用的檢查方法。事實(shí)上,我們想要可視化可以最大化網(wǎng)絡(luò)不同層的激活的輸入圖像。
為了做到這一點(diǎn),我們可以從一個(gè)隨機(jī)生成的圖像開(kāi)始,將每個(gè)像素看成需要優(yōu)化的一個(gè)參數(shù)。接著我們使用最大化選定層輸出的梯度上升更新圖像的參數(shù)。
計(jì)算輸入圖像在卷積層輸出激活的均值上的梯度,基于若干次迭代進(jìn)行的梯度上升,能夠生成高亮網(wǎng)絡(luò)層最關(guān)注的結(jié)構(gòu)的圖像。
因?yàn)槲覀兊妮斎胧且粋€(gè)12通道張量,而不是RGB圖像,所以我們直接從12個(gè)通道中選擇了像素值均值最大的3個(gè)通道,將其轉(zhuǎn)為RGB圖像。我們?cè)诿總€(gè)通道上應(yīng)用了直方圖均衡化,以進(jìn)一步增強(qiáng)視覺(jué)細(xì)節(jié)。
下圖顯示了位于底部的一個(gè)網(wǎng)絡(luò)層的每個(gè)32過(guò)濾器。顯然,這一層看起來(lái)更關(guān)注底層細(xì)節(jié)(道路、小塊結(jié)構(gòu)等)。
對(duì)比位于上部的一個(gè)網(wǎng)絡(luò)層的64過(guò)濾器,很明顯,這些過(guò)濾器更容易被更平滑、更復(fù)雜的結(jié)構(gòu)激活。這一對(duì)比也許意味著整個(gè)網(wǎng)絡(luò)能夠?qū)W習(xí)輸入的層級(jí)特征分解。
高層傾向于通過(guò)組合低層學(xué)習(xí)到的低層特征學(xué)習(xí)更復(fù)雜的結(jié)構(gòu)
盡管我們不應(yīng)該過(guò)高估計(jì)這些可視化的有用程度,但它們確實(shí)看起來(lái)很有意思,特別是在多次研究迭代之間。例如,早期版本的可視化快速地指引了正確方向,發(fā)現(xiàn)了我們網(wǎng)絡(luò)中的一堆死亡ReLU。我們后來(lái)通過(guò)替換激活函數(shù)為L(zhǎng)eaky ReLU解決了這一問(wèn)題。
探索度量空間
可視化嵌入
可視化網(wǎng)絡(luò)學(xué)習(xí)到的過(guò)濾器主要用于調(diào)試,但在判斷學(xué)習(xí)到的嵌入空間的質(zhì)量方面沒(méi)有多大幫助。
為了大致了解嵌入空間看起來(lái)什么樣,我們使用PCA將維度降至三維后,可視化了嵌入空間。為便于解釋,每個(gè)位置嵌入可視化為相應(yīng)的柵格化圖塊。
顯然,即便只留下三個(gè)主成分,這三個(gè)分量仍然捕捉了大量有意思的信息。公園等綠化區(qū)域、道路區(qū)域、(右下角的)城市中心區(qū)域區(qū)別非常明顯。
下圖是一個(gè)嵌入空間的三維t-SNE動(dòng)畫(huà),更清楚地顯示了這些局部結(jié)構(gòu)的差異。
這些嵌入不僅可以用于地點(diǎn)映射,還可以用在我們的交通路線分類器中。下圖顯示了取自我們的交通路線分類訓(xùn)練集的位置嵌入的散點(diǎn)圖。這里,我們使用線性判別分析(LDA)將16維嵌入空間映射至二維。
上圖顯示,不同的交通方式一般發(fā)生在不同的區(qū)域。例如,我們的嵌入捕捉了關(guān)于鐵軌和電車(chē)站的信息。
為了顯示不同的地理區(qū)域是如何編碼的,我們使用PCA將16維嵌入降至三維,縮放后直接作為RGB顏色值使用,以便在地圖上繪制測(cè)試數(shù)據(jù)集。下圖可視化了倫敦區(qū)域,清楚地體現(xiàn)了市中心、公路、水域、旅游區(qū)域、住宅區(qū)的編碼各不相同。
通過(guò)可視化伯明翰區(qū)域,可以揭示,與充斥大量建筑的倫敦相比,伯明翰有一個(gè)更大的郊區(qū)。
空間內(nèi)的隨機(jī)行走
我們可以通過(guò)隨機(jī)行走進(jìn)一步檢驗(yàn)嵌入空間的平滑性。隨機(jī)行走從一個(gè)隨機(jī)的種子點(diǎn)開(kāi)始,每次跳躍隨機(jī)選擇當(dāng)前嵌入的k近鄰中的一個(gè),然后可視化相應(yīng)的圖塊。
下圖顯示了6次隨機(jī)行走的結(jié)果。注意,大多數(shù)情況下,嵌入空間的最近鄰在地理上相距數(shù)百千米、數(shù)千千米,但在語(yǔ)義上高度相似。
位置計(jì)算
盡管上面的可視化表明學(xué)習(xí)到的嵌入空間是平滑的,也捕捉到了語(yǔ)義相似性,但并不能證明我們確實(shí)學(xué)到了一個(gè)歐幾里得度量空間——我們可以在嵌入之間插值,在嵌入上進(jìn)行基本的算術(shù)運(yùn)算,并得到有意義的結(jié)果。
下圖演示了在兩個(gè)嵌入(最左、最右)之間插值的結(jié)果。插值的每一步所得,映射至測(cè)試數(shù)據(jù)中的最近嵌入,然后可視化相應(yīng)的圖塊。
最后,下圖顯示了加上嵌入或減去嵌入,并將結(jié)果映射至測(cè)試數(shù)據(jù)中的最近鄰,會(huì)發(fā)生什么。
這些結(jié)果表明,我們的嵌入空間確實(shí)表示了一個(gè)距離具有意義、基本算術(shù)規(guī)則成立的度量空間。
由于度量空間是基于自監(jiān)督方式訓(xùn)練得到的,我們可以使用大量未標(biāo)簽數(shù)據(jù)迫使網(wǎng)絡(luò)學(xué)習(xí)捕捉有意義的關(guān)系。因此,在后續(xù)分類器中使用這些嵌入作為特征向量,是一種遷移學(xué)習(xí)的形式,讓我們可以基于非常有限的標(biāo)注數(shù)據(jù)訓(xùn)練強(qiáng)大的分類器。
結(jié)語(yǔ)
本文顯示了如何使用三重網(wǎng)絡(luò)學(xué)習(xí)捕捉不同地理位置坐標(biāo)間的語(yǔ)義相似性的度量空間。
我們訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提取定義語(yǔ)義相似性的特征,然后通過(guò)度量學(xué)習(xí)得到一個(gè)嵌入空間。
所得嵌入空間可以直接用在地點(diǎn)映射或交通路線分類這樣的任務(wù)上,通過(guò)遷移學(xué)習(xí)幫助我們大大改善分類器的精確度和概括能力。
此外,這些嵌入給分類器帶來(lái)了某種直覺(jué),使得錯(cuò)誤的分類仍然可以作出直觀的解釋。例如,我們的地點(diǎn)映射器很快學(xué)習(xí)到將日間活動(dòng)和夜間活動(dòng)綁定到不同的特定區(qū)域,例如工業(yè)區(qū)、市中心、公園、火車(chē)站等。
-
智能手機(jī)
+關(guān)注
關(guān)注
66文章
18500瀏覽量
180429 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4337瀏覽量
62732 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5506瀏覽量
121265
原文標(biāo)題:Loc2Vec 基于三重?fù)p失學(xué)習(xí)位置嵌入
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論