亚洲第一天堂国产福利,久久精品国产亚洲av水果派

DBSCAN是一種基于密度的空間聚類算法。如在點p鄰域范圍內(nèi)的點達到一定數(shù)量則點p稱為核心點，若點q在p的鄰域范圍內(nèi)，則p直接密度可達q，且p、q屬于同一密集區(qū)域。由這種關(guān)系連接的最大數(shù)據(jù)點集形成一個簇。DBSCAN算法有檢測任意形狀的簇、不需要提前知道檢測簇的數(shù)量等優(yōu)點。隨著近年來大規(guī)模并行化的熱潮，又出現(xiàn)了許多并行DBSCAN算法。大多數(shù)并行DBSCAN算法中，為并行地發(fā)現(xiàn)直接密度可達關(guān)系，相鄰的點被分配到相同的數(shù)據(jù)分區(qū)中進行并行處理，以方便計算相鄰點的密度。但是，這種數(shù)據(jù)分區(qū)方案會導(dǎo)致一些問題，如分割成本大、子區(qū)域重疊、數(shù)據(jù)分區(qū)之間的負載不平衡等，其中負載問題在分布不均勻的數(shù)據(jù)集中尤為體現(xiàn)。

為了解決這些問題，本文提出了一種新的并行DBSCAN算法，隨機分區(qū)DBSCAN，簡稱RP-DBSCAN，它使用偽隨機劃分和兩級單元格字典。偽隨機劃分是一種基于單元格的數(shù)據(jù)劃分方案，它可以隨機采樣小的單元格，而不是點本身。無論數(shù)據(jù)如何分布，它都可以實現(xiàn)負載平衡，同時保持DBSCAN所需的數(shù)據(jù)連續(xù)性。兩級單元格字典是整個數(shù)據(jù)集的一個高度凝煉的摘要，來表示每個隨機分區(qū)。該算法能夠?qū)崿F(xiàn)同時找到每個數(shù)據(jù)分區(qū)的局部聚類，然后將這些局部聚類合并得到全局聚類。

一．偽隨機劃分

本文定義d維空間中的一個單元格是一個對角線長度為ε 的d維超立方體，ε 是一個表示鄰域半徑的參數(shù)。如果至少有一個數(shù)據(jù)點位于一個密集區(qū)域內(nèi)，則可以保證該單元格中的所有數(shù)據(jù)點都屬于同一簇。這大大簡化了之后的聚類合并過程。在進行數(shù)據(jù)分區(qū)時，我們隨機采樣單元格，而不是采樣數(shù)據(jù)點，因此稱為偽隨機劃分。然后，將相同顏色的單元格及其內(nèi)部的數(shù)據(jù)點劃分為同一個分區(qū)。由于ε 遠小于整個空間的長度，這種劃分也可以實現(xiàn)真正的隨機劃分的效果。圖 1 說明了偽隨機分區(qū)的思想，不同顏色代表不同分區(qū)。

圖1 偽隨機劃分

二．兩級單元格字典

兩級單元格字典是整個數(shù)據(jù)集的一個摘要。本質(zhì)上它是一個兩級的樹。第一級的節(jié)點對應(yīng)單元格，第二級的節(jié)點對應(yīng)子單元格，其邊長為單元格的h分之一，其中h由用戶給出以指定近似度。每個節(jié)點編碼每個（子）單元格的密度及其位置。密度是其內(nèi)部的點數(shù)，而位置可以用它們所屬單元內(nèi)的子單元的順序來表示，故只用d(h? 1)位。（d是維度，h是字典級數(shù)）如圖 2，h = 2，d= 2，只需兩位來表示子單元格位置（00，01，10，11）。

圖2 兩級單元格字典的構(gòu)建

因此，可以得出兩級單元格字典總大小為

如果數(shù)據(jù)集非常大，由于內(nèi)存的限制，有可能無法立即加載整個兩級單元格字典，因此把字典劃分成較小的子字典，它由根節(jié)點集合的一個子集以及與它們連接的葉節(jié)點組成。

三. 算法實現(xiàn)的三個階段

1. 數(shù)據(jù)分區(qū)

通過偽隨機劃分對整個數(shù)據(jù)集進行分區(qū)，并構(gòu)建兩級單元格字典，為并行處理做好準(zhǔn)備。向并行系統(tǒng)中的每個工作者發(fā)送一個分區(qū)和對應(yīng)的兩級單元格字典。如圖3，整個空間被劃分為諸多單元格，其中沒有為空區(qū)域創(chuàng)建單元格。將黃色和綠色單元格劃分到兩個不同的分區(qū)P1和P2中。然后為每個分區(qū)生成一個兩級單元格字典。

圖3 數(shù)據(jù)分區(qū)

2. 單元格圖的構(gòu)造

通過(ε, ρ)區(qū)域查詢的方式區(qū)分單元格是否為核心單元格，構(gòu)造單元格圖時將排除非核心單元格。如圖3中的Cnc1-Cnc5判斷為非核的，它們在圖4中將被排除。然后，從每個分區(qū)的每個核心單元搜索其所有完全或部分直接可達的單元格來構(gòu)建一個單元圖。這些單獨的關(guān)系可以在單元格級別上進行聚合，從而生成一個單元格圖。單元格圖的頂點是單元格，邊是單元格之間的可達性關(guān)系?？偟膩碚f，一個單元格圖表示從一個給定的分區(qū)中獲得的局部聚類。

圖4 單元格圖構(gòu)造

(ε, ρ)區(qū)域查詢：

如圖5所示，若點p與子單元格中心scn的距離小于ε ，那么，就將這個子單元格加入到點p的鄰居集合當(dāng)中。當(dāng)點p的鄰居點數(shù)大于等于設(shè)定的參數(shù)minPts，就把包含p的單元格標(biāo)記為核心單元格。

圖5 (ε,ρ)區(qū)域查詢

3. 單元格圖的合并

這一部分主要包括漸進式圖合并和點標(biāo)記兩個過程。首先，結(jié)合從每個工作者返回的對應(yīng)每個分區(qū)的單元格圖，確認每條邊直接可達性關(guān)系，以合并成全局單元格圖。之后，根據(jù)合并后的圖對聚類進行擴展，并根據(jù)最終的聚類結(jié)果來標(biāo)記所有的點。整個過程就是由局部聚類產(chǎn)生全局聚類。例如在圖 6 中，單元格圖簡單合并后要進行邊類型檢測，即判斷是完全邊(深色實線)，部分邊（實線箭頭）還是未知邊（虛線箭頭），還要進行減邊操作，根據(jù)樹的結(jié)構(gòu)去除冗余邊，最終得到一個樹式的全局單元格圖。然后，圖 7 中進行點標(biāo)記，圖4中位于P1和P2左下角的單元格在圖 7 中形成了一個C1簇，將單元格其中的點標(biāo)記為同一個顏色，即為最終聚類的結(jié)果。

圖6 漸進式圖合并

圖7 點標(biāo)記

四. 總結(jié)

本文提出采用隨機劃分策略并行運行DBSCAN。為此，提出了一種基于單元格的數(shù)據(jù)分割策略，即偽隨機劃分，它具有區(qū)域劃分策略和隨機劃分策略的優(yōu)點。為了能夠在隨機分割上執(zhí)行區(qū)域查詢，本文設(shè)計了兩級單元格字典，它是整個數(shù)據(jù)集的一個高度凝煉的摘要。將它們放在一起，開發(fā)了一個高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife，Cosmo50，OpenStreetMap等大規(guī)模數(shù)據(jù)集進行實驗，將RP-DBSCAN與SPARK-DBSCAN，ESP-DBSCAN等其它6種算法進行效率和精確度的對比。結(jié)果顯示，RP-DBSCAN更快，更精準(zhǔn)，更高效且可擴展性強。RP-DBSCAN顯著地超過了最先進的并行DBSCAN算法高達180倍。此外，只有RP-DBSCAN可以處理最大的362GB數(shù)據(jù)集，而其他算法則不能，有力地驗證了其性能的優(yōu)越性。本文的研究工作顯著地提高了DBSCAN算法在大數(shù)據(jù)時代的可用性。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
952

瀏覽量
54888
DBSCAN

DBSCAN

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
10431
DBSCAN算法

DBSCAN算法

+關(guān)注

關(guān)注
0

文章
3

瀏覽量
1256

小鵬大眾將攜手合力打造中國最大的超快充網(wǎng)絡(luò)

小鵬汽車和大眾汽車集團（中國）宣布簽署諒解備忘錄（MOU），將合力為客戶打造中國最大的超快充網(wǎng)絡(luò)，雙方相互將開放各自專有的、行業(yè)領(lǐng)先的超快充網(wǎng)絡(luò)。小鵬汽車和大眾汽車集團（中國）的客戶

發(fā)表于 01-06 09:46 ?740次閱讀

迅為RK3568開發(fā)板傳統(tǒng)分區(qū)和定制擴展分區(qū)鏡像對比

適應(yīng)硬件的動態(tài)變化。 (2)啟動速度快：直接加載設(shè)備樹和內(nèi)核，減少了啟動過程中的延遲。 (3)基礎(chǔ) OTA 更新：支持遠程更新，但不支持增量更新，更新需重構(gòu)鏡像。 (4)存儲效率低：由于設(shè)計傳統(tǒng)，分區(qū)

發(fā)表于 11-19 10:50

Linux磁盤分區(qū)擴容方法

linux分區(qū)常用命令：fdisk，修改MBR分區(qū)表，MBR格式，被修改的分區(qū)大小最大為2T。

發(fā)表于 10-23 11:46 ?542次閱讀

有獎問卷：隨機抽取 30 名用戶送出快充數(shù)據(jù)線

非常重要。該問卷大約只需 5 分鐘即可完成。我們將隨機抽取 30 名用戶送出快充數(shù)據(jù)線。十分感謝您能幫助我們改善您在 TI 的用戶體驗。 TI 用戶體驗設(shè)計團隊

發(fā)表于 10-09 08:08

使用FAL分區(qū)管理與easyflash變量管理

1.FAL組件1.1什么是FALFAL（FlashAbstractionLayer）Flash抽象層，是對Flash及基于Flash的分區(qū)進行管理、操作的抽象層，對上層統(tǒng)一了Flash及分區(qū)操作

發(fā)表于 10-01 08:10 ?1177次閱讀

使用FAL<b class='flag-5'>分區(qū)</b>管理與easyflash變量管理

換電要被超快充淘汰了？

當(dāng)超快充已經(jīng)可以實現(xiàn)「充電5分鐘，續(xù)航增加200多公里」時，就會出現(xiàn)一種聲音：超快充技術(shù)發(fā)展這么快換電馬上就要被淘汰了？ —— 錯！蔚

發(fā)表于 09-13 11:20 ?473次閱讀

合科泰超快恢復(fù)二極管ES1JL產(chǎn)品介紹

超快恢復(fù)二極管具有開關(guān)特性好、反向恢復(fù)時間超短等特點，在開關(guān)電源、PWM脈寬調(diào)制器、變頻器等中作為開關(guān)和整流器件。本期，合科泰給大家介紹一款超快

發(fā)表于 08-05 10:02 ?520次閱讀

剛剛，國內(nèi)超快光纖激光器獲重要進展

來源：激光行業(yè)觀察編輯：感知芯視界 Link 華南師范大學(xué)光電科學(xué)與工程學(xué)院研究員羅智超和教授徐文成團隊在國家自然科學(xué)基金、廣東省自然科學(xué)基金等項目的資助下，在超快孤子光纖激光器的研究方面取得重要

發(fā)表于 08-05 09:12 ?298次閱讀

如何采用分區(qū)架構(gòu)提升車輛的簡易性

? 各種車輛功能推陳出新，傳統(tǒng)的域架構(gòu) (Domain Architecture)也面臨挑戰(zhàn)。本文將介紹交通運輸行業(yè)如何采用分區(qū)架構(gòu) (Zonal Architecture)來提升車輛的簡易性、效率

發(fā)表于 07-11 15:59 ?695次閱讀

超快恢復(fù)二極管ES1GF的應(yīng)用介紹

? 一、前言 ? ? 我們都知道，二極管主要作用是整流和開關(guān)，超快恢復(fù)二極管是一種具有開關(guān)特性好、反向恢復(fù)時間超短的半導(dǎo)體二極管，常用來給高頻逆變裝置的開關(guān)器件作續(xù)流、吸收、箝位、隔離、輸出和輸入

發(fā)表于 06-14 17:28 ?768次閱讀

CO2通快與百超聚焦鏡選擇方法

CO2通快與百超聚焦鏡選擇方法

發(fā)表于 04-23 11:56 ?0次下載

GGII：新上市快充車型超15款，中國快充版車型銷量有望超5萬輛

GGII預(yù)計2024年中國新上市快充車型（平均充電倍率大于2C）超15款，中國快充版車型銷量有望超5萬輛。

發(fā)表于 04-15 09:17 ?866次閱讀

什么是超快激光器？

一、超快激光器的概念超快激光器通常指用于發(fā)射超短脈沖的鎖模激光器，例如，持續(xù)時間為飛秒或皮秒的脈沖。更精確的叫法應(yīng)為超短脈沖激光器。而超短脈沖激光器幾乎都是鎖模激光器，然而增益開關(guān)效

發(fā)表于 04-08 06:33 ?855次閱讀

昊鉑超充站已超1200座，15分鐘快充續(xù)航450km

根據(jù)官方介紹，昊鉑超級充換電站單槍最大功率為640kW，配備長駐于1000V高壓電源的超充樁，與800V特高壓快充技術(shù)相適應(yīng)，15min充電可滿足450km的續(xù)航要求。

發(fā)表于 04-01 15:39 ?645次閱讀

什么是隨機森林？隨機森林的工作原理

隨機森林使用名為“bagging”的技術(shù)，通過數(shù)據(jù)集和特征的隨機自助抽樣樣本并行構(gòu)建完整的決策樹。雖然決策樹基于一組固定的特征，而且經(jīng)常過擬合，但隨機性對森林的成功至關(guān)重要。

發(fā)表于 03-18 14:27 ?3662次閱讀