0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于隨機分區(qū)的超快并行DBSCAN算法介紹

冬至配餃子 ? 來源:時空實驗室 ? 作者:CUST團隊-李文慧 ? 2022-08-02 18:14 ? 次閱讀

DBSCAN是一種基于密度的空間聚類算法。如在點p鄰域范圍內(nèi)的點達到一定數(shù)量則點p稱為核心點,若點q在p的鄰域范圍內(nèi),則p直接密度可達q,且p、q屬于同一密集區(qū)域。由這種關(guān)系連接的最大數(shù)據(jù)點集形成一個簇。DBSCAN算法有檢測任意形狀的簇、不需要提前知道檢測簇的數(shù)量等優(yōu)點。隨著近年來大規(guī)模并行化的熱潮,又出現(xiàn)了許多并行DBSCAN算法。大多數(shù)并行DBSCAN算法中,為并行地發(fā)現(xiàn)直接密度可達關(guān)系,相鄰的點被分配到相同的數(shù)據(jù)分區(qū)中進行并行處理,以方便計算相鄰點的密度。但是,這種數(shù)據(jù)分區(qū)方案會導(dǎo)致一些問題,如分割成本大、子區(qū)域重疊、數(shù)據(jù)分區(qū)之間的負載不平衡等,其中負載問題在分布不均勻的數(shù)據(jù)集中尤為體現(xiàn)。

為了解決這些問題,本文提出了一種新的并行DBSCAN算法,隨機分區(qū)DBSCAN,簡稱RP-DBSCAN,它使用偽隨機劃分和兩級單元格字典。偽隨機劃分是一種基于單元格的數(shù)據(jù)劃分方案,它可以隨機采樣小的單元格,而不是點本身。無論數(shù)據(jù)如何分布,它都可以實現(xiàn)負載平衡,同時保持DBSCAN所需的數(shù)據(jù)連續(xù)性。兩級單元格字典是整個數(shù)據(jù)集的一個高度凝煉的摘要,來表示每個隨機分區(qū)。該算法能夠?qū)崿F(xiàn)同時找到每個數(shù)據(jù)分區(qū)的局部聚類,然后將這些局部聚類合并得到全局聚類。

一.偽隨機劃分

本文定義d維空間中的一個單元格是一個對角線長度為ε 的d維超立方體,ε 是一個表示鄰域半徑的參數(shù)。如果至少有一個數(shù)據(jù)點位于一個密集區(qū)域內(nèi),則可以保證該單元格中的所有數(shù)據(jù)點都屬于同一簇。這大大簡化了之后的聚類合并過程。在進行數(shù)據(jù)分區(qū)時,我們隨機采樣單元格,而不是采樣數(shù)據(jù)點,因此稱為偽隨機劃分。然后,將相同顏色的單元格及其內(nèi)部的數(shù)據(jù)點劃分為同一個分區(qū)。由于ε 遠小于整個空間的長度,這種劃分也可以實現(xiàn)真正的隨機劃分的效果。圖 1 說明了偽隨機分區(qū)的思想,不同顏色代表不同分區(qū)。

poYBAGLo96uAYrieAABXgo6-Kks728.png

圖1 偽隨機劃分

二.兩級單元格字典

兩級單元格字典是整個數(shù)據(jù)集的一個摘要。本質(zhì)上它是一個兩級的樹。第一級的節(jié)點對應(yīng)單元格,第二級的節(jié)點對應(yīng)子單元格,其邊長為單元格的h分之一,其中h由用戶給出以指定近似度。每個節(jié)點編碼每個(子)單元格的密度及其位置。密度是其內(nèi)部的點數(shù),而位置可以用它們所屬單元內(nèi)的子單元的順序來表示,故只用d(h? 1)位。(d是維度,h是字典級數(shù))如圖 2,h = 2,d= 2,只需兩位來表示子單元格位置(00,01,10,11)。

pYYBAGLo9-SAL7HlAACMb2C3O7M436.png

圖2 兩級單元格字典的構(gòu)建

因此,可以得出兩級單元格字典總大小為

poYBAGLo9_aAHXeCAABA7NfnqPQ155.png

如果數(shù)據(jù)集非常大,由于內(nèi)存的限制,有可能無法立即加載整個兩級單元格字典,因此把字典劃分成較小的子字典,它由根節(jié)點集合的一個子集以及與它們連接的葉節(jié)點組成。

三. 算法實現(xiàn)的三個階段

1. 數(shù)據(jù)分區(qū)

通過偽隨機劃分對整個數(shù)據(jù)集進行分區(qū),并構(gòu)建兩級單元格字典,為并行處理做好準(zhǔn)備。向并行系統(tǒng)中的每個工作者發(fā)送一個分區(qū)和對應(yīng)的兩級單元格字典。如圖3,整個空間被劃分為諸多單元格,其中沒有為空區(qū)域創(chuàng)建單元格。將黃色和綠色單元格劃分到兩個不同的分區(qū)P1和P2中。然后為每個分區(qū)生成一個兩級單元格字典。

pYYBAGLo-AyAZPmDAABr0Xs66Po037.png

圖3 數(shù)據(jù)分區(qū)

2. 單元格圖的構(gòu)造

通過(ε, ρ)區(qū)域查詢的方式區(qū)分單元格是否為核心單元格,構(gòu)造單元格圖時將排除非核心單元格。如圖3中的Cnc1-Cnc5判斷為非核的,它們在圖4中將被排除。然后,從每個分區(qū)的每個核心單元搜索其所有完全或部分直接可達的單元格來構(gòu)建一個單元圖。這些單獨的關(guān)系可以在單元格級別上進行聚合,從而生成一個單元格圖。單元格圖的頂點是單元格,邊是單元格之間的可達性關(guān)系??偟膩碚f,一個單元格圖表示從一個給定的分區(qū)中獲得的局部聚類。

pYYBAGLo-B6AYjD6AAB59PRKtRs912.png

圖4 單元格圖構(gòu)造

(ε, ρ)區(qū)域查詢:

如圖5所示,若點p與子單元格中心scn的距離小于ε ,那么,就將這個子單元格加入到點p的鄰居集合當(dāng)中。當(dāng)點p的鄰居點數(shù)大于等于設(shè)定的參數(shù)minPts,就把包含p的單元格標(biāo)記為核心單元格。

poYBAGLo-D-AE6__AABp0mwIOXk495.png

圖5 (ε,ρ)區(qū)域查詢

3. 單元格圖的合并

這一部分主要包括漸進式圖合并和點標(biāo)記兩個過程。首先,結(jié)合從每個工作者返回的對應(yīng)每個分區(qū)的單元格圖,確認每條邊直接可達性關(guān)系,以合并成全局單元格圖。之后,根據(jù)合并后的圖對聚類進行擴展,并根據(jù)最終的聚類結(jié)果來標(biāo)記所有的點。整個過程就是由局部聚類產(chǎn)生全局聚類。例如在圖 6 中,單元格圖簡單合并后要進行邊類型檢測,即判斷是完全邊(深色實線),部分邊(實線箭頭)還是未知邊(虛線箭頭),還要進行減邊操作,根據(jù)樹的結(jié)構(gòu)去除冗余邊,最終得到一個樹式的全局單元格圖。然后,圖 7 中進行點標(biāo)記,圖4中位于P1和P2左下角的單元格在圖 7 中形成了一個C1簇,將單元格其中的點標(biāo)記為同一個顏色,即為最終聚類的結(jié)果。

pYYBAGLo-FSAc8E1AABea8qfc-M330.png

圖6 漸進式圖合并

poYBAGLo-GWAamDyAABXZ_erRbQ964.png

圖7 點標(biāo)記

四. 總結(jié)

本文提出采用隨機劃分策略并行運行DBSCAN。為此,提出了一種基于單元格的數(shù)據(jù)分割策略,即偽隨機劃分,它具有區(qū)域劃分策略和隨機劃分策略的優(yōu)點。為了能夠在隨機分割上執(zhí)行區(qū)域查詢,本文設(shè)計了兩級單元格字典,它是整個數(shù)據(jù)集的一個高度凝煉的摘要。將它們放在一起,開發(fā)了一個高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife,Cosmo50,OpenStreetMap等大規(guī)模數(shù)據(jù)集進行實驗,將RP-DBSCAN與SPARK-DBSCAN,ESP-DBSCAN等其它6種算法進行效率和精確度的對比。結(jié)果顯示,RP-DBSCAN更快,更精準(zhǔn),更高效且可擴展性強。RP-DBSCAN顯著地超過了最先進的并行DBSCAN算法高達180倍。此外,只有RP-DBSCAN可以處理最大的362GB數(shù)據(jù)集,而其他算法則不能,有力地驗證了其性能的優(yōu)越性。本文的研究工作顯著地提高了DBSCAN算法在大數(shù)據(jù)時代的可用性。


審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    952

    瀏覽量

    54888
  • DBSCAN
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    10431
  • DBSCAN算法
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    1256
收藏 人收藏

    評論

    相關(guān)推薦

    小鵬大眾將攜手合力打造中國最大的充網(wǎng)絡(luò)

    小鵬汽車和大眾汽車集團(中國)宣布簽署諒解備忘錄(MOU),將合力為客戶打造中國最大的充網(wǎng)絡(luò),雙方相互將開放各自專有的、行業(yè)領(lǐng)先的充網(wǎng)絡(luò)。 小鵬汽車和大眾汽車集團(中國)的客戶
    的頭像 發(fā)表于 01-06 09:46 ?740次閱讀

    迅為RK3568開發(fā)板傳統(tǒng)分區(qū)和定制擴展分區(qū)鏡像對比

    適應(yīng)硬件的動態(tài)變化。 (2)啟動速度:直接加載設(shè)備樹和內(nèi)核,減少了啟動過程中的延遲。 (3)基礎(chǔ) OTA 更新:支持遠程更新,但不支持增量更新,更新需重構(gòu)鏡像。 (4)存儲效率低:由于設(shè)計傳統(tǒng),分區(qū)
    發(fā)表于 11-19 10:50

    Linux磁盤分區(qū)擴容方法

    linux分區(qū)常用命令:fdisk,修改MBR分區(qū)表,MBR格式,被修改的分區(qū)大小最大為2T。
    的頭像 發(fā)表于 10-23 11:46 ?542次閱讀
    Linux磁盤<b class='flag-5'>分區(qū)</b>擴容方法

    有獎問卷:隨機抽取 30 名用戶送出充數(shù)據(jù)線

    非常重要。 該問卷大約只需 5 分鐘即可完成。 我們將隨機抽取 30 名用戶送出充數(shù)據(jù)線。 十分感謝您能幫助我們改善您在 TI 的用戶體驗。 TI 用戶體驗設(shè)計團隊
    發(fā)表于 10-09 08:08

    使用FAL分區(qū)管理與easyflash變量管理

    1.FAL組件1.1什么是FALFAL(FlashAbstractionLayer)Flash抽象層,是對Flash及基于Flash的分區(qū)進行管理、操作的抽象層,對上層統(tǒng)一了Flash及分區(qū)操作
    的頭像 發(fā)表于 10-01 08:10 ?1177次閱讀
    使用FAL<b class='flag-5'>分區(qū)</b>管理與easyflash變量管理

    換電要被充淘汰了?

    當(dāng)充已經(jīng)可以實現(xiàn)「充電5分鐘,續(xù)航增加200多公里」時,就會出現(xiàn)一種聲音: 充技術(shù)發(fā)展這么 換電馬上就要被淘汰了? —— 錯! 蔚
    的頭像 發(fā)表于 09-13 11:20 ?473次閱讀

    合科泰恢復(fù)二極管ES1JL產(chǎn)品介紹

    恢復(fù)二極管具有開關(guān)特性好、反向恢復(fù)時間超短等特點,在開關(guān)電源、PWM脈寬調(diào)制器、變頻器等中作為開關(guān)和整流器件。本期,合科泰給大家介紹一款
    的頭像 發(fā)表于 08-05 10:02 ?520次閱讀
    合科泰<b class='flag-5'>超</b><b class='flag-5'>快</b>恢復(fù)二極管ES1JL產(chǎn)品<b class='flag-5'>介紹</b>

    剛剛,國內(nèi)光纖激光器獲重要進展

    來源:激光行業(yè)觀察 編輯:感知芯視界 Link 華南師范大學(xué)光電科學(xué)與工程學(xué)院研究員羅智和教授徐文成團隊在國家自然科學(xué)基金、廣東省自然科學(xué)基金等項目的資助下,在孤子光纖激光器的研究方面取得重要
    的頭像 發(fā)表于 08-05 09:12 ?298次閱讀

    如何采用分區(qū)架構(gòu)提升車輛的簡易性

    ? 各種車輛功能推陳出新,傳統(tǒng)的域架構(gòu) (Domain Architecture)也面臨挑戰(zhàn)。本文將介紹交通運輸行業(yè)如何采用分區(qū)架構(gòu) (Zonal Architecture)來提升車輛的簡易性、效率
    的頭像 發(fā)表于 07-11 15:59 ?695次閱讀

    恢復(fù)二極管ES1GF的應(yīng)用介紹

    ? 一、前言 ? ? 我們都知道,二極管主要作用是整流和開關(guān),恢復(fù)二極管是一種具有開關(guān)特性好、反向恢復(fù)時間超短的半導(dǎo)體二極管,常用來給高頻逆變裝置的開關(guān)器件作續(xù)流、吸收、箝位、隔離、輸出和輸入
    的頭像 發(fā)表于 06-14 17:28 ?768次閱讀
    <b class='flag-5'>超</b><b class='flag-5'>快</b>恢復(fù)二極管ES1GF的應(yīng)用<b class='flag-5'>介紹</b>

    CO2通與百聚焦鏡選擇方法

    CO2通與百聚焦鏡選擇方法
    發(fā)表于 04-23 11:56 ?0次下載

    GGII:新上市充車型15款,中國充版車型銷量有望5萬輛

    GGII預(yù)計2024年中國新上市充車型(平均充電倍率大于2C)15款,中國充版車型銷量有望5萬輛。
    的頭像 發(fā)表于 04-15 09:17 ?866次閱讀
    GGII:新上市<b class='flag-5'>快</b>充車型<b class='flag-5'>超</b>15款,中國<b class='flag-5'>快</b>充版車型銷量有望<b class='flag-5'>超</b>5萬輛

    什么是激光器?

    一、激光器的概念 激光器通常指用于發(fā)射超短脈沖的鎖模激光器,例如,持續(xù)時間為飛秒或皮秒的脈沖。更精確的叫法應(yīng)為超短脈沖激光器。而超短脈沖激光器幾乎都是鎖模激光器,然而增益開關(guān)效
    的頭像 發(fā)表于 04-08 06:33 ?855次閱讀
    什么是<b class='flag-5'>超</b><b class='flag-5'>快</b>激光器?

    昊鉑充站已1200座,15分鐘充續(xù)航450km

    根據(jù)官方介紹,昊鉑超級充換電站單槍最大功率為640kW,配備長駐于1000V高壓電源的充樁,與800V特高壓充技術(shù)相適應(yīng),15min充電可滿足450km的續(xù)航要求。
    的頭像 發(fā)表于 04-01 15:39 ?645次閱讀

    什么是隨機森林?隨機森林的工作原理

    隨機森林使用名為“bagging”的技術(shù),通過數(shù)據(jù)集和特征的隨機自助抽樣樣本并行構(gòu)建完整的決策樹。雖然決策樹基于一組固定的特征,而且經(jīng)常過擬合,但隨機性對森林的成功至關(guān)重要。
    發(fā)表于 03-18 14:27 ?3662次閱讀
    什么是<b class='flag-5'>隨機</b>森林?<b class='flag-5'>隨機</b>森林的工作原理