Spark分布式下的模糊C均值算法
大?。?/span>0.88 MB 人氣: 2017-12-23 需要積分:2
標(biāo)簽:SPARK(19784)模糊C均值(1230)
針對聚類算法需要處理數(shù)據(jù)集的規(guī)模越來越大、時效性要求越來越高,對算法的大數(shù)據(jù)適應(yīng)能力和性能要求更高的問題,提出一種在Spark分布式內(nèi)存計算平臺下的模糊C均值(FCM)算法Spark-FCM。首先對矩陣通過水平分割實現(xiàn)分布式存儲,不同向量存儲在不同節(jié)點;然后基于FCM算法的計算特點,設(shè)計了分布式和緩存敏感的常用矩陣操作,包括乘法、轉(zhuǎn)置和加法等;最后基于矩陣操作和Spark平臺特點,設(shè)計了Spark-FCM算法,主要數(shù)據(jù)結(jié)構(gòu)采用分布式矩陣存儲,具有節(jié)點間數(shù)據(jù)移動少和每個步驟分布式計算特點。通過在單機(jī)和集群環(huán)境下測試,算法具有良好的可擴(kuò)展性,并可以適應(yīng)大規(guī)模數(shù)據(jù)集,算法性能與數(shù)據(jù)量成線性關(guān)系,集群環(huán)境下性能比單機(jī)提高2-3倍。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
Spark分布式下的模糊C均值算法下載
相關(guān)電子資料下載
- 天數(shù)智芯主導(dǎo)的DeepSpark開源社區(qū)發(fā)布百大應(yīng)用開放平臺24.06版本 436
- spark運行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 百度前高管景鯤與朱凱華創(chuàng)立AI搜索公司,Genspark產(chǎn)品驚艷上線 458
- 關(guān)于Spark的從0實現(xiàn)30s內(nèi)實時監(jiān)控指標(biāo)計算 111
- “Spark+Hive”在DPU環(huán)境下的性能測評 | OLAP數(shù)據(jù)庫引擎選型白皮書(24版)DPU部分 212
- 芯科科技和Arduino合作創(chuàng)建SparkFun Thing Plus Matter板 234
- Sparkle撼與科技發(fā)布TBX-750FA-V2顯卡塢,支持3.5槽厚顯 243
- 如何注冊星閃Sparklink設(shè)備媒體接入層標(biāo)識、地址碼? 246
- 如何利用DPU加速Spark大數(shù)據(jù)處理? | 總結(jié)篇 661