高維數(shù)據(jù)相似性連接查詢算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
為了解決高維數(shù)據(jù)相似性連接查詢中存在的維度災(zāi)難和計(jì)算代價(jià)高等問(wèn)題,基于p一穩(wěn)態(tài)分布,將高維數(shù)據(jù)映射到低維空間。根據(jù)卡方分布的性質(zhì),證明了如果低維空間的距離大于b,則原始空間距離大于e的概率具有一定的下界,從而可以在低維空間以較低的計(jì)算代價(jià)進(jìn)行有效過(guò)濾。在此基礎(chǔ)上,提出了基于卡方分布的高維數(shù)據(jù)相似性連接查詢算法。為了進(jìn)一步提高查詢效率,提出了基于雙重過(guò)濾的高維數(shù)據(jù)相似性連接查詢算法。利用真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明所提方法具有較好的性能?;诳ǚ椒植嫉南嗨菩赃B接查詢算法召回率可以達(dá)到90%以上?;陔p重過(guò)濾的相似性連接查詢算法可以進(jìn)一步提高性能,但是會(huì)損失一定的召回率。對(duì)時(shí)間性能要求比較高、對(duì)召回率要求不太嚴(yán)格的查詢?nèi)蝿?wù)可以采用基于雙重過(guò)濾的相似性連接查詢算法;反之,可以采用基于卡方分布的相似性連接查詢算法。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%