0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Redis分布式鎖真的安全嗎?

jf_ro2CN3Fa ? 來源:稀土掘金技術(shù)社區(qū) ? 作者:望靠德州poker發(fā)家 ? 2022-11-02 14:07 ? 次閱讀

今天我們來聊一聊Redis分布式鎖。

首先大家可以先思考一個簡單的問題,為什么要使用分布式鎖?普通的jvm鎖為什么不可以?

這個時候,大家肯定會吧啦吧啦想到一堆,例如java應(yīng)用屬于進程級,不同的ecs中部署相同的應(yīng)用,他們之間相互獨立。

所以,在分布式系統(tǒng)中,當(dāng)有多個客戶端需要獲取鎖時,我們需要分布式鎖。此時,鎖是保存在一個共享存儲系統(tǒng)中的,可以被多個客戶端共享訪問和獲取。

分布式鎖(SET NX)

知道了分布式鎖的使用場景,我們來自己簡單的實現(xiàn)下分布式鎖:

publicclassIndexController{

publicStringdeductStock(){

StringlockKey="lock:product_101";

//setNx獲取分布式鎖
StringclientId=UUID.randomUUID().toString();
Booleanresult=stringRedisTemplate.opsForValue().setIfAbsent(lockKey,clientId,30,TimeUnit.SECONDS);//jedis.setnx(k,v)
if(!result){
return"error_code";
}
try{
intstock=Integer.parseInt(stringRedisTemplate.opsForValue().get("stock"));//jedis.get("stock")
if(stock>0){
intrealStock=stock-1;
stringRedisTemplate.opsForValue().set("stock",realStock+"");//jedis.set(key,value)
System.out.println("扣減成功,剩余庫存:"+realStock);
}else{
System.out.println("扣減失敗,庫存不足");
}
}finally{
//解鎖
if(clientId.equals(stringRedisTemplate.opsForValue().get(lockKey))){
stringRedisTemplate.delete(lockKey);
}
}
}

以上代碼簡單的實現(xiàn)了一個扣減庫存的業(yè)務(wù)邏輯,我們拆開來說下都做了什么事情:

1、首先聲明了lockkey,表示我們需要set的keyName

2、其次UUID.randomUUID().toString();生成該次請求的requestId,為什么需要生成這個唯一的UUID,后面在解鎖的時候會說到

3、獲取分布式鎖,通過stringRedisTemplate.opsForValue().setIfAbsent來實現(xiàn),該語句的意思是如果存在該key則返回false,若不存在則進行key的設(shè)置,設(shè)置成功后返回true,將當(dāng)前線程獲取的uuid設(shè)置成value,給定一個鎖的過期時間,防止該線程無限制持久鎖導(dǎo)致死鎖,也為了防止該服務(wù)器突然宕機,導(dǎo)致其他機器的應(yīng)用無法獲取該鎖,這個是必須要做的設(shè)置,至于過期的時間,可以根據(jù)內(nèi)層業(yè)務(wù)邏輯的執(zhí)行時間來決定

4、執(zhí)行內(nèi)層的業(yè)務(wù)邏輯,進行扣庫存的操作

5、業(yè)務(wù)邏輯執(zhí)行完成后,走到finally的解鎖操作,進行解鎖操作時,首先我們來判斷當(dāng)前鎖的值是否為該線程持有的,防止當(dāng)前線程執(zhí)行較慢,導(dǎo)致鎖過期,從而刪除了其他線程持有的分布式鎖,對于該操作,我來舉個例子:

時刻1:線程A獲取分布式鎖,開始執(zhí)行業(yè)務(wù)邏輯

時刻2:線程B等待分布式鎖釋放

時刻3:線程A所在機器IO處理緩慢、GC pause等問題導(dǎo)致處理緩慢

時刻4:線程A依舊處于block狀態(tài),鎖過期

時刻5:線程B獲取分布式鎖,開始執(zhí)行業(yè)務(wù)邏輯,此時線程A結(jié)束block,開始釋放鎖

時刻6:線程B處理業(yè)務(wù)邏輯緩慢,線程A釋放分布式鎖,但是此時釋放的是線程B的鎖,導(dǎo)致其他線程可以開始獲取鎖

看到這里,為什么每個請求需要requestId,并且在釋放鎖的情況下判斷是否是當(dāng)前的requestId是有必要的。

以上,就是一個簡單的分布式鎖的實現(xiàn)過程。但是你覺得上述實現(xiàn)還存在問題嗎?

答案是肯定的。若是在判斷完分布式鎖的value與requestId之后,鎖過期了,依然會存在以上問題。

那么有沒有什么辦法可以規(guī)避以上問題,讓我們不需要去完成這些實現(xiàn),只需要專注于業(yè)務(wù)邏輯呢?

我們可以使用Redisson,并且Redisson有中文文檔,方便英文不好的同學(xué)查看(開發(fā)團隊中有中國的jackygurui)。

接下來我們再把上述代碼簡單的改造下就可以規(guī)避這些問題:

publicclassIndexController{

publicStringdeductStock(){

StringlockKey="lock:product_101";

//setNx獲取分布式鎖
//StringclientId=UUID.randomUUID().toString();
//Booleanresult=stringRedisTemplate.opsForValue().setIfAbsent(lockKey,clientId,30,TimeUnit.SECONDS);//jedis.setnx(k,v)
//獲取鎖對象
RLockredissonLock=redisson.getLock(lockKey);
//加分布式鎖
redissonLock.lock();
try{
intstock=Integer.parseInt(stringRedisTemplate.opsForValue().get("stock"));//jedis.get("stock")
if(stock>0){
intrealStock=stock-1;
stringRedisTemplate.opsForValue().set("stock",realStock+"");//jedis.set(key,value)
System.out.println("扣減成功,剩余庫存:"+realStock);
}else{
System.out.println("扣減失敗,庫存不足");
}
}finally{
//解鎖
//if(clientId.equals(stringRedisTemplate.opsForValue().get(lockKey))){
//stringRedisTemplate.delete(lockKey);
//}
//redisson分布式鎖解鎖
redissonLock.unlock();
}
}

可以看到,使用redisson分布式鎖會簡單很多,我們通過redissonLock.lock()和redissonLock.unlock()解決了這個問題,看到這里,是不是有同學(xué)會問,如果服務(wù)器宕機了,分布式鎖會一直存在嗎,也沒有去指定過期時間?

redisson分布式鎖中有一個watchdog機制,即會給一個leaseTime,默認為30s,到期后鎖自動釋放,如果一直沒有解鎖,watchdog機制會一直重新設(shè)定鎖的過期時間,通過設(shè)置TimeTask,延遲10s再次執(zhí)行鎖續(xù)命,將鎖的過期時間重置為30s。下面就從redisson.lock()的源碼來看下:

lock的最終加鎖方法:

RFuturetryLockInnerAsync(longleaseTime,TimeUnitunit,longthreadId,RedisStrictCommandcommand){
internalLockLeaseTime=unit.toMillis(leaseTime);

returncommandExecutor.evalWriteAsync(getName(),LongCodec.INSTANCE,command,
"if(redis.call('exists',KEYS[1])==0)then"+
"redis.call('hset',KEYS[1],ARGV[2],1);"+
"redis.call('pexpire',KEYS[1],ARGV[1]);"+
"returnnil;"+
"end;"+
"if(redis.call('hexists',KEYS[1],ARGV[2])==1)then"+
"redis.call('hincrby',KEYS[1],ARGV[2],1);"+
"redis.call('pexpire',KEYS[1],ARGV[1]);"+
"returnnil;"+
"end;"+
"returnredis.call('pttl',KEYS[1]);",
Collections.singletonList(getName()),internalLockLeaseTime,getLockName(threadId));
}

可以看到lua腳本中redis.call('pexpire', KEYS[1], ARGV[1]);對key進行設(shè)置,并給定了一個internalLockLeaseTime,給定的internalLockLeaseTime就是默認的加鎖時間,為30s。

接下來我們在看下鎖續(xù)命的源碼:

privatevoidscheduleExpirationRenewal(finallongthreadId){
if(!expirationRenewalMap.containsKey(this.getEntryName())){
Timeouttask=this.commandExecutor.getConnectionManager().newTimeout(newTimerTask(){
publicvoidrun(Timeouttimeout)throwsException{
//重新設(shè)置鎖過期時間
RFuturefuture=RedissonLock.this.commandExecutor.evalWriteAsync(RedissonLock.this.getName(),LongCodec.INSTANCE,RedisCommands.EVAL_BOOLEAN,"if(redis.call('hexists',KEYS[1],ARGV[2])==1)thenredis.call('pexpire',KEYS[1],ARGV[1]);return1;end;return0;",Collections.singletonList(RedissonLock.this.getName()),newObject[]{RedissonLock.this.internalLockLeaseTime,RedissonLock.this.getLockName(threadId)});
future.addListener(newFutureListener(){
publicvoidoperationComplete(Futurefuture)throwsException{
RedissonLock.expirationRenewalMap.remove(RedissonLock.this.getEntryName());
if(!future.isSuccess()){
RedissonLock.log.error("Can'tupdatelock"+RedissonLock.this.getName()+"expiration",future.cause());
}else{
//獲取方法調(diào)用的結(jié)果
if((Boolean)future.getNow()){
//進行遞歸調(diào)用
RedissonLock.this.scheduleExpirationRenewal(threadId);
}

}
}
});
}
//延遲this.internalLockLeaseTime/3L再執(zhí)行run方法
},this.internalLockLeaseTime/3L,TimeUnit.MILLISECONDS);
if(expirationRenewalMap.putIfAbsent(this.getEntryName(),task)!=null){
task.cancel();
}

}
}

從源碼層可以看到,加鎖成功后,會延遲10s執(zhí)行task中的run方法,然后在run方法里面執(zhí)行鎖過期時間的重置,如果時間重置成功,則繼續(xù)遞歸調(diào)用該方法,延遲10s后進行鎖續(xù)命,若重置鎖時間失敗,則可能表示鎖已釋放,退出該方法。

以上,就是關(guān)于一個redis分布式鎖的說明,看到這里,大家應(yīng)該對分布式鎖有一個大致的了解了。

但是盡管使用了redisson完成分布式鎖的實現(xiàn),對于分布式鎖是否還存在問題,分布式鎖真的安全嗎?

一般的,線上的環(huán)境肯定使用redis cluster,如果數(shù)據(jù)量不大,也會使用的redis sentinal。那么就存在主從復(fù)制的問題,那么是否會存在這種情況,在主庫設(shè)置了分布式鎖,但是可能由于網(wǎng)絡(luò)或其他原因?qū)е聰?shù)據(jù)還沒有同步到從庫,此時主庫宕機,選擇從庫作為主庫,新主庫中并沒有該鎖的信息,其他線程又可以進行鎖申請,造成了發(fā)生線程安全問題的可能。

為了解決這個問題,redis的作者實現(xiàn)了redlock,基于redlock的實現(xiàn)有很大的爭論,并且現(xiàn)在已經(jīng)棄用了,但是我們還是需要了解下原理,以及之后基于這些問題的解決方案。

基于 Spring Boot + MyBatis Plus + Vue & Element 實現(xiàn)的后臺管理系統(tǒng) + 用戶小程序,支持 RBAC 動態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能

項目地址:https://gitee.com/zhijiantianya/ruoyi-vue-pro

視頻教程:https://doc.iocoder.cn/video/

分布式鎖Redlock

Redlock是基于單Redis節(jié)點的分布式鎖在failover的時候會產(chǎn)生解決不了的安全性問題而產(chǎn)生的,基于N個完全獨立的Redis節(jié)點。

下面我來看下redlock獲取鎖的過程:

運行Redlock算法的客戶端依次執(zhí)行下面各個步驟,來完成獲取鎖 的操作:

獲取當(dāng)前時間(毫秒數(shù))。

按順序依次向N個Redis節(jié)點執(zhí)行獲取鎖 的操作。這個獲取操作跟前面基于單Redis節(jié)點的獲取鎖 的過程相同,包含隨機字符串my_random_value,也包含過期時間(比如PX 30000,即鎖的有效時間)。為了保證在某個Redis節(jié)點不可用的時候算法能夠繼續(xù)運行,這個獲取鎖 的操作還有一個超時時間(time out),它要遠小于鎖的有效時間(幾十毫秒量級)??蛻舳嗽谙蚰硞€Redis節(jié)點獲取鎖失敗以后,應(yīng)該立即嘗試下一個Redis節(jié)點。這里的失敗,應(yīng)該包含任何類型的失敗,比如該Redis節(jié)點不可用,或者該Redis節(jié)點上的鎖已經(jīng)被其它客戶端持有

計算整個獲取鎖的過程總共消耗了多長時間,計算方法是用當(dāng)前時間減去第1步記錄的時間。如果客戶端從大多數(shù)Redis節(jié)點(>= N/2+1)成功獲取到了鎖,并且獲取鎖總共消耗的時間沒有超過鎖的有效時間(lock validity time),那么這時客戶端才認為最終獲取鎖成功;否則,認為最終獲取鎖失敗。

如果最終獲取鎖成功了,那么這個鎖的有效時間應(yīng)該重新計算,它等于最初的鎖的有效時間減去第3步計算出來的獲取鎖消耗的時間。

如果最終獲取鎖失敗了(可能由于獲取到鎖的Redis節(jié)點個數(shù)少于N/2+1,或者整個獲取鎖的過程消耗的時間超過了鎖的最初有效時間),那么客戶端應(yīng)該立即向所有Redis節(jié)點發(fā)起釋放鎖 的操作。

好了,了解了redlock獲取鎖的機制之后,我們再來討論下redlock會有哪些問題:

問題一:

假設(shè)一共有5個Redis節(jié)點:A, B, C, D, E。設(shè)想發(fā)生了如下的事件序列:

客戶端1成功鎖住了A, B, C,獲取鎖 成功(但D和E沒有鎖住)。

節(jié)點C崩潰重啟了,但客戶端1在C上加的鎖沒有持久化下來,丟失了。

節(jié)點C重啟后,客戶端2鎖住了C, D, E,獲取鎖 成功。

這樣,客戶端1和客戶端2同時獲得了鎖(針對同一資源)。

在默認情況下,Redis的AOF持久化方式是每秒寫一次磁盤(即執(zhí)行fsync),因此最壞情況下可能丟失1秒的數(shù)據(jù)。為了盡可能不丟數(shù)據(jù),Redis允許設(shè)置成每次修改數(shù)據(jù)都進行fsync,但這會降低性能。當(dāng)然,即使執(zhí)行了fsync也仍然有可能丟失數(shù)據(jù)(這取決于系統(tǒng)而不是Redis的實現(xiàn))。所以,上面分析的由于節(jié)點重啟引發(fā)的鎖失效問題,總是有可能出現(xiàn)的。為了應(yīng)對這一問題,Redis作者antirez又提出了延遲重啟 (delayed restarts)的概念。也就是說,一個節(jié)點崩潰后,先不立即重啟它,而是等待一段時間再重啟,這段時間應(yīng)該大于鎖的有效時間(lock validity time)。這樣的話,這個節(jié)點在重啟前所參與的鎖都會過期,它在重啟后就不會對現(xiàn)有的鎖造成影響。

關(guān)于Redlock還有一點細節(jié)值得拿出來分析一下:在最后釋放鎖 的時候,antirez在算法描述中特別強調(diào),客戶端應(yīng)該向所有Redis節(jié)點發(fā)起釋放鎖 的操作。也就是說,即使當(dāng)時向某個節(jié)點獲取鎖沒有成功,在釋放鎖的時候也不應(yīng)該漏掉這個節(jié)點。這是為什么呢?設(shè)想這樣一種情況,客戶端發(fā)給某個Redis節(jié)點的獲取鎖 的請求成功到達了該Redis節(jié)點,這個節(jié)點也成功執(zhí)行了SET操作,但是它返回給客戶端的響應(yīng)包卻丟失了。這在客戶端看來,獲取鎖的請求由于超時而失敗了,但在Redis這邊看來,加鎖已經(jīng)成功了。因此,釋放鎖的時候,客戶端也應(yīng)該對當(dāng)時獲取鎖失敗的那些Redis節(jié)點同樣發(fā)起請求。實際上,這種情況在異步通信模型中是有可能發(fā)生的:客戶端向服務(wù)器通信是正常的,但反方向卻是有問題的。

所以,如果不進行延遲重啟,或者對于同一個主節(jié)點進行多個從節(jié)點的備份,并要求從節(jié)點的同步必須實時跟住主節(jié)點,也就是說需要配置redis從庫的同步策略,將延遲設(shè)置為最?。ㄖ鲝耐绞钱惒竭M行的),通過min-replicas-max-lag(舊版本的redis使用min-slaves-max-lag)來設(shè)置主從庫間進行數(shù)據(jù)復(fù)制時,從庫給主庫發(fā)送 ACK 消息的最大延遲(以秒為單位),也就是說,這個值需要設(shè)置為0,否則都有可能出現(xiàn)延遲,但是這個實際上在redis中是不存在的,min-replicas-max-lag設(shè)置為0,就代表著這個配置不生效。redis本身是為了高效而存在的,如果因為需要保證業(yè)務(wù)的準(zhǔn)確性而使用,大大降低了redis的性能,建議使用的別的方式。

問題二:

如果客戶端長期阻塞導(dǎo)致鎖過期,那么它接下來訪問共享資源就不安全了(沒有了鎖的保護)。在RedLock中還是存在該問題的。

雖然在獲取鎖之后Redlock會去判斷鎖的有效性,如果鎖過期了,則會再去重新拿鎖。但是如果發(fā)生在獲取鎖之后,那么該有效性都得不到保障了。

06a163dc-5a74-11ed-a3b6-dac502259ad0.jpg

在上面的時序圖中,假設(shè)鎖服務(wù)本身是沒有問題的,它總是能保證任一時刻最多只有一個客戶端獲得鎖。上圖中出現(xiàn)的lease這個詞可以暫且認為就等同于一個帶有自動過期功能的鎖??蛻舳?在獲得鎖之后發(fā)生了很長時間的GC pause,在此期間,它獲得的鎖過期了,而客戶端2獲得了鎖。當(dāng)客戶端1從GC pause中恢復(fù)過來的時候,它不知道自己持有的鎖已經(jīng)過期了,它依然向共享資源(上圖中是一個存儲服務(wù))發(fā)起了寫數(shù)據(jù)請求,而這時鎖實際上被客戶端2持有,因此兩個客戶端的寫請求就有可能沖突(鎖的互斥作用失效了)。

初看上去,有人可能會說,既然客戶端1從GC pause中恢復(fù)過來以后不知道自己持有的鎖已經(jīng)過期了,那么它可以在訪問共享資源之前先判斷一下鎖是否過期。但仔細想想,這絲毫也沒有幫助。因為GC pause可能發(fā)生在任意時刻,也許恰好在判斷完之后。

也有人會說,如果客戶端使用沒有GC的語言來實現(xiàn),是不是就沒有這個問題呢?質(zhì)疑者Martin指出,系統(tǒng)環(huán)境太復(fù)雜,仍然有很多原因?qū)е逻M程的pause,比如虛存造成的缺頁故障(page fault),再比如CPU資源的競爭。即使不考慮進程pause的情況,網(wǎng)絡(luò)延遲也仍然會造成類似的結(jié)果。

總結(jié)起來就是說,即使鎖服務(wù)本身是沒有問題的,而僅僅是客戶端有長時間的pause或網(wǎng)絡(luò)延遲,仍然會造成兩個客戶端同時訪問共享資源的沖突情況發(fā)生。

那怎么解決這個問題呢?Martin給出了一種方法,稱為fencing token。fencing token是一個單調(diào)遞增的數(shù)字,當(dāng)客戶端成功獲取鎖的時候它隨同鎖一起返回給客戶端。而客戶端訪問共享資源的時候帶著這個fencing token,這樣提供共享資源的服務(wù)就能根據(jù)它進行檢查,拒絕掉延遲到來的訪問請求(避免了沖突)。如下圖:

在上圖中,客戶端1先獲取到的鎖,因此有一個較小的fencing token,等于33,而客戶端2后獲取到的鎖,有一個較大的fencing token,等于34??蛻舳?從GC pause中恢復(fù)過來之后,依然是向存儲服務(wù)發(fā)送訪問請求,但是帶了fencing token = 33。存儲服務(wù)發(fā)現(xiàn)它之前已經(jīng)處理過34的請求,所以會拒絕掉這次33的請求。這樣就避免了沖突。

但是,對于客戶端和資源服務(wù)器之間的延遲(即發(fā)生在算法第3步之后的延遲),antirez是承認所有的分布式鎖的實現(xiàn),包括Redlock,是沒有什么好辦法來應(yīng)對的。包括在我們到生產(chǎn)環(huán)境中,無法避免分布式鎖超時。

在討論中,有人提出客戶端1和客戶端2都發(fā)生了GC pause,兩個fencing token都延遲了,它們幾乎同時到達了文件服務(wù)器,而且保持了順序。那么,我們新加入的判斷邏輯,即判斷fencing token的合理性,應(yīng)該對兩個請求都會放過,而放過之后它們幾乎同時在操作文件,還是沖突了。既然Martin宣稱fencing token能保證分布式鎖的正確性,那么上面這種可能的猜測也許是我們理解錯了。但是Martin并沒有在后面做出解釋。

問題三:

Redlock對系統(tǒng)記時(timing)的過分依賴,下面給出一個例子(還是假設(shè)有5個Redis節(jié)點A, B, C, D, E):

客戶端1從Redis節(jié)點A, B, C成功獲取了鎖(多數(shù)節(jié)點)。由于網(wǎng)絡(luò)問題,與D和E通信失敗。

節(jié)點C上的時鐘發(fā)生了向前跳躍,導(dǎo)致它上面維護的鎖快速過期。

客戶端2從Redis節(jié)點C, D, E成功獲取了同一個資源的鎖(多數(shù)節(jié)點)。

客戶端1和客戶端2現(xiàn)在都認為自己持有了鎖。

上面這種情況之所以有可能發(fā)生,本質(zhì)上是因為Redlock的安全性(safety property)對系統(tǒng)的時鐘有比較強的依賴,一旦系統(tǒng)的時鐘變得不準(zhǔn)確,算法的安全性也就保證不了了。

但是作者反駁到,通過恰當(dāng)?shù)倪\維,完全可以避免時鐘發(fā)生大的跳動,而Redlock對于時鐘的要求在現(xiàn)實系統(tǒng)中是完全可以滿足的。哪怕是手動修改時鐘這種人為原因,不要那么做就是了。否則的話,都會出現(xiàn)問題。

說了這么多關(guān)于Redlock的問題,到底有沒有什么分布式鎖能保證安全性呢?我們接下來再來看看ZooKeeper分布式鎖。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實現(xiàn)的后臺管理系統(tǒng) + 用戶小程序,支持 RBAC 動態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能

項目地址:https://gitee.com/zhijiantianya/yudao-cloud

視頻教程:https://doc.iocoder.cn/video/

基于ZooKeeper的分布式鎖更安全嗎?

很多人(也包括Martin在內(nèi))都認為,如果你想構(gòu)建一個更安全的分布式鎖,那么應(yīng)該使用ZooKeeper,而不是Redis。那么,為了對比的目的,讓我們先暫時脫離開本文的題目,討論一下基于ZooKeeper的分布式鎖能提供絕對的安全嗎?它需要fencing token機制的保護嗎?

Flavio Junqueira是ZooKeeper的作者之一,他的這篇blog就寫在Martin和antirez發(fā)生爭論的那幾天。他在文中給出了一個基于ZooKeeper構(gòu)建分布式鎖的描述(當(dāng)然這不是唯一的方式):

客戶端嘗試創(chuàng)建一個znode節(jié)點,比如/lock。那么第一個客戶端就創(chuàng)建成功了,相當(dāng)于拿到了鎖;而其它的客戶端會創(chuàng)建失?。▃node已存在),獲取鎖失敗。

持有鎖的客戶端訪問共享資源完成后,將znode刪掉,這樣其它客戶端接下來就能來獲取鎖了。

znode應(yīng)該被創(chuàng)建成ephemeral的。這是znode的一個特性,它保證如果創(chuàng)建znode的那個客戶端崩潰了,那么相應(yīng)的znode會被自動刪除。這保證了鎖一定會被釋放。

看起來這個鎖相當(dāng)完美,沒有Redlock過期時間的問題,而且能在需要的時候讓鎖自動釋放。但仔細考察的話,并不盡然。

ZooKeeper是怎么檢測出某個客戶端已經(jīng)崩潰了呢?實際上,每個客戶端都與ZooKeeper的某臺服務(wù)器維護著一個Session,這個Session依賴定期的心跳(heartbeat)來維持。如果ZooKeeper長時間收不到客戶端的心跳(這個時間稱為Sesion的過期時間),那么它就認為Session過期了,通過這個Session所創(chuàng)建的所有的ephemeral類型的znode節(jié)點都會被自動刪除。

設(shè)想如下的執(zhí)行序列:

客戶端1創(chuàng)建了znode節(jié)點/lock,獲得了鎖。

客戶端1進入了長時間的GC pause。

客戶端1連接到ZooKeeper的Session過期了。znode節(jié)點/lock被自動刪除。

客戶端2創(chuàng)建了znode節(jié)點/lock,從而獲得了鎖。

客戶端1從GC pause中恢復(fù)過來,它仍然認為自己持有鎖。

最后,客戶端1和客戶端2都認為自己持有了鎖,沖突了。這與之前Martin在文章中描述的由于GC pause導(dǎo)致的分布式鎖失效的情況類似。

看起來,用ZooKeeper實現(xiàn)的分布式鎖也不一定就是安全的。該有的問題它還是有。但是,ZooKeeper作為一個專門為分布式應(yīng)用提供方案的框架,它提供了一些非常好的特性,是Redis之類的方案所沒有的。像前面提到的ephemeral類型的znode自動刪除的功能就是一個例子。

還有一個很有用的特性是ZooKeeper的watch機制。這個機制可以這樣來使用,比如當(dāng)客戶端試圖創(chuàng)建/lock的時候,發(fā)現(xiàn)它已經(jīng)存在了,這時候創(chuàng)建失敗,但客戶端不一定就此對外宣告獲取鎖失敗??蛻舳丝梢赃M入一種等待狀態(tài),等待當(dāng)/lock節(jié)點被刪除的時候,ZooKeeper通過watch機制通知它,這樣它就可以繼續(xù)完成創(chuàng)建操作(獲取鎖)。這可以讓分布式鎖在客戶端用起來就像一個本地的鎖一樣:加鎖失敗就阻塞住,直到獲取到鎖為止。這樣的特性Redlock就無法實現(xiàn)。

小結(jié)一下,基于ZooKeeper的鎖和基于Redis的鎖相比在實現(xiàn)特性上有兩個不同:

在正常情況下,客戶端可以持有鎖任意長的時間,這可以確保它做完所有需要的資源訪問操作之后再釋放鎖。這避免了基于Redis的鎖對于有效時間(lock validity time)到底設(shè)置多長的兩難問題。實際上,基于ZooKeeper的鎖是依靠Session(心跳)來維持鎖的持有狀態(tài)的,而Redis不支持Session。

基于ZooKeeper的鎖支持在獲取鎖失敗之后等待鎖重新釋放的事件。這讓客戶端對鎖的使用更加靈活。

總結(jié)

綜上所述,我們可以得出兩種結(jié)論:

如果僅是為了效率(efficiency),那么你可以自己選擇你喜歡的一種分布式鎖的實現(xiàn)。當(dāng)然,你需要清楚地知道它在安全性上有哪些不足,以及它會帶來什么后果,這也是為什么我們需要了解實現(xiàn)原理的原因,大多數(shù)情況下不會出問題,但是就萬一的情況,處理起來可能需要大量的時間定位問題。

如果你是為了正確性(correctness),那么請慎之又慎。就目前來說ZooKeeper的分布鎖相對于redlock更加合理。

最后,由于redlock的出現(xiàn)其實是為了保證分布式鎖的可靠性,但是由于實現(xiàn)的種種問題其可靠性并沒有ZooKeeper分布式鎖來的高,對于可容錯的希望效率的場景下,redis分布式鎖又可以完全滿足,這也是導(dǎo)致了redlock被棄用的原因。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • JVM
    JVM
    +關(guān)注

    關(guān)注

    0

    文章

    158

    瀏覽量

    12241
  • Redis
    +關(guān)注

    關(guān)注

    0

    文章

    376

    瀏覽量

    10896
收藏 人收藏

    評論

    相關(guān)推薦

    redis分布式場景實現(xiàn)

    今天帶大家深入剖析一下Redis分布式,徹底搞懂它。 場景 既然要搞懂Redis分布式,那肯
    的頭像 發(fā)表于 09-25 17:09 ?734次閱讀

    在 Java 中利用 redis 實現(xiàn)一個分布式服務(wù)

    在 Java 中利用 redis 實現(xiàn)一個分布式服務(wù)
    發(fā)表于 07-05 13:14

    Redis 分布式的正確實現(xiàn)方式

    分布式一般有三種實現(xiàn)方式:1. 數(shù)據(jù)庫樂觀;2. 基于Redis分布式;3. 基于Zoo
    的頭像 發(fā)表于 05-31 14:19 ?3612次閱讀

    為什么需要分布式 基于Zookeeper安全

    講清楚。導(dǎo)致很多讀者看了很多文章,依舊云里霧里。例如下面這些問題,你能清晰地回答上來嗎? 基于 Redis 如何實現(xiàn)一個分布式Redis 分布
    的頭像 發(fā)表于 08-10 18:06 ?5627次閱讀

    如何使用注解實現(xiàn)redis分布式!

    使用 Redis 作為分布式,將的狀態(tài)放到 Redis 統(tǒng)一維護,解決集群中單機 JVM 信息不互通的問題,規(guī)定操作順序,保護用戶的數(shù)據(jù)
    發(fā)表于 04-25 12:42 ?673次閱讀
    如何使用注解實現(xiàn)<b class='flag-5'>redis</b><b class='flag-5'>分布式</b><b class='flag-5'>鎖</b>!

    深入理解redis分布式

    深入理解redis分布式 哈嘍,大家好,我是指北君。 本篇文件我們來介紹如何Redis實現(xiàn)分布式
    的頭像 發(fā)表于 10-08 14:13 ?982次閱讀
    深入理解<b class='flag-5'>redis</b><b class='flag-5'>分布式</b><b class='flag-5'>鎖</b>

    redis分布式如何實現(xiàn)

    Redis分布式是一種基于Redis實現(xiàn)的機制,可以用于多個進程或多臺服務(wù)器之間對共享資源的并發(fā)訪問控制。在分布式系統(tǒng)中,由于多個進程或多
    的頭像 發(fā)表于 11-16 11:29 ?554次閱讀

    redis分布式可能出現(xiàn)的問題

    Redis分布式是一種常用的機制,用于解決多個進程或多臺服務(wù)器對共享資源的并發(fā)訪問問題。然而,由于分布式環(huán)境的復(fù)雜性,使用
    的頭像 發(fā)表于 11-16 11:40 ?1422次閱讀

    redis分布式死鎖處理方案

    引言: 隨著分布式系統(tǒng)的廣泛應(yīng)用,尤其是在大規(guī)模并發(fā)操作下,對并發(fā)控制的需求越來越高。Redis分布式作為一種常見的分布式
    的頭像 發(fā)表于 11-16 11:44 ?1778次閱讀

    redis分布式的應(yīng)用場景有哪些

    Redis分布式是一種基于Redis實現(xiàn)的分布式機制,可以在
    的頭像 發(fā)表于 12-04 11:21 ?1463次閱讀

    redis分布式三個方法

    Redis是一種高性能的分布式緩存和鍵值存儲系統(tǒng),它提供了一種可靠的分布式解決方案。在分布式系統(tǒng)中,由于多個節(jié)點之間的并發(fā)訪問,需要使用
    的頭像 發(fā)表于 12-04 11:22 ?1489次閱讀

    如何實現(xiàn)Redis分布式

    Redis是一個開源的內(nèi)存數(shù)據(jù)存儲系統(tǒng),可用于高速讀寫操作。在分布式系統(tǒng)中,為了保證數(shù)據(jù)的一致性和避免競態(tài)條件,常常需要使用分布式來對共享資源進行加鎖操作。
    的頭像 發(fā)表于 12-04 11:24 ?731次閱讀

    redis分布式可能出現(xiàn)的問題及解決方案

    Redis分布式是一種常見的解決分布式系統(tǒng)中并發(fā)問題的方案。雖然Redis分布式鎖具有許多優(yōu)點
    的頭像 發(fā)表于 12-04 11:29 ?1005次閱讀

    淺析Redis 分布式解決方案

    Redis 分布式解決方案是一種基于Redis實現(xiàn)的分布式機制,可以確保在
    的頭像 發(fā)表于 12-04 14:00 ?516次閱讀

    redis分布式的缺點

    Redis分布式是一種常見的用于解決分布式系統(tǒng)中資源爭用問題的解決方案。盡管Redis分布式
    的頭像 發(fā)表于 12-04 14:05 ?1288次閱讀