問(wèn)題表現(xiàn)
最近的迭代轉(zhuǎn)測(cè)后遇到了一個(gè)比較有意思的問(wèn)題。在測(cè)試環(huán)境整體運(yùn)行還算平穩(wěn),但是過(guò)一段時(shí)間之后,就開始有接口超時(shí)了,日志中出現(xiàn)非常多的 “java.net.SocketTimeoutException: Read timed out”。試了幾次重啟大法,每次都是只能堅(jiān)持一會(huì)之后,再次出現(xiàn) SocketTimeoutException。
注意 :在測(cè)試環(huán)境于遇到問(wèn)題重啟服務(wù),并不是一個(gè)好的實(shí)踐,因?yàn)橹貑⒖赡軙?huì)讓不容易出現(xiàn)的問(wèn)題現(xiàn)場(chǎng)被破壞。如果問(wèn)題在測(cè)試環(huán)境不能再重新,卻在發(fā)版后出現(xiàn)在生產(chǎn)環(huán)境的話,那不僅會(huì)造成生產(chǎn)運(yùn)維事件,還要在巨大的壓力下去解決問(wèn)題。
基于 Spring Boot + MyBatis Plus + Vue & Element 實(shí)現(xiàn)的后臺(tái)管理系統(tǒng) + 用戶小程序,支持 RBAC 動(dòng)態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能
- 項(xiàng)目地址:https://github.com/YunaiV/ruoyi-vue-pro
- 視頻教程:https://doc.iocoder.cn/video/
初步分析
順著測(cè)試匯報(bào)的出現(xiàn)問(wèn)題的場(chǎng)景,跟蹤調(diào)用鏈上相關(guān)服務(wù)的日志,發(fā)現(xiàn)出現(xiàn)了微服務(wù)之間循依賴調(diào)用。大致情況可以抽象如下所示(圖中所有調(diào)用都是 http 協(xié)議):
- Client 調(diào)用服務(wù) Foo.hello()
- Foo.hello() 邏輯中會(huì)調(diào)用服務(wù) Boo.boo()
- Boo.boo() 又調(diào)用回服務(wù) Foo 的另外一個(gè)方法 another()
當(dāng)然真實(shí)的場(chǎng)景要比較這個(gè)復(fù)雜,調(diào)用鏈更長(zhǎng),不過(guò)最終形成了環(huán)形依賴調(diào)用。至于這個(gè)環(huán)形依賴為什么回導(dǎo)致超時(shí),當(dāng)時(shí)想了多種可能,比如數(shù)據(jù)庫(kù)慢查詢、數(shù)據(jù)庫(kù)鎖、分布式鎖等等。但是整個(gè)調(diào)用鏈上都是查詢請(qǐng)求,而且查詢相關(guān)的數(shù)據(jù)量也非常小,不會(huì)有鎖存在。發(fā)生問(wèn)題的時(shí)候也沒(méi)有與查詢數(shù)據(jù)相關(guān)的數(shù)據(jù)庫(kù)寫請(qǐng)求。
鑒于這個(gè)環(huán)形依賴調(diào)用確實(shí)是這個(gè)迭代版本中引入的變更,以及雖然沒(méi)有理清其中的因果關(guān)系原理,但是這個(gè)環(huán)性依賴調(diào)用還是很可疑的,而且是不必要的環(huán)形調(diào)用。就抱著將環(huán)形依賴調(diào)用去掉試試看的態(tài)度,做了修復(fù)。修復(fù)完后,SocketTimeoutException 不再出現(xiàn)了。問(wèn)題解決了。
基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實(shí)現(xiàn)的后臺(tái)管理系統(tǒng) + 用戶小程序,支持 RBAC 動(dòng)態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能
探尋原因
問(wèn)題雖然不再出現(xiàn),但是憑運(yùn)氣解決的問(wèn)題,通常有可能不是真的的解決。只有弄清楚背后的原理,我們才能真正的確認(rèn)問(wèn)題是不是這個(gè)原因?qū)е碌?,這樣的修復(fù)是不是真的把問(wèn)題解決了。
通過(guò)假設(shè)環(huán)形調(diào)用就是導(dǎo)致調(diào)用超時(shí)的直接原因。我們看看能不能推出因果關(guān)系。通過(guò)把Foo 服務(wù)容器畫的更詳細(xì)一點(diǎn),如下圖:
通過(guò)這個(gè)圖示,我們可以發(fā)現(xiàn),如果容器中接收請(qǐng)求的線程池如果都在等待服務(wù)Boo.boo() 的響應(yīng),而 Boo 又需要調(diào)用回服務(wù) Foo.another()。這個(gè)時(shí)候,如果所有的線程都處于這樣的狀態(tài),我們就會(huì)發(fā)現(xiàn)服務(wù) Foo 容器中以及沒(méi)有線程來(lái)處理 Boo 的請(qǐng)求了。某種程度上來(lái)說(shuō)就是死鎖了。到這里,我們就可以很確定了,這個(gè)環(huán)形依賴調(diào)用就是導(dǎo)致出現(xiàn)調(diào)用超時(shí)的罪魁禍?zhǔn)?。?dāng) client 發(fā)起的請(qǐng)求速度大于這個(gè)環(huán)形調(diào)用鏈的處理速度的時(shí)候,慢慢的就會(huì)導(dǎo)致服務(wù) Foo 的所有線程都進(jìn)入這種死鎖狀態(tài)。
驗(yàn)證
這里只列出關(guān)鍵的代碼,具體的代碼可以參考 gitee 工程:https://gitee.com/donghbcn/CircularDependency
Eureka 服務(wù)器
建個(gè)簡(jiǎn)單工程將Eureka server啟動(dòng)起來(lái)。
服務(wù) Foo
創(chuàng)建 SpringBoot 工程實(shí)現(xiàn) Foo 服務(wù)。Foo 通過(guò) FeignClient 調(diào)用 Boo 服務(wù)。設(shè)置缺省的容器 Tomcat 的最大線程數(shù)為 16,Tomcat 默認(rèn)配置最大線程數(shù) 200,對(duì)于驗(yàn)證這個(gè)場(chǎng)景有點(diǎn)了大了,要看到效果需要等的時(shí)間有點(diǎn)長(zhǎng)。
application.properties
spring.application.name=demo-foo
server.port=8000
eureka.client.serviceUrl.defaultZone=http://localhost:8080/eureka
server.tomcat.threads.max=16
packagecom.cd.demofoo;
importorg.springframework.beans.factory.annotation.Autowired;
importorg.springframework.web.bind.annotation.RequestMapping;
importorg.springframework.web.bind.annotation.RestController;
@RestController
publicclassFooController{
@Autowired
BooFeignClientbooFeignClient;
@RequestMapping("/hello")
publicStringhello(){
longstart=System.currentTimeMillis();
System.out.println("["+Thread.currentThread()+
"]foo:hellocalled,callboo:boonow");
booFeignClient.boo();
System.out.println("["+Thread.currentThread()+
"]foo:hellocalled,callboo:boo,totalcost:"+
(System.currentTimeMillis()-start));
return"helloworld";
}
@RequestMapping("/another")
publicStringanother(){
longstart=System.currentTimeMillis();
try{
//通過(guò)slepp模擬一個(gè)耗時(shí)調(diào)用
Thread.sleep(100);
}catch(InterruptedExceptione){
e.printStackTrace();
}
System.out.println("foo:anothercalled,totalcost:"+(System.currentTimeMillis()-start));
return"another";
}
}
服務(wù) Boo
創(chuàng)建 SpringBoot 工程實(shí)現(xiàn) Boo 服務(wù)。Boo 通過(guò) FeignClient 調(diào)用 Foo 服務(wù)。
packagecom.cd.demoboo;
importorg.springframework.beans.factory.annotation.Autowired;
importorg.springframework.web.bind.annotation.RequestMapping;
importorg.springframework.web.bind.annotation.RestController;
@RestController
publicclassBooController{
@Autowired
FooFeignClientfooFeignClient;
@RequestMapping("/boo")
publicStringboo(){
longstart=System.currentTimeMillis();
fooFeignClient.another();
System.out.println("boo:boocalled,callfoo:another,totalcost:"+
(System.currentTimeMillis()-start));
return"boo";
}
}
Jmeter
采用 Jmeter 來(lái)模擬并發(fā) Client 調(diào)用。配置了30 個(gè) 線程,無(wú)限循環(huán)。
很快服務(wù) Foo 日志就卡死了。過(guò)一會(huì) Boo 的日志開始出現(xiàn) SocketTimeoutException,如下圖:
jstack
通過(guò) jstack 我們可以看到 Foo 進(jìn)程的所有線程都卡在 hello() 調(diào)用上了。
總結(jié)
微服務(wù)之間的環(huán)形依賴類似于類之間的循環(huán)依賴,當(dāng)依賴關(guān)系形成了環(huán),會(huì)造成比較嚴(yán)重的問(wèn)題:
- 微服務(wù)直接不能形成環(huán)形調(diào)用,否則非常容易出現(xiàn)死鎖狀態(tài)
- 微服務(wù)之間的耦合性非常強(qiáng),這嚴(yán)重違反了微服務(wù)的初衷;這種情況往往是服務(wù)之間的調(diào)用沒(méi)有約束導(dǎo)致的,為了方便取到或更新數(shù)據(jù),服務(wù)之間可以隨意的調(diào)用,以”微服務(wù)“為設(shè)計(jì)目標(biāo)的系統(tǒng)會(huì)逐漸演變成一個(gè)分布式大單體
審核編輯 :李倩
-
線程
+關(guān)注
關(guān)注
0文章
505瀏覽量
19695 -
微服務(wù)
+關(guān)注
關(guān)注
0文章
137瀏覽量
7359
原文標(biāo)題:微服務(wù)循環(huán)依賴調(diào)用引發(fā)的血案
文章出處:【微信號(hào):芋道源碼,微信公眾號(hào):芋道源碼】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論