一
引言
垃圾回收對于Javaer來說是一個繞不開的話題,工作中涉及到的調(diào)優(yōu)工作也經(jīng)常圍繞垃圾回收器展開。面對不同的業(yè)務(wù)場景沒有一個統(tǒng)一的垃圾回收器能保證可GC性能。因此對程序員來說不僅要會編寫業(yè)務(wù)代碼,同時也要卷一下JVM底層原理和調(diào)優(yōu)知識。這種局面可能因為ZGC的出現(xiàn)而發(fā)生改變,新一代回收器ZGC幾乎不需要調(diào)優(yōu)的情況下GC停頓時間可以降低到亞秒級。
Oracle從JDK11開始正式引入ZGC,ZGC設(shè)計三大目標:
支持TB級內(nèi)存 (8M~4TB) 。
停頓時間控制在10ms之內(nèi) (生產(chǎn)環(huán)境實際觀測在微秒級) ,停頓不會隨著堆的大小,或者活躍對象的大小而增加。
對程序吞吐量影響小于15%。
ZGC是如何設(shè)計怎么達到這個目標的呢?本文將從ZGC算法的關(guān)鍵特性入手,通過分析ZGC周期處理過程來理解這些特性,探索ZGC設(shè)計思想。
二
ZGC術(shù)語
非分代:將對內(nèi)存劃分為新生代和老年代 (G1已經(jīng)邏輯分代) ,ZGC取消分代設(shè)計,每個GC周期都將標記整個堆中的所有活動對象。
頁面:ZGC將堆空間分解成一塊塊區(qū)域,這些區(qū)域叫做頁面,ZGC通過頁面來回收內(nèi)存。
并發(fā)性:GC和線程和業(yè)務(wù)線程同時運行。ZGC的高度并發(fā)設(shè)計,幾乎所有GC工作、標記和堆碎片整理都是和業(yè)務(wù)線程 (mutators) 同時運行的,只包含了短暫的STW同步暫停。
并行:多個線程進行GC線程同時工作,加快回收速度。
標記-復(fù)制算法:標記-復(fù)制算法主要包括以下3個過程。
標記階段,即從GC Roots集合開始,分析對象可達性,標記出活躍對象。
圖1:可達性分析后對象的引用狀態(tài)
對象轉(zhuǎn)移階段,即把活躍對象復(fù)制到新的內(nèi)存地址上。
重定位階段,因為轉(zhuǎn)移導(dǎo)致對象的地址發(fā)生了變化,在重定位階段,所有指向?qū)ο笈f地址的指針都要調(diào)整到對象新的地址上。
標記-復(fù)制算法的最大優(yōu)勢就是防止堆內(nèi)存碎片化的出現(xiàn),復(fù)制的過程就可以對堆內(nèi)存進行整理。ZGC、CMS和G1都是采用了標記-復(fù)制算法,但是不同的實現(xiàn)導(dǎo)致了很大的性能差異。
三
ZGC性能數(shù)據(jù)
ZGC設(shè)計致力于提供幾毫秒的最大暫停時間,同時保證吞吐量不受影響。下面是SPECjbb2015針對OpenJDK中的不同收集器運行的性能測試數(shù)據(jù)。在128G堆內(nèi)存下,無論是延遲還是吞吐量上面ZGC的性能表現(xiàn)都高于其他收集器。
圖2:SPECjbb2015GC性能評分
圖3: SPECjbb2015GC延遲比較
四
ZGC關(guān)鍵特性
ZGC的周期是高度并發(fā)的,并發(fā)性越高意味著GC工作時對業(yè)務(wù)線程的影響越小,SPECjbb2015的性能報告可以看出ZGC在延遲上比G1低10倍以上,ZGC的工作周期只有三個階段是STW的,其他階段完全并發(fā)。這得益于ZGC在堆視圖并發(fā)一致性設(shè)計上的改進。我們都清楚在并發(fā)的場景下需要協(xié)調(diào)各個線程對共享資源達成一致性,常用的手段就是對資源加鎖,而在垃圾回收器下的思路也是類似,如果GC線程工作是需要鎖定對象資源進行處理,業(yè)務(wù)線程則需要全部暫停,這就產(chǎn)生了STW (Stop The Word) 。以往的垃圾回收器都是讓GC線程和業(yè)務(wù)線程就堆中對象地址達成一致,對象在發(fā)生轉(zhuǎn)移時業(yè)務(wù)線程是不能訪問的 (因為對象的地址發(fā)生了變化) ,無論G1還是CMS對象在進行復(fù)制時都是需要STW。ZGC使用到的著色指針(Colored Pointer)和讀屏障(Load Barrier)技術(shù),可以讓所有線程在并發(fā)的條件下就指針的顏色 (狀態(tài)) 達成一致,而不是對象地址。因此,ZGC可以并發(fā)的復(fù)制對象,這大大的降低了GC的停頓時間。我們先對著色指針和讀屏障有個初步的理解,然后在通過ZGC回收周期來看這2項技術(shù)的具體運用。
著色指針(Colored Pointer)
在指針中嵌入元數(shù)據(jù)(使用地址中的高階位來實現(xiàn)),這種通過在指針存儲元數(shù)據(jù)的技術(shù)就叫做著色指針 (Colored Pointer) 。ZGC中指針始終是64位結(jié)構(gòu),由元位(指針的顏色)和地址位組成。地址位數(shù)決定了理論上支持的最大堆大小,ZGC使用42位存儲地址也就意味著ZGC最大支持4TB堆內(nèi)存。如圖所示,低42位是地址位,中間4位是元位,高18位未使用。四個元位是Finalized ( F )、Remapped ( R )、Marked1 ( M1 ) 和Marked0 ( M0 )。
圖4: 64位地址使用示意圖
ZGC中將指定上的標記通過顏色來表示,顏色可以是“good” (地址有效) 或“bad” (地址可能無效) 。指針的顏色由其元位的狀態(tài)決定:F、R、M1和M0。“good”是R、M1、M0元位中的一個被設(shè)置,另外三個未設(shè)置,比如0100、0010和 0001屬于“good”顏色。通過在指針上的顏色就能區(qū)分出對象狀態(tài),不用額外做內(nèi)存訪問,這使得ZGC在標記和轉(zhuǎn)移階段會更快。
通過設(shè)置地址元位的狀態(tài),可以形成不同地址視圖,ZGC同一物理堆內(nèi)存被映射到虛擬地址空間三次,從而產(chǎn)生同一物理內(nèi)存的三個“視圖”,GC活動的不同時期會只存在一個活躍視圖,根據(jù)垃圾回收的周期ZGC通過切換不同視圖標來記出對象的顏色。
下圖是虛擬地址的空間劃分:
圖5:虛擬地址空間劃分和多視圖映射
[0~4TB) 對應(yīng)Java堆;
[4TB ~ 8TB) 稱為M0地址空間;
[8TB ~ 12TB) 稱為M1地址空間;
[12TB ~ 16TB) 預(yù)留未使用;
[16TB ~ 20TB) 稱為Remapped空間。
ZGC是不分代的,這意味著垃圾回收是需要掃描整個堆空間,地址視圖將整個Java堆分成多個部分,并為每個部分分配一個虛擬內(nèi)存段。在垃圾回收時,ZGC只需要掃描其中一個虛擬內(nèi)存段,并將其作為當前視圖映射到實際的內(nèi)存位置。同時,ZGC會將其他虛擬內(nèi)存段映射到虛擬地址上,這些內(nèi)存段不會被收集器掃描。
讀屏障(Load Barrier)
ZGC 通過利用讀屏障而不是寫入屏障,與HotSpot JVM中以前的GC (CMS,G1等) 算法顯著不同。讀屏障解決了并發(fā)轉(zhuǎn)移時對象指針更新問題:在轉(zhuǎn)移期間,如果移動對象而不用更新引用對象的傳入指針(移動的對象可能被堆中的任何其他對象所引用),就會產(chǎn)生懸空指針 (已經(jīng)被釋放的內(nèi)存空間或者無效的內(nèi)存地址,訪問懸空指針會出現(xiàn)問題) 。通過讀屏障技術(shù)能夠捕獲此類懸空指針對象,并觸發(fā)代碼,更新對象的新位置,從而“修復(fù)”懸空指針。為了跟蹤對象如何移動,以便在加載時固定懸空指針,ZGC中使用轉(zhuǎn)發(fā)表 (forwarding tables ) 來將重定位前(舊)地址映射到重定位后(新)地址。無論是業(yè)務(wù)線程作為使用者訪問對象,還是GC線程遍歷堆中的所有活動對象(在標記期間)都有可能會觸發(fā)讀屏障。
ZGC讀屏障如何實現(xiàn)呢?舉個例子,代碼 var x = obj.field。x是一個位于堆棧上的局部變量,field是一個位于堆上的指針。業(yè)務(wù)線程在操作堆對象時觸發(fā)讀屏障。讀屏障的執(zhí)行路徑有快 (fast path) 和慢 (slow path) 兩種,如果正在加載的指針有效狀態(tài) (good color) ,則采用加載屏障的快速路徑,否則,采用慢速路徑。快速路徑實際上是空的,而慢速路徑包含計算有效狀態(tài)指針的邏輯:檢查對象是否已經(jīng)(或即將)重新定位,如果是,則查找或生成新的地址。讀屏障除了能讓觸發(fā)讀屏障的線程讀取到最新地址,同時還具有自我修復(fù)指針(self-healed)的功能,這意味著讀屏障會修改指針的狀態(tài),以便后續(xù)其他線程訪問時能執(zhí)行快速路徑。無論采用哪條路徑,都會返回正確狀態(tài)的地址。下面用偽代碼表示ZGC在執(zhí)行讀屏障時的大體邏輯:
?
?
/** slot?是值線程棧中的局部變量,也就是屏障要操作的目標對象 */ unintptr_t barrier(unintptr_t *slot,unintptr_t addr){ //快速路徑,fast path if(is_good_or_null(addr))return addr; //慢速路徑,slow path good_addr = process(addr); //自我修復(fù) self_heal(slot,addr,good_addr); return good_addr; } /* 自我修復(fù),將指針恢復(fù)到正常狀態(tài) */ void self_heal(unintptr_t *slot,unintptr_t old_addr,unintptr_t new_addr){ if(new_addr == 0)return; while(true){ if(CAS(slot,&old_addr,new_addr) return; if(is_good_or_null(old_addr)) return; } }
?
?
ZGC的讀屏障可能被GC線程和業(yè)務(wù)線程觸發(fā),并且只會在訪問堆內(nèi)對象時觸發(fā),訪問的對象位于GC Roots時不會觸發(fā),這也是掃描GC Roots時需要STW的原因。
下面是一個簡化的示例代碼,展示了讀屏障的觸發(fā)時機。
?
?
Object o = obj.FieldA // 從堆中讀取引用,需要加入屏障Object p = o // 無需加入屏障,因為不是從堆中讀取引用 o.dosomething() // 無需加入屏障,因為不是從堆中讀取引用 int i = obj.FieldB //無需加入屏障,因為不是對象引用
?
?
五
ZGC執(zhí)行周期
如下圖 所示,ZGC 周期由三個 STW 暫停和四個并發(fā)階段組成:標記/重新映射( M/R )、并發(fā)引用處理( RP )、并發(fā)轉(zhuǎn)移準備( EC ) 和并發(fā)轉(zhuǎn)移( RE )。為了讀者能快速理解,下面對ZGC執(zhí)行過程進行了大量簡化。
圖6:ZGC周期表示
初始標記(STW1)
ZGC 初始標記執(zhí)行包含三個主要任務(wù)。
地址視圖被設(shè)置成M0 (或M1) ,M0還是M1根據(jù)前一周期交替設(shè)置的。
重新分配新的頁面給業(yè)務(wù)線程創(chuàng)建對象,ZGC只會處理當前周期之前分配的頁面。
初始標記只會存活的根對象被標記為M0 (M1) ,并被加入標記棧進行并發(fā)標記。
GC周期中地址視圖窗口
圖7:ZGC周期中狀態(tài)窗口劃分
并發(fā)標記(M/R)
并發(fā)標記的任務(wù)有2個:
第一,并發(fā)標記線程從待標記的對象列表出發(fā),根據(jù)對象引用關(guān)系圖遍歷對象的成員變量,遞歸進行標記。
第二,計算,并更新關(guān)聯(lián)頁面的活躍度信息?;顒有畔⑹琼撁嫔系幕顒幼止?jié)數(shù),用于選擇將要回收的頁面,這些對象將作為堆碎片整理的一部分進行重新定位。
下面?zhèn)未a是并發(fā)標記的主要過程:
?
?
while(obj in mark_stack){ //標記存活對象,當且僅當該對象未被標記并且當前線程成功標記該對象時才返回true success = mark_obj(obj); if(success){ for(e in obj->ref_fields()){ MarkBarrier(slot_of_e,e); } } } //GC線程調(diào)用 //EC是待回收頁面的集合 void MarkBarrier(uintptr_t *slot,unintptr_t addr){ if(is_null(addr))return; //判斷是否在待回收集合內(nèi) if(is_pointing_into(addr,EC)){ //地址重映射到當前GC視圖 good_addr = remap(addr); } else { good_addr = good_color(addr); } //訪問的對象添加到標記棧 mark_stack->add(good_addr); self_heal(slot,addr,good_addr); } //讀屏障前面有介紹過,由業(yè)務(wù)線程調(diào)用 void LoadBarrier(uintptr_t *slot,unintptr_t addr){ if(is_null(addr))return; if(is_pointing_into(addr,EC)){ good_addr = remap(addr); } else { good_addr = good_color(addr); } mark_stack->add(good_addr); self_heal(slot,addr,good_addr); return good_addr; }
?
?
代碼片段顯示了并發(fā)標記階段的GC線程主循環(huán)。mark_obj()當且僅當該對象未被標記并且當前線程成功標記該對象時才返回 true。它在內(nèi)部使用原子操作(compare and swap,CAS)來設(shè)置位圖中的位,因此它是線程安全的。MarkBarrier()遍歷該對象的成員屬性,完成對象引用的標記。并發(fā)標記時業(yè)務(wù)線程也在運行,此前如果業(yè)務(wù)線程訪問對象將執(zhí)行LoadBarrier()協(xié)助GC線程完成對象標記。
再標記階段(STW2)
再標記階段的主要任務(wù)有3個:
執(zhí)行修復(fù)任務(wù),指線程運行C2編譯的代碼,在進入再標記階段時可能發(fā)生漏標。
結(jié)束標記,并發(fā)標記后業(yè)務(wù)線程本地標記棧可能存在待標記的對象,執(zhí)行本步驟的目的就是對這些待標記對象進行標記。
執(zhí)行部分非強根并行標記。
并發(fā)轉(zhuǎn)移準備(EC)
并發(fā)轉(zhuǎn)移準備任務(wù):
篩選所有可以被回收的頁面
選擇垃圾比較多的頁面作為頁面轉(zhuǎn)移集
初始轉(zhuǎn)移(STW3)
初始轉(zhuǎn)移主要以下過程:
調(diào)整地址視圖:將地址視圖從M0或者M1調(diào)整為Remapped,說明進入真正的轉(zhuǎn)移,此后所有分配的對象視圖都是Remapped。
重定位TLAB:因為地址視圖調(diào)整,所以要調(diào)整TLAB中地址的視圖。
開始轉(zhuǎn)移:從根集合出發(fā),遍歷根對象的直接引用的對象,對這些對象進行轉(zhuǎn)移。
初始轉(zhuǎn)移是STW的,其處理時間和GC Roots的數(shù)量成正比,一般情況耗時非常短。
并發(fā)轉(zhuǎn)移(RE)
初始轉(zhuǎn)移完成了GC Roots對象重定位,在并發(fā)轉(zhuǎn)移階段將對前面步驟確定的轉(zhuǎn)移集 (EC) ,對轉(zhuǎn)移集的每一頁執(zhí)行轉(zhuǎn)移。
并發(fā)轉(zhuǎn)移的過程可以抽象成如下偽代碼過程:
?
?
//GC線程主循環(huán)遍歷EC的頁面,將個將EC集頁面中對象進行轉(zhuǎn)移 for (page in EC){ for(obj in page){ relocate(obj); } } //該方法GC和業(yè)務(wù)線程都有可能執(zhí)行,如果是業(yè)務(wù)線程訪問對象會先進行轉(zhuǎn)移在進行操作 unintptr_t relocate(unintptr_t obj) { //獲取對象的地址轉(zhuǎn)發(fā)表 ft = forwarding_tables_get(obj); if (ft->exist(obj)){ return ft->get(obj); } new_obj = copy(obj); //CAS寫對象轉(zhuǎn)發(fā)表數(shù)據(jù) if(ft->insert(obj,new_obj)){ return new_obj; } //CAS發(fā)生競爭,寫轉(zhuǎn)發(fā)表失敗,釋放分配的內(nèi)存 dealloc(new_obj) return ft->get(obj); }
?
?
轉(zhuǎn)發(fā)表的作用是存儲對轉(zhuǎn)移后舊地址到新地址的映射,轉(zhuǎn)發(fā)表的數(shù)據(jù)存儲在頁面中,轉(zhuǎn)移完成的頁面即可被回收掉。
并發(fā)轉(zhuǎn)移完成之后整個ZGC周期完成。
六
ZGC算法演示
為了說明ZGC算法,下圖演示了示例中的所有階段。
圖8:ZGC算法演示
圖8(1)顯示了堆的初始狀態(tài),應(yīng)用啟動后ZGC完成了初始化。
在圖8(2)中,選擇M0作為全局標記,并且所有根指針都被標記成M0。然后,所有根都被推送到標記堆棧,該標記堆棧在并發(fā)標記 (M/R) 期間由GC線程消耗。
如圖8(3)所示,圖中用合適的顏色繪制對象本身,以表明它們已被標記,即使指針有狀態(tài)。
在圖8(4) 中,選擇存活對象最少的頁面(中間的頁面)作為轉(zhuǎn)移候選集 (EC) 。
隨后,在圖8(5)中,全局標記被設(shè)置為Remmaped,并且所有根指針都已更新Remmaped。如果根指向EC,則相應(yīng)的對象將被重新定位,并且根指針更新為新地址。
在圖8(6)中,EC中的對象被轉(zhuǎn)移,并且地址記錄被逐出頁面中轉(zhuǎn)發(fā)表上,用于新舊地址轉(zhuǎn)換。當并發(fā)轉(zhuǎn)移階段結(jié)束時,當前GC周期也會結(jié)束。當前周期內(nèi)整個EC都會被回收。這里可能有個疑問,對象的舊地址還沒有更新,頁面如果被回收了如何還能訪問對象呢?原因是回收的是頁面中對象存儲空間,轉(zhuǎn)發(fā)表不會被回收,如果此時業(yè)務(wù)線程訪問這些對象,會觸發(fā)讀屏障的慢路徑位,失效指針會被修復(fù)。對于沒有訪問到的失效指針,直到下一個GC并發(fā)標記 (M/R) 階段才會被修復(fù)。
在圖8(7)中,下一個GC循環(huán)開始,M1被選擇為全局狀態(tài)(M0 和 M1 之間交替使用)。
在圖8(8)中,并發(fā)標記階段 (M/R) 通過查詢轉(zhuǎn)發(fā)表失效的指標被映射到新位置。
最后,在圖8(9)中,上一周期EC頁面的轉(zhuǎn)發(fā)表被回收,為即將到來的并發(fā)轉(zhuǎn)移 (RE) 階段做準備。
七
總結(jié)
ZGC是一個十分復(fù)雜的JVM子系統(tǒng),沒辦法通過一篇文章把所有的細節(jié)描述清楚。本文詳細探討了ZGC的著色指針和讀屏障關(guān)鍵技術(shù),他們也是ZGC中創(chuàng)新點,最后通過一個示例對ZGC算法過程做了一個簡化版的演示。通過對ZGC這種復(fù)雜系統(tǒng)的學習,讓我也體會到分析復(fù)雜系統(tǒng)時沒必要一開始就過多的糾結(jié)實現(xiàn)細節(jié),可以先從關(guān)鍵流程入手再層層深入。
ZGC的高并發(fā)設(shè)計造就了它的高性能,背后要歸功于著色指針和讀屏障運用,當然除了這2項還有其他精妙的設(shè)計比如:內(nèi)存模型,并發(fā)模型,預(yù)測算法等這里不展開,讀者可以參考其他文章。了解ZGC的基本原理可以幫助優(yōu)化應(yīng)用程序的性能,為應(yīng)用調(diào)優(yōu)做些知識儲備。最后,ZGC有卓越的性能和穩(wěn)定性表現(xiàn),我們在選擇GC選型時可以優(yōu)先考慮使用ZGC。
編輯:黃飛
?
評論
查看更多