歡迎光臨
每天分享高質量文章

Java虛擬機器 5:Java垃圾回收(GC)機制詳解

 (點選上方公眾號,可快速關註)


來源:五月的倉頡,

www.cnblogs.com/xrq730/p/4836700.html

哪些記憶體需要回收?

哪些記憶體需要回收是垃圾回收機制第一個要考慮的問題,所謂“要回收的垃圾”無非就是那些不可能再被任何途徑使用的物件。那麼如何找到這些物件?

1、取用計數法

這個演演算法的實現是,給物件中新增一個取用計數器,每當一個地方取用這個物件時,計數器值+1;當取用失效時,計數器值-1。任何時刻計數值為0的物件就是不可能再被使用的。這種演演算法使用場景很多,但是,Java中卻沒有使用這種演演算法,因為這種演演算法很難解決物件之間相互取用的情況。看一段程式碼:

/**

 * 虛擬機器引數:-verbose:gc

 */

public class ReferenceCountingGC

{

    private Object instance = null;

    private static final int _1MB = 1024 * 1024;

 

    /** 這個成員屬性唯一的作用就是佔用一點記憶體 */

    private byte[] bigSize = new byte[2 * _1MB];

 

    public static void main(String[] args)

    {

        ReferenceCountingGC objectA = new ReferenceCountingGC();

        ReferenceCountingGC objectB = new ReferenceCountingGC();

        objectA.instance = objectB;

        objectB.instance = objectA;

        objectA = null;

        objectB = null;

 

        System.gc();

    }

}

看下執行結果:

[GC 4417K->288K(61440K), 0.0013498 secs]

[Full GC 288K->194K(61440K), 0.0094790 secs]

看到,兩個物件相互取用著,但是虛擬機器還是把這兩個物件回收掉了,這也說明虛擬機器並不是透過取用計數法來判定物件是否存活的。

2、可達性分析法

這個演演算法的基本思想是透過一系列稱為“GC Roots”的物件作為起始點,從這些節點向下搜尋,搜尋所走過的路徑稱為取用鏈,當一個物件到GC Roots沒有任何取用鏈(即GC Roots到物件不可達)時,則證明此物件是不可用的。在Java語言中可以作為GC Roots的物件包括:

  • 虛擬機器棧中取用的物件

  • 方法區中靜態屬性取用的物件

  • 方法區中常量取用的物件

  • 本地方法棧中JNI(即Native方法)取用的物件

4種取用狀態

在JDK1.2之前,Java中取用的定義很傳統:如果取用型別的資料中儲存的數值代表的是另一塊記憶體的起始地址,就稱這塊記憶體代表著一個取用。這種定義很純粹,但是太過於狹隘,一個物件只有被取用或者沒被取用兩種狀態。我們希望描述這樣一類物件:當記憶體空間還足夠時,則能保留在記憶體中;如果記憶體空間在進行垃圾收集後還是非常緊張,則可以拋棄這些物件。很多系統的快取功能都符合這樣的應用場景。在JDK1.2之後,Java對取用的概念進行了擴充,將取用分為強取用、軟取用、弱取用、虛取用4種,這4種取用強度依次減弱。

1、強取用

程式碼中普遍存在的類似”Object obj = new Object()”這類的取用,只要強取用還存在,垃圾收集器永遠不會回收掉被取用的物件

2、軟取用

描述有些還有用但並非必需的物件。在系統將要發生記憶體上限溢位異常之前,將會把這些物件列進回收範圍進行二次回收。如果這次回收還沒有足夠的記憶體,才會丟擲記憶體上限溢位異常。Java中的類SoftReference表示軟取用

3、弱取用

描述非必需物件。被弱取用關聯的物件只能生存到下一次垃圾回收之前,垃圾收集器工作之後,無論當前記憶體是否足夠,都會回收掉只被弱取用關聯的物件。Java中的類WeakReference表示弱取用

4、虛取用

這個取用存在的唯一目的就是在這個物件被收集器回收時收到一個系統通知,被虛取用關聯的物件,和其生存時間完全沒關係。Java中的類PhantomReference表示虛取用

方法區回收

虛擬機器規範中不要求方法區一定要實現垃圾回收,而且方法區中進行垃圾回收的效率也確實比較低,但是HotSpot對方法區也是進行回收的,主要回收的是廢棄常量和無用的類兩部分。判斷一個常量是否“廢棄常量”比較簡單,只要當前系統中沒有任何一處取用該常量就好了,但是要判定一個類是否“無用的類”條件就要苛刻很多,類需要同時滿足以下三個條件:

  1. 該類所有實體都已經被回收,也就是說Java堆中不存在該類的任何實體

  2. 載入該類的ClassLoader已經被回收

  3. 該類對應的java.lang.Class物件沒有在任何地方被取用,無法在任何地方透過反射訪問該類的方法

在大量使用反射、動態代理、CGLib等ByteCode框架、動態生成JSP以及OSGi這類頻繁自定義ClassLoader的場景都需要虛擬機器具備類解除安裝功能,以保證方法區不會上限溢位。

垃圾回收演演算法

第一步考量了哪些物件進行回收後,第二步自然是如何對物件進行回收了。這裡主要寫幾種垃圾回收演演算法的思想。

1、標記-清除(Mark-Sweep)演演算法

這是最基礎的演演算法,標記-清除演演算法就如同它的名字樣,分為“標記”和“清除”兩個階段:首先標記出所有需要回收的物件,標記完成後統一回收所有被標記的物件。這種演演算法的不足主要體現在效率和空間,從效率的角度講,標記和清除兩個過程的效率都不高;從空間的角度講,標記清除後會產生大量不連續的記憶體碎片, 記憶體碎片太多可能會導致以後程式執行過程中在需要分配較大物件時,無法找到足夠的連續記憶體而不得不提前觸發一次垃圾收集動作。標記-清除演演算法執行過程如圖:

2、複製(Copying)演演算法

複製演演算法是為瞭解決效率問題而出現的,它將可用的記憶體分為兩塊,每次只用其中一塊,當這一塊記憶體用完了,就將還存活著的物件複製到另外一塊上面,然後再把已經使用過的記憶體空間一次性清理掉。這樣每次只需要對整個半區進行記憶體回收,記憶體分配時也不需要考慮記憶體碎片等複雜情況,只需要移動指標,按照順序分配即可。複製演演算法的執行過程如圖:

不過這種演演算法有個缺點,記憶體縮小為了原來的一半,這樣代價太高了。現在的商用虛擬機器都採用這種演演算法來回收新生代,不過研究表明1:1的比例非常不科學,因此新生代的記憶體被劃分為一塊較大的Eden空間和兩塊較小的Survivor空間,每次使用Eden和其中一塊Survivor。每次回收時,將Eden和Survivor中還存活著的物件一次性複製到另外一塊Survivor空間上,最後清理掉Eden和剛才用過的Survivor空間。HotSpot虛擬機器預設Eden區和Survivor區的比例為8:1,意思是每次新生代中可用記憶體空間為整個新生代容量的90%。當然,我們沒有辦法保證每次回收都只有不多於10%的物件存活,當Survivor空間不夠用時,需要依賴老年代進行分配擔保(Handle Promotion)。

3、標記-整理(Mark-Compact)演演算法

複製演演算法在物件存活率較高的場景下要進行大量的複製操作,效率很低。萬一物件100%存活,那麼需要有額外的空間進行分配擔保。老年代都是不易被回收的物件,物件存活率高,因此一般不能直接選用複製演演算法。根據老年代的特點,有人提出了另外一種標記-整理演演算法,過程與標記-清除演演算法一樣,不過不是直接對可回收物件進行清理,而是讓所有存活物件都向一端移動,然後直接清理掉邊界以外的記憶體。標記-整理演演算法的工作過程如圖:

分代收集

根據上面的內容,用一張圖概括一下堆記憶體的佈局

現代商用虛擬機器基本都採用分代收集演演算法來進行垃圾回收。這種演演算法沒什麼特別的,無非是上面內容的結合罷了,根據物件的生命週期的不同將記憶體劃分為幾塊,然後根據各塊的特點採用最適當的收集演演算法。大批物件死去、少量物件存活的,使用複製演演算法,複製成本低;物件存活率高、沒有額外空間進行分配擔保的,採用標記-清理演演算法或者標記-整理演演算法。

垃圾收集器

垃圾收集器就是上面講的理論知識的具體實現了。不同虛擬機器所提供的垃圾收集器可能會有很大差別,我們使用的是HotSpot,HotSpot這個虛擬機器所包含的所有收集器如圖:

上圖展示了7種作用於不同分代的收集器,如果兩個收集器之間存在連線,那說明它們可以搭配使用。虛擬機器所處的區域說明它是屬於新生代收集器還是老年代收集器。多說一句,我們必須要明白一個道理:沒有最好的垃圾收集器,更加沒有萬能的收集器,只能選擇對具體應用最合適的收集器。這也是HotSpot為什麼要實現這麼多收集器的原因。OK,下麵一個一個看一下收集器:

1、Serial收集器

最基本、發展歷史最久的收集器,這個收集器是一個採用複製演演算法的單執行緒的收集器,單執行緒一方面意味著它只會使用一個CPU或一條執行緒去完成垃圾收集工作,另一方面也意味著它進行垃圾收集時必須暫停其他執行緒的所有工作,直到它收集結束為止。後者意味著,在使用者不可見的情況下要把使用者正常工作的執行緒全部停掉,這對很多應用是難以接受的。不過實際上到目前為止,Serial收集器依然是虛擬機器執行在Client樣式下的預設新生代收集器,因為它簡單而高效。使用者桌面應用場景中,分配給虛擬機器管理的記憶體一般來說不會很大,收集幾十兆甚至一兩百兆的新生代停頓時間在幾十毫秒最多一百毫秒,只要不是頻繁發生,這點停頓是完全可以接受的。

2、ParNew收集器

ParNew收集器其實就是Serial收集器的多執行緒版本,除了使用多條執行緒進行垃圾收集外,其餘行為和Serial收集器完全一樣,包括使用的也是複製演演算法。ParNew收集器除了多執行緒以外和Serial收集器並沒有太多創新的地方,但是它卻是Server樣式下的虛擬機器首選的新生代收集器,其中有一個很重要的和效能無關的原因是,除了Serial收集器外,目前只有它能與CMS收集器配合工作(看圖)。CMS收集器是一款幾乎可以認為有劃時代意義的垃圾收集器,因為它第一次實現了讓垃圾收集執行緒與使用者執行緒基本上同時工作。ParNew收集器在單CPU的環境中絕對不會有比Serial收集器更好的效果,甚至由於執行緒互動的開銷,該收集器在兩個CPU的環境中都不能百分之百保證可以超越Serial收集器。當然,隨著可用CPU數量的增加,它對於GC時系統資源的有效利用還是很有好處的。它預設開啟的收集執行緒數與CPU數量相同,在CPU數量非常多的情況下,可以使用-XX:ParallelGCThreads引數來限制垃圾收集的執行緒數。

3、Parallel收集器

Parallel收集器也是一個新生代收集器,也是用複製演演算法的收集器,也是並行的多執行緒收集器,但是它的特點是它的關註點和其他收集器不同。介紹這個收集器主要還是介紹吞吐量的概念。CMS等收集器的關註點是盡可能縮短垃圾收集時使用者執行緒的停頓時間,而Parallel收集器的標的則是打到一個可控制的吞吐量。所謂吞吐量的意思就是CPU用於執行使用者程式碼時間與CPU總消耗時間的比值,即吞吐量=執行使用者程式碼時間/(執行使用者程式碼時間+垃圾收集時間),虛擬機器總執行100分鐘,垃圾收集1分鐘,那吞吐量就是99%。另外,Parallel收集器是虛擬機器執行在Server樣式下的預設垃圾收集器。

停頓時間短適合需要與使用者互動的程式,良好的響應速度能提升使用者體驗;高吞吐量則可以高效率利用CPU時間,儘快完成運算任務,主要適合在後臺運算而不需要太多互動的任務。

虛擬機器提供了-XX:MaxGCPauseMillis和-XX:GCTimeRatio兩個引數來精確控制最大垃圾收集停頓時間和吞吐量大小。不過不要以為前者越小越好,GC停頓時間的縮短是以犧牲吞吐量和新生代空間換取的。由於與吞吐量關係密切,Parallel收集器也被稱為“吞吐量優先收集器”。Parallel收集器有一個-XX:+UseAdaptiveSizePolicy引數,這是一個開關引數,這個引數開啟之後,就不需要手動指定新生代大小、Eden區和Survivor引數等細節引數了,虛擬機器會根據當親系統的執行情況手機效能監控資訊,動態調整這些引數以提供最合適的停頓時間或者最大的吞吐量。如果對於垃圾收集器運作原理不太瞭解,以至於在最佳化比較困難的時候,使用Parallel收集器配合自適應調節策略,把記憶體管理的調優任務交給虛擬機器去完成將是一個不錯的選擇。

4、Serial Old收集器

Serial收集器的老年代版本,同樣是一個單執行緒收集器,使用“標記-整理演演算法”,這個收集器的主要意義也是在於給Client樣式下的虛擬機器使用。

5、Parallel Old收集器

Parallel收集器的老年代版本,使用多執行緒和“標記-整理”演演算法。這個收集器在JDK 1.6之後的出現,“吞吐量優先收集器”終於有了比較名副其實的應用組合,在註重吞吐量以及CPU資源敏感的場合,都可以優先考慮Parallel收集器+Parallel Old收集器的組合。

6、CMS收集器

CMS收集器是一種以獲取最短回收停頓時間為標的的老年代收集器。目前很大一部分Java應用集中在網際網路站或者B/S系統的服務端上,這類應用尤其註重服務的響應速度,希望系統停頓時間最短,以給使用者帶來較好的體驗,CMS收集器就非常符合這類應用的需求。CMS收集器從名字就能看出是基於“標記-清除”演演算法實現的。

7、G1收集器

G1(Garbage-First)收集器是當今收集器技術發展的最前沿成果之一,JDK 7 Update 4後開始進入商用。在G1收集器之前的其他收集器進行收集的範圍都是整個新生代或者老年代,而G1收集器不再是這樣,使用G1收集器時,Java堆的記憶體佈局就與其他收集器有很大差別,它將整個Java堆分為多個大小相等的獨立區域(Region),雖然還保留有新生代和老年代的概念,但新生代和老年代不再是物理隔離的了,它們都是一部分Region的集合。G1收集器跟蹤各個Region裡面的垃圾堆積的價值大小,在後臺維護一個優先串列,每次根據允許的收集時間,優先回收價值最大的Region(這也是Garbage-First名稱的由來)。這種使用Region劃分記憶體空間以及有優先順序的區域回收方式,保證了G1收集器在有限的時間內可以獲取盡可能高的收集效率。

垃圾收集器總結

來看一下對垃圾收集器的總結,列了一張表

GC日誌

每種收集器的日誌形式都是由它們自身的實現所決定的,換言之,每種收集器的日誌格式都可以不一樣。不過虛擬機器為了方便使用者閱讀,將各個收集器的日誌都維持了一定的共性,就以最前面的物件間相互取用的那個類ReferenceCountingGC的程式碼為例:

虛擬機器引數為“-XX:+PrintGCDetails -XX:+UseSerialGC”,使用Serial+Serial Old組合進行垃圾回收的日誌

[GC [DefNew: 310K->194K(2368K), 0.0269163 secs] 310K->194K(7680K), 0.0269513 secs] [Times: user=0.00 sys=0.00, real=0.03 secs] 

[GC [DefNew: 2242K->0K(2368K), 0.0018814 secs] 2242K->2241K(7680K), 0.0019172 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[Full GC (System) [Tenured: 2241K->193K(5312K), 0.0056517 secs] 4289K->193K(7680K), [Perm : 2950K->2950K(21248K)], 0.0057094 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

Heap

 def new generation   total 2432K, used 43K [0x00000000052a0000, 0x0000000005540000, 0x0000000006ea0000)

  eden space 2176K,   2% used [0x00000000052a0000, 0x00000000052aaeb8, 0x00000000054c0000)

  from space 256K,   0% used [0x00000000054c0000, 0x00000000054c0000, 0x0000000005500000)

  to   space 256K,   0% used [0x0000000005500000, 0x0000000005500000, 0x0000000005540000)

 tenured generation   total 5312K, used 193K [0x0000000006ea0000, 0x00000000073d0000, 0x000000000a6a0000)

   the space 5312K,   3% used [0x0000000006ea0000, 0x0000000006ed0730, 0x0000000006ed0800, 0x00000000073d0000)

 compacting perm gen  total 21248K, used 2982K [0x000000000a6a0000, 0x000000000bb60000, 0x000000000faa0000)

   the space 21248K,  14% used [0x000000000a6a0000, 0x000000000a989980, 0x000000000a989a00, 0x000000000bb60000)

No shared spaces configured.

虛擬機器引數為“-XX:+PrintGCDetails -XX:+UseParNewGC”,使用ParNew+Serial Old組合進行垃圾回收的日誌

[GC [ParNew: 310K->205K(2368K), 0.0006664 secs] 310K->205K(7680K), 0.0007043 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[GC [ParNew: 2253K->31K(2368K), 0.0032525 secs] 2253K->2295K(7680K), 0.0032911 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[Full GC (System) [Tenured: 2264K->194K(5312K), 0.0054415 secs] 4343K->194K(7680K), [Perm : 2950K->2950K(21248K)], 0.0055105 secs] [Times: user=0.00 sys=0.00, real=0.01 secs] 

Heap

 par new generation   total 2432K, used 43K [0x0000000005550000, 0x00000000057f0000, 0x0000000007150000)

  eden space 2176K,   2% used [0x0000000005550000, 0x000000000555aeb8, 0x0000000005770000)

  from space 256K,   0% used [0x0000000005770000, 0x0000000005770000, 0x00000000057b0000)

  to   space 256K,   0% used [0x00000000057b0000, 0x00000000057b0000, 0x00000000057f0000)

 tenured generation   total 5312K, used 194K [0x0000000007150000, 0x0000000007680000, 0x000000000a950000)

   the space 5312K,   3% used [0x0000000007150000, 0x0000000007180940, 0x0000000007180a00, 0x0000000007680000)

 compacting perm gen  total 21248K, used 2982K [0x000000000a950000, 0x000000000be10000, 0x000000000fd50000)

   the space 21248K,  14% used [0x000000000a950000, 0x000000000ac39980, 0x000000000ac39a00, 0x000000000be10000)

No shared spaces configured.

虛擬機器引數為“-XX:+PrintGCDetails -XX:+UseParallelGC”,使用Parallel+Serial Old組合進行垃圾回收的日誌

[GC [PSYoungGen: 4417K->288K(18688K)] 4417K->288K(61440K), 0.0007910 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 

[Full GC (System) [PSYoungGen: 288K->0K(18688K)] [PSOldGen: 0K->194K(42752K)] 288K->194K(61440K) [PSPermGen: 2941K->2941K(21248K)], 0.0032663 secs] [Times: user=0.02 sys=0.00, real=0.00 secs] 

Heap

 PSYoungGen      total 18688K, used 321K [0x0000000034190000, 0x0000000035660000, 0x0000000048f90000)

  eden space 16064K, 2% used [0x0000000034190000,0x00000000341e05c0,0x0000000035140000)

  from space 2624K, 0% used [0x0000000035140000,0x0000000035140000,0x00000000353d0000)

  to   space 2624K, 0% used [0x00000000353d0000,0x00000000353d0000,0x0000000035660000)

 PSOldGen        total 42752K, used 194K [0x000000000a590000, 0x000000000cf50000, 0x0000000034190000)

  object space 42752K, 0% used [0x000000000a590000,0x000000000a5c0810,0x000000000cf50000)

 PSPermGen       total 21248K, used 2982K [0x0000000005190000, 0x0000000006650000, 0x000000000a590000)

  object space 21248K, 14% used [0x0000000005190000,0x0000000005479980,0x0000000006650000)

虛擬機器引數為“-XX:+PrintGCDetails -XX:+UseConcMarkSweepGC”,使用ParNew+CMS+Serial Old組合進行垃圾回收的日誌

[Full GC (System) [CMS: 0K->194K(62656K), 0.0080796 secs] 4436K->194K(81792K), [CMS Perm : 2941K->2940K(21248K)], 0.0081589 secs] [Times: user=0.01 sys=0.00, real=0.01 secs] 

Heap

 par new generation   total 19136K, used 340K [0x0000000005540000, 0x0000000006a00000, 0x0000000006a00000)

  eden space 17024K,   2% used [0x0000000005540000, 0x0000000005595290, 0x00000000065e0000)

  from space 2112K,   0% used [0x00000000065e0000, 0x00000000065e0000, 0x00000000067f0000)

  to   space 2112K,   0% used [0x00000000067f0000, 0x00000000067f0000, 0x0000000006a00000)

 concurrent mark-sweep generation total 62656K, used 194K [0x0000000006a00000, 0x000000000a730000, 0x000000000a940000)

 concurrent-mark-sweep perm gen total 21248K, used 2981K [0x000000000a940000, 0x000000000be00000, 0x000000000fd40000)

這四段GC日誌中提煉出一些共性:

1、日誌的開頭“GC”、“Full GC”表示這次垃圾收集的停頓型別,而不是用來區分新生代GC還是老年代GC的。如果有Full,則說明本次GC停止了其他所有工作執行緒。看到Full GC的寫法是“Full GC(System)”,這說明是呼叫System.gc()方法所觸發的GC。

2、“GC”中接下來的“DefNew”、“ParNew”、“PSYoungGen”、“CMS”表示的是老年代垃圾收集器的名稱,“PSYoungGen”中的“PS”指的是“Parallel Scavenge”,它是Parallel收集器的全稱。

3、以第一個為例,方括號內部的“320K->194K(2368K)”、“2242K->0K(2368K)”,指的是該區域已使用的容量->GC後該記憶體區域已使用的容量(該記憶體區總容量)。方括號外面的“310K->194K(7680K)”、“2242K->2241K(7680K)”則指的是GC前Java堆已使用的容量->GC後Java堆已使用的容量(Java堆總容量)。

4、還以第一個為例,再往後“0.0269163 secs”表示該記憶體區域GC所佔用的時間,單位是秒。最後的“[Times: user=0.00 sys=0.00 real=0.03 secs]”則更具體了,user表示使用者態消耗的CPU時間、核心態消耗的CPU時間、操作從開始到結束經過的鐘牆時間。後面兩個的區別是,鐘牆時間包括各種非運算的等待消耗,比如等待磁碟I/O、等待執行緒阻塞,而CPU時間不包括這些耗時,但當系統有多CPU或者多核的話,多執行緒操作會疊加這些CPU時間所以如果user或sys超過real是完全正常的。

5、“Heap”後面就列舉出堆記憶體目前各個年代的區域的記憶體情況

觸發GC的時機

最後總結一下什麼時候會觸發一次GC,個人經驗看,有三種場景會觸發GC:

1、第一種場景應該很明顯,當年輕代或者老年代滿了,Java虛擬機器無法再為新的物件分配記憶體空間了,那麼Java虛擬機器就會觸發一次GC去回收掉那些已經不會再被使用到的物件

2、手動呼叫System.gc()方法,通常這樣會觸發一次的Full GC以及至少一次的Minor GC

3、程式執行的時候有一條低優先順序的GC執行緒,它是一條守護執行緒,當這條執行緒處於執行狀態的時候,自然就觸發了一次GC了。這點也很好證明,不過要用到WeakReference的知識,後面寫WeakReference的時候會專門講到這個。

系列


看完本文有收穫?請轉發分享給更多人

關註「ImportNew」,提升Java技能

贊(0)

分享創造快樂