linux kernel記憶體碎片防治技術-知識星球

Linux kernel組織管理物理記憶體的方式是buddy system（夥伴系統），而物理記憶體碎片正式buddy system的弱點之一，為了預防以及解決碎片問題，kernel採取了一些實用技術，這裡將對這些技術進行總結歸納。

1 低記憶體時整合碎片

從buddy申請記憶體頁，如果找不到合適的頁，則會進行兩步調整記憶體的工作，compact和reclaim。前者是為了整合碎片，以得到更大的連續記憶體；後者是回收不一定必須佔用記憶體的緩衝記憶體。這裡重點瞭解comact，整個流程大致如下：

__alloc_pages_nodemask

-> __alloc_pages_slowpath

-> __alloc_pages_direct_compact

-> try_to_compact_pages

-> compact_zone_order

-> compact_zone

-> isolate_migratepages

-> migrate_pages

-> release_freepages

並不是所有申請不到記憶體的場景都會compact，首先要滿足order大於0，並且gfp_mask攜帶__GFP_FS和__GFP_IO；另外，需要zone的剩餘記憶體情況滿足一定條件，kernel稱之為“碎片指數”（fragmentation index），這個值在0~1000之間，預設碎片指數大於500時才能進行compact，可以透過proc檔案extfrag_threshold來調整這個預設值。fragmentation index透過fragmentation_index函式來計算：

/*
* Index is between 0 and 1000
*
* 0 => allocation would fail due to lack of memory
* 1000 => allocation would fail due to fragmentation
*/
return 1000 – div_u64( (1000+(div_u64(info->free_pages * 1000ULL, requested))), info->free_blocks_total)

在整合記憶體碎片的過程中，碎片頁只會在本zone的內部移動，將位於zone低地址的頁儘量移到zone的末端。申請新的頁面位置透過compaction_alloc函式實現。

移動過程又分為同步和非同步，記憶體申請失敗後第一次compact將會使用非同步，後續reclaim之後將會使用同步。同步過程只移動當面未被使用的頁，非同步過程將遍歷並等待所有MOVABLE的頁使用完成後進行移動。

2 按可移動性組織頁

按照可移動性將記憶體頁分為以下三個型別：

UNMOVABLE：在記憶體中位置固定，不能隨意移動。kernel分配的記憶體基本屬於這個型別；

RECLAIMABLE：不能移動，但可以刪除回收。例如檔案對映記憶體；

MOVABLE：可以隨意移動，使用者空間的記憶體基本屬於這個型別。

申請記憶體時，根據可移動性，首先在指定型別的空閑頁中申請記憶體，每個zone的空閑記憶體組織方式如下：

struct zone {
……
struct free_area free_area[MAX_ORDER];
……
}
struct free_area {
struct list_head free_list[MIGRATE_TYPES];
unsigned long nr_free;
};

當在指定型別的free_area申請不到記憶體時，可以從備用型別挪用，挪用之後的記憶體就會釋放到新指定的型別串列中，kernel把這個過程稱為“盜用”。

備用型別優先順序串列如下定義：

static int fallbacks[MIGRATE_TYPES][4] = {
[MIGRATE_UNMOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE },
[MIGRATE_RECLAIMABLE] = { MIGRATE_UNMOVABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE },
#ifdef CONFIG_CMA
[MIGRATE_MOVABLE] = { MIGRATE_CMA, MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_RESERVE },
[MIGRATE_CMA] = { MIGRATE_RESERVE }, /* Never used */
#else
[MIGRATE_MOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_RESERVE },
#endif
[MIGRATE_RESERVE] = { MIGRATE_RESERVE }, /* Never used */
#ifdef CONFIG_MEMORY_ISOLATION
[MIGRATE_ISOLATE] = { MIGRATE_RESERVE }, /* Never used */
#endif
};

值得註意的是並不是所有場景都適合按可移動性組織頁，當記憶體大小不足以分配到各種型別時，就不適合啟用可移動性。有個全域性變數來表示是否啟用，在記憶體初始化時設定：

void __ref build_all_zonelists(pg_data_t *pgdat, struct zone *zone)
{
……
if (vm_total_pages < (pageblock_nr_pages * MIGRATE_TYPES))
page_group_by_mobility_disabled = 1;
else
page_group_by_mobility_disabled = 0;
……
}

如果page_group_by_mobility_disabled，則所有記憶體都是不可移動的。其中有個引數決定了每個記憶體區域至少擁有的頁，pageblock_nr_pages，它的定義如下：

#define pageblock_order HUGETLB_PAGE_ORDER

#else /* CONFIG_HUGETLB_PAGE */
/* If huge pages are not used, group by MAX_ORDER_NR_PAGES */
#define pageblock_order (MAX_ORDER–1)
#endif /* CONFIG_HUGETLB_PAGE */
#define pageblock_nr_pages (1UL << pageblock_order)

在系統初始化期間，所有頁都被標記為MOVABLE：

void __meminit memmap_init_zone(unsigned long size, int nid, unsigned long zone,
unsigned long start_pfn, enum memmap_context context)
{
……
if ((z->zone_start_pfn <= pfn)
&& (pfn < zone_end_pfn(z))
&& !(pfn & (pageblock_nr_pages – 1)))
set_pageblock_migratetype(page, MIGRATE_MOVABLE);
……
}

其它可移動性型別的頁都是後來產生的，也就是前面說的“盜取”。在這種情況發生時，通常會“盜取”fallback中更高優先順序、更大塊連續的頁，從而避免小碎片的產生。

/* Remove an element from the buddy allocator from the fallback list */
static inline struct page *
__rmqueue_fallback(struct zone *zone, int order, int start_migratetype)
{
……
/* Find the largest possible block of pages in the other list */
for (current_order = MAX_ORDER–1; current_order >= order;
—current_order) {
for (i = 0;; i++) {
migratetype = fallbacks[start_migratetype][i];
……
}

可以透過/proc/pageteypeinfo檢視當前系統各種型別的頁分佈。

3 虛擬可移動記憶體域

在依據可移動性組織頁的技術之前，還有一個方法已經合入kernel，那就是虛擬記憶體域：ZONE_MOVABLE。基本思想很簡單：把記憶體分為兩部分，可移動的和不可移動的。

enum zone_type {
#ifdef CONFIG_ZONE_DMA
ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
ZONE_DMA32,
#endif
ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
ZONE_HIGHMEM,
#endif
ZONE_MOVABLE,
__MAX_NR_ZONES
};

ZONE_MOVABLE的啟用需要指定kernel引數kernelcore或者movablecore，kernelcore用來指定不可移動的記憶體數量，movablecore指定可移動的記憶體大小，如果兩個都指定，取不可移動記憶體數量較大的一個。如果都不指定，則不啟動。

與其它記憶體域不同的是ZONE_MOVABLE不關聯任何物理記憶體範圍，該域的記憶體取自高階記憶體域或者普通記憶體域。find_zone_movable_pfns_for_nodes用來計算每個node中ZONE_MOVABLE的記憶體數量，採用的記憶體區域通常是每個node的最高記憶體域，在函式find_usable_zone_for_movable中體現。

在對每個node分配ZONE_MOVABLE記憶體時，kernelcore會被平均分配到各個Node：

kernelcore_node = required_kernelcore / usable_nodes;

在kernel alloc page時，如果gfp_flag同時指定了__GFP_HIGHMEM和__GFP_MOVABLE，則會從ZONE_MOVABLE記憶體域申請記憶體。

分享想法到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

linux kernel記憶體碎片防治技術

朋友將在看一看看到

分享想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂