Linux記憶體模型：深入理解記憶體管理-Linux-PHP中文網

首頁

系統教程

Linux

Linux記憶體模型：深入理解記憶體管理

王林

Feb 13, 2024 pm 03:15 PM

linuxlinux教程linux系統linux作業系統linux指令shell腳本linux系統配置排列overflow嵌入式linuxlinux入門linux學習

你是否曾經遇到過在Linux系統中出現的各種記憶體問題？例如記憶體洩漏、記憶體碎片等等。這些問題都可以透過深入理解Linux記憶體模型來解決。

一、前言

#在linux核心中支援3中記憶體模型，分別是flat memory model，Discontiguous memory model和sparse memory model。所謂memory model，其實就是從cpu的角度看，其實體記憶體的分佈情況，在linux kernel中，使用什麼的方式來管理這些物理記憶體。另外，需要說明的是：本文主要focus在share memory的系統，也就是說所有的CPUs共享一片實體位址空間的。

本文的內容安排如下：為了能夠清楚的解析記憶體模型，我們對一些基本的術語進行了描述，這在第二章。第三章則對三種記憶體模型的工作原理進行闡述，最後一章是程式碼解析，程式碼來自4.4.6內核，對於體系結構相關的程式碼，我們採用ARM64進行分析。

二、和記憶體模型相關的術語

1、什麼是page frame？

作業系統最重要的作用之一就是管理電腦系統中的各種資源，做為最重要的資源：內存，我們必須管理起來。在linux作業系統中，實體記憶體是依照page size來管理的，具體page size是多少是和硬體以及linux系統配置相關的，4k是最經典的設定。因此，對於物理內存，我們將其分成一個個按page size排列的page，每一個物理內存中的page size的內存區域我們稱為page frame。我們針對每一個物理的page frame建立一個struct page的資料結構來追蹤每一個實體頁面的使用情況：是用於內核的正文段？還是用於進程的頁表？是用於各種file cache還是處於free狀態…

每一個page frame有一個一一對應的page資料結構，系統中定義了page_to_pfn和pfn_to_page的巨集用來在page frame number和page資料結構之間進行轉換，具體如何轉換是和memory modle相關，我們會在第三章詳細描述linux kernel中的3個記憶體模型。

2、什麼是PFN？

對於一個電腦系統，其整個實體位址空間應該是從0開始，到實際系統能支援的最大實體空間為止的一段位址空間。在ARM系統中，假設實體位址是32個bit，那麼其實體位址空間就是4G，在ARM64系統中，如果支援的實體位址bit數目是48個，那麼其實體位址空間就是256T。當然，實際上這麼大的實體位址空間並不是都用於內存，有些也屬於I/O空間（當然，有些cpu arch有自己獨立的io address space）。因此，記憶體所佔據的實體位址空間應該是一個有限的區間，不可能涵蓋整個實體位址空間。不過，現在由於記憶體越來越大，對於32位元系統，4G的實體位址空間已經無法滿足記憶體的需求，因此會有high memory這個概念，後續會詳細描述。

PFN是page frame number的縮寫，所謂page frame，就是針對實體記憶體而言的，把實體記憶體分成一個個的page size的區域，並且給每一個page 編號，這個號碼就是PFN。假設實體記憶體從0位址開始，那麼PFN等於0的那個頁幀就是0位址（物理位址）開始的那個page。假設實體記憶體從x位址開始，那麼第一個頁幀號碼就是（x>>PAGE_SHIFT）。

3、什麼是NUMA？

在為multiprocessors系統設計記憶體架構的時候有兩種選擇：一種是UMA（Uniform memory access），系統中的所有的processor共享一個統一的，一致的物理記憶體空間，無論從哪一個processor發起訪問，對記憶體位址的訪問時間都是一樣的。 NUMA（Non-uniform memory access）和UMA不同，對某個記憶體位址的存取是和該memory與processor之間的相對位置有關的。例如，對以某個節點（node）上的processor而言，訪問local memory要比訪問那些remote memory花的時間長。

三、Linux 核心中的三種memory model

1、什麼是FLAT memory model？

如果從系統中任一個processor的角度來看，當它存取物理記憶體的時候，物理位址空間是一個連續的，沒有空洞的位址空間，那麼這種電腦系統的記憶體模型就是Flat memory。在這個記憶體模型下，物理記憶體的管理比較簡單，每個實體頁幀都會有一個page資料結構來抽象，因此系統中存在一個struct page的陣列（mem_map），每個陣列條目指向一個實際的物理頁幀（page frame）。在flat memory的情況下，PFN（page frame number）和mem_map陣列index的關係是線性的（有一個固定偏移，如果記憶體對應的物理位址等於0，那麼PFN就是陣列index）。因此從PFN到對應的page資料結構是非常容易的，反之亦然，具體可以參考page_to_pfn和pfn_to_page的定義。此外，對於flat memory model，節點（struct pglist_data）只有一個（為了和Discontiguous Memory Model採用同樣的機制）。下面的圖片描述了flat memory的情況：

需要強調的是struct page所佔用的記憶體位於直接映射（directly mapped）區間，因此作業系統不需要再為其建立page table。

2、什麼是Discontiguous Memory Model？

如果cpu在存取實體記憶體的時候，其位址空間有一些空洞，是不連續的，那麼這種電腦系統的記憶體模型就是Discontiguous memory。一般而言，NUMA架構的電腦系統的memory model都是選擇Discontiguous Memory，不過，這兩個概念其實是不同的。 NUMA強調的是memory和processor的位置關係，和記憶體模型其實是沒有關係的，只不過，由於同一node上的memory和processor有更緊密的耦合關係（訪問更快），因此需要多個node來管理。 Discontiguous memory本質上是flat memory內存模型的擴展，整個物理內存的address space大部分是成片的大塊內存，中間會有一些空洞，每一個成片的memory address space屬於一個node（如果局限在一個node內部，其記憶體模型為flat memory）。下面的圖片描述了Discontiguous memory的情況：

因此，在這個記憶體模型下，節點資料（struct pglist_data）有多個，巨集定義NODE_DATA可以得到指定節點的struct pglist_data。而，每個節點管理的實體記憶體保存在struct pglist_data 資料結構的node_mem_map成員中（概念類似flat memory中的mem_map）。這時候，從PFN轉換到具體的struct page會稍微複雜一點，我們首先要從PFN得到node ID，然後根據這個ID找到對於的pglist_data 資料結構，也就找到了對應的page數組，之後的方法就類似flat memory了。

3、什麼是Sparse Memory Model？

Memory model也是一個演進過程，剛開始的時候，使用flat memory去抽像一個連續的記憶體位址空間（mem_maps[]），出現NUMA之後，整個不連續的記憶體空間被分成若干個node，每個node上是連續的記憶體位址空間，也就是說，原來的單一的一個mem_maps[]變成了若干個mem_maps[]了。一切看起來已經完美了，但是memory hotplug的出現讓原來完美的設計變得不完美了，因為即便是一個node中的mem_maps[]也有可能是不連續了。其實，在出現了sparse memory之後，Discontiguous memory記憶體模型已經不是那麼重要了，按理說sparse memory最終可以替代Discontiguous memory的，這個替代過程正在進行中，4.4的核心仍然是有3中記憶體模型可以選擇。

為什麼說sparse memory最後可以取代Discontiguous memory呢？實際上在sparse memory記憶體模型下，連續的位址空間按照SECTION（例如1G）被分成了一段的，其中每一section都是hotplug的，因此sparse memory下，記憶體位址空間可以被切分的更細，支援更離散的Discontiguous memory。此外，在sparse memory沒有出現之前，NUMA和Discontiguous memory總是剪不斷，理還亂的關係：NUMA並沒有規定其內存的連續性，而Discontiguous memory系統也並非一定是NUMA系統，但是這兩種配置都是multi node的。有了sparse memory之後，我們終於可以把記憶體的連續性和NUMA的概念剝離開來：一個NUMA系統可以是flat memory，也可以是sparse memory，而一個sparse memory系統可以是NUMA，也可以是UMA的。

下面的圖片說明了sparse memory是如何管理page frame的（配置了SPARSEMEM_EXTREME）：

（注意：上圖中的一個mem_section指標應該指向一個page，而一個page有若干個struct mem_section資料單元）

整個連續的物理位址空間是依照一個section一個section來切斷的，每一個section內部，其memory是連續的（即符合flat memory的特徵），因此，mem_map的page數組依附在section結構（struct mem_section）而不是node結構了（struct pglist_data）。當然，無論哪一種memory model，都需要處理PFN和page之間的對應關係，只不過sparse memory多了一個section的概念，讓轉換變成了PFNSectionpage。

我們先來看看如何從PFN到page結構的轉換：kernel中靜態定義了一個mem_section的指標數組，一個section往往包含多個page，因此需要透過右移將PFN轉換成section number，用section number做為index在mem_section指標陣列可以找到該PFN對應的section資料結構。找到section之後，沿著其section_mem_map就可以找到對應的page資料結構。順便一提的是，在開始的時候，sparse memory使用了一維的memory_section數組（不是指針數組），這樣的實現對於特別稀疏（CONFIG_SPARSEMEM_EXTREME）的系統非常浪費內存。此外，保存指針對hotplug的支援是比較方便的，指標等於NULL就表示該section不存在。上面的圖片描述的是一維mem_section指標數組的情況（配置了SPARSEMEM_EXTREME），對於非SPARSEMEM_EXTREME配置，概念是類似的，具體操作大家可以自行閱讀程式碼。

從page到PFN稍微有點麻煩，實際上PFN分成兩個部分：一部分是section index，另外一個部分是page在該section的偏移。我們需要先從page得到section index，也得到對應的memory_section，知道了memory_section也就知道該page在section_mem_map，也就知道了page在該section的偏移，最後可以合成PFN。 page到section index的轉換，sparse memory有2種方案，我們先來看看經典的方案，也就是儲存在page->flags中（配置了SECTION_IN_PAGE_FLAGS）。這種方法的最大的問題是page->flags中的bit數目不一定夠用，因為這個flag中承載了太多的信息，各種page flag，node id，zone id現在又增加一個section id，在不同的architecture中無法實現一致性的演算法，有沒有一種通用的演算法呢？這就是CONFIG_SPARSEMEM_VMEMMAP。具體的演算法可以參考下圖：

（上面的圖片有一點問題，vmemmap只有在PHYS_OFFSET等於0的情況下才指向第一個struct page數組，一般而言，應該有一個offset的，不過，懶得改了，哈哈）

對於經典的sparse memory模型，一個section的struct page陣列所佔用的記憶體來自directly mapped區域，頁表在初始化的時候就建立好了，分配了page frame也就是分配了虛擬位址。但是，對於SPARSEMEM_VMEMMAP而言，虛擬位址一開始就分配好了，是vmemmap開始的一段連續的虛擬位址空間，每個page都有一個對應的struct page，當然，只有虛擬位址，沒有實體位址。因此，當一個section被發現後，可以立刻找到對應的struct page的虛擬位址，當然，還需要分配一個物理的page frame，然後建立頁表什麼的，因此，對於這種sparse memory，開銷會稍微大一些（多了個建立映射的過程）。

四、程式碼分析

我們的程式碼分析主要是透過include/asm-generic/memory_model.h展開的。

1、flat memory。程式碼如下：

「

\#define __pfn_to_page(pfn)  (mem_map + ((pfn) - ARCH_PFN_OFFSET)) 
\#define __page_to_pfn(page)  ((unsigned long)((page) - mem_map) + ARCH_PFN_OFFSET)

」

#由程式碼可知，PFN和struct page陣列（mem_map）index是線性關係，有一個固定的偏移就是ARCH_PFN_OFFSET，這個偏移是和估計的architecture有關。對於ARM64，定義在arch/arm/include/asm/memory.h檔案中，當然，這個定義是和記憶體所佔據的物理位址空間有關（也就是和PHYS_OFFSET的定義有關）。

2、Discontiguous Memory Model。程式碼如下：

“

\#define __pfn_to_page(pfn)      \ 
({  unsigned long __pfn = (pfn);    \ 
unsigned long __nid = arch_pfn_to_nid(__pfn); \ 
NODE_DATA(__nid)->node_mem_map + arch_local_page_offset(__pfn, __nid);\ 
})

\#define __page_to_pfn(pg)            \ 
({  const struct page *__pg = (pg);          \ 
struct pglist_data *__pgdat = NODE_DATA(page_to_nid(__pg));  \ 
(unsigned long)(__pg - __pgdat->node_mem_map) +      \ 
__pgdat->node_start_pfn;          \ 
})

”

Discontiguous Memory Model需要获取node id，只要找到node id，一切都好办了，比对flat memory model进行就OK了。因此对于__pfn_to_page的定义，可以首先通过arch_pfn_to_nid将PFN转换成node id，通过NODE_DATA宏定义可以找到该node对应的pglist_data数据结构，该数据结构的node_start_pfn记录了该node的第一个page frame number，因此，也就可以得到其对应struct page在node_mem_map的偏移。__page_to_pfn类似，大家可以自己分析。

3、Sparse Memory Model。经典算法的代码我们就不看了，一起看看配置了SPARSEMEM_VMEMMAP的代码，如下：

“

\#define __pfn_to_page(pfn)  (vmemmap + (pfn)) 
\#define __page_to_pfn(page)  (unsigned long)((page) - vmemmap)

”

简单而清晰，PFN就是vmemmap这个struct page数组的index啊。对于ARM64而言，vmemmap定义如下：

“

\#define vmemmap      ((struct page *)VMEMMAP_START - \ 
      SECTION_ALIGN_DOWN(memstart_addr >> PAGE_SHIFT))

”

毫无疑问，我们需要在虚拟地址空间中分配一段地址来安放struct page数组（该数组包含了所有物理内存跨度空间page），也就是VMEMMAP_START的定义。

总之，Linux内存模型是一个非常重要的概念，可以帮助你更好地理解Linux系统中的内存管理。如果你想了解更多关于这个概念的信息，可以查看本文提供的参考资料。

以上是Linux記憶體模型：深入理解記憶體管理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：良许Linux教程网。如有侵權，請聯絡admin@php.cn刪除

對於各種任務，Linux和Windows之間的性能有何不同？May 14, 2025 am 12:03 AM

Linux在服務器和開發環境中性能優異，而Windows在桌面和遊戲領域表現更好。 1）Linux的文件系統在處理大量小文件時表現出色。 2）Linux在高並發和高吞吐量網絡場景中表現優異。 3）Linux的內存管理在服務器環境中更具優勢。 4）Linux在執行命令行和腳本任務時效率高，而Windows在圖形界面和多媒體應用上表現更好。