Linux内核之内存管理完全剖析
linux虚拟内存管理功能
? 进程保护;
? 内存映射;
? 公平的物理内存分配;
? 共享虚拟内存。
实现结构剖析


/** qkxue.net This handles the memory map.. We could make this a config* option, but too many people screw it up, and too few need* it.** A __PAGE_OFFSET of 0xC0000000 means that the kernel has* a virtual address space of one gigabyte, which limits the* amount of physical memory you can use to about 950MB.** If you want more physical memory than this then see the CONFIG_HIGHMEM4G* and CONFIG_HIGHMEM64G options in the kernel configuration.*/#define __PAGE_OFFSET (0xC0000000)……#define PAGE_OFFSET ((unsigned long)__PAGE_OFFSET)#define __pa(x) ((unsigned long)(x)-PAGE_OFFSET)#define __va(x) ((void *)((unsigned long)(x)+PAGE_OFFSET))
CONFIG_HIGHMEM4G 和 CONFIG_HIGHMEM64G 选项,这种情况我们暂不考虑。如果物理内存小于
950MB,则对于内核空间而言,给定一个虚地址 x,其物理地址为“x- PAGE_OFFSET”,给定
一个物理地址 x,其虚地址为“x+ PAGE_OFFSET”。
这里再次说明,宏__pa()仅仅把一个内核空间的虚地址映射到物理地址,而决不适用于
用户空间,用户空间的地址映射要复杂得多。
2.内核映像
将寄存器 CR3 设置成指向新进程的页目录 PGD,而该目录的起始地址在内核空间中是虚地址,
但 CR3 所需要的是物理地址,这时候就要用__pa()进行地址转换。在 mm_context.h 中就有这么一行语句:
asm volatile(“movl %0,%%cr3”: :”r” (__pa(next->pgd));
这是一行嵌入式汇编代码,其含义是将下一个进程的页目录起始地址 next_pgd,通过
__pa()转换成物理地址,存放在某个寄存器中,然后用 mov 指令将其写入 CR3 寄存器中。经
过这行语句的处理,CR3 就指向新进程 next 的页目录表 PGD 了。
? 地址映射机制;
? 缓存和刷新机制;
? 请页机制;
? 交换机制;
? 内存共享机制
1.页表的初步初始化/** The page tables are initialized to only 8MB here - the final page* tables are set up later depending on memory size.*/.org 0x2000ENTRY(pg0)//存放的是虚拟地址.org 0x3000ENTRY(pg1)/** empty_zero_page must immediately follow the page tables ! ( The* initialization loop counts until empty_zero_page)*/.org 0x4000ENTRY(empty_zero_page)/** www.qixoo.qixoo.com Initialize page tables*/movl $pg0-__PAGE_OFFSET,%edi /* initialize page tables 将物理地址存放在edi中,位置为0x1002000处*/movl $007,%eax /* "007" doesn‘t mean with right to kill, butPRESENT+RW+USER */2: stosladd $0x1000,%eaxcmp $empty_zero_page-__PAGE_OFFSET,%edijne 2b
则为 0x00103000。Pg0 和 pg1 这个两个页表中的表项则依次被设置为 0x007、0x1007、0x2007
等。其中最低的 3 位均为 1,表示这两个页为用户页,可写,且页的内容在内存中(参见图
2.24)。所映射的物理页的基地址则为 0x0、0x1000、0x2000 等,也就是物理内存中的页面 0、
1、2、3 等等,共映射 2K 个页面,即 8MB 的存储空间。由此可以看出,Linux 内核对物理内
存的最低要求为 8MB。紧接着存放的是 empty_zero_page 页(即零页),零页存放的是系统启
动参数和命令行参数,
/** This is initialized to create an identity-mapping at 0-8M ( for bootup* purposes) and another mapping of the 0-8M area at virtual address* PAGE_OFFSET.*/.org 0x1000ENTRY(swapper_pg_dir).long 0x00102007 //两个页表是用户页表、可写且页表的内容在内存。.long 0x00103007.fill BOOT_USER_PGD_PTRS-2,4,0/* default: 766 entries */.long 0x00102007.long 0x00103007/* default: 254 entries */.fill BOOT_KERNEL_PGD_PTRS-2,4,0/** Enable paging*/3:movl $swapper_pg_dir-__PAGE_OFFSET,%eaxmovl %eax,%cr3 /* set the page table pointer.. */movl %cr0,%eaxorl $0x80000000,%eaxmovl %eax,%cr0 /* ..and set paging (PG) bit */jmp 1f /* flush the prefetch-queue */1:movl $1f,%eaxjmp *%eax /* make sure eip is relocated */

struct page{struct list_head list; //通过使用它进入下面的数据结构free_area_struct结构中的双向链队列struct address_space * mapping; //用于内存交换的数据结构unsigned long index;//当页面进入交换文件后,指向其去向struct page *next_hash; //自身的指针,这样就可以链接成一个链表atomic t count; //用于页面交换的计数,若页面为空闲则为0,分配就赋值1,没建立或恢复一次映射就加1,断开映射就减一unsigned long flags;//反应页面各种状态,例如活跃,不活跃脏,不活跃干净,空闲struct list_head lru;unsigned long age; //表示页面寿命wait_queue_head_t wait;struct page ** pprev_hash;struct buffer_head * buffers;void * virtualstruct zone_struct * zone; //指向所属的管理区}
? 常规的 ZONE_NORMAL 区(大于 16MB 小于 896MB);
? 内核不能直接映射的区 ZONE_HIGME 区(大于 896MB)。
DMA 控制器不能依靠 CPU 内部的 MMU 将连续的虚存页面映射到物理上也连续的页面上,因此用于DMA的物理页面必须加以单独管理。
typedef struct pglist_data {zone_t node_zones[MAX_NR_ZONES];//节点的最多3个页面管理区zonelist_t node_zonelists[GFP_ZONEMASK+1];//一个管理区指针数组,指向上面的管理区int nr_zones;struct page *node_mem_map;//指向具体节点的page结构数组unsigned long *valid_addr_bitmap;struct bootmem_data *bdata;unsigned long node_start_paddr;unsigned long node_start_mapnr;unsigned long node_size;int node_id;struct pglist_data *node_next;//形成一个单链表节点队列} pg_data_t;
typedef struct zonelist_struct {zone_t *zone[MAX_NR_ZONE+1]; //NULL delimited 管理区Int gfp_mast;} zonelist_t
页面时先试 zone[0]所指向的管理区, 如果不能满足要求就试 zone[1]所指向的管理区,
typedef struct zone_struct {/** Commonly accessed fields:*/spinlock_t lock; 用于暴走对该结构中其他域的串行访问unsigned long free_pages;//这个区中现有空闲页的个数unsigned long pages_min, pages_low, pages_high;//对这个区最少,次少及最多页面个数的描述int need_balance;//与kswapd合在一起/** free areas of different sizes*/free_area_t free_area[MAX_ORDER];/在伙伴分配系统中的位图数组和页面链表/** Discontig memory support fields.*/struct pglist_data *zone_pgdat;//本管理区所在的存储节点struct page *zone_mem_map;//本管理区的内存映射表unsigned long zone_start_paddr;//本管理区的物理地址unsigned long zone_start_mapnr;//mem_map索引/** rarely used fields:*/char *name;unsigned long size;} zone_t;
type struct free_area_struct {struct list_head free_listunsigned int *map} free_area_t
Linux 把不连续的存储
空间也归类为非一致存储结构(NUMA)。这是因为,不连续的存储空间本质上是一种广义的
NUMA,因为那说明在最低物理地址和最高物理地址之间存在着空洞,而有空洞的空间当然是
“不一致”的。所以,在地址不连续的物理空间也要像结构不一样的物理空间那样划分出若干
连续且均匀的“节点”。因此,在存储结构不连续的系统中,每个模块都有若干个节点,因而
都有个 pg_data_t 数据结构队列。我们先来看 mm/numa.c 中的 alloc_page()函数:
//表示哪种分配策略,order表示所需物理块的大小,1,2,4.....struct page * _alloc_pages(unsigned int gfp_mask, unsigned int order){struct page *ret = 0;pg_data_t *start, *temp;#ifndef CONFIG_NUMAunsigned long flags;static pg_data_t *next = 0;#endifif (order >= MAX_ORDER)return NULL;#ifdef CONFIG_NUMAtemp = NODE_DATA(numa_node_id());//通过NUMA_DATA()找到cpu所在节点的数据结构队列,存放在temp中#elsespin_lock_irqsave(&node_lock, flags);if (!next) next = pgdat_list;temp = next;next = next->node_next;spin_unlock_irqrestore(&node_lock, flags);#endifstart = temp;while (temp) {if ((ret = alloc_pages_pgdat(temp, gfp_mask, order)))//从当前节点扫到最后节点,能否满足分配内存return(ret);temp = temp->node_next;}temp = pgdat_list;while (temp != start) {//从头节点扫到当前节点,视图分配内存if ((ret = alloc_pages_pgdat(temp, gfp_mask, order)))return(ret);temp = temp->node_next;}return(0);}
连续空间 UMA 结构的 alloc_page()是在 include/linux/mm.h 中定义的:
#ifndef CONFIG_DISCONTIGMEMstatic inline struct page * alloc_pages(unsigned int gfp_mask, unsigned int order){/** Gets optimized away by the compiler.*/if (order >= MAX_ORDER)return NULL;return __alloc_pages(gfp_mask, order,contig_page_data.node_zonelists+(gfp_mask & GFP_ZONEMASK));}#endi
然后用伙伴算法从这个区中分配给定大小(2 order 个)的页面块。如果所有的区都没有足够的
空闲页面,则调用 swapper 或 bdflush 内核线程,把脏页写到磁盘以释放一些页面.而且被映射的页面可能只是做了标记
struct page * __alloc_pages(unsigned int gfp_mask, unsigned int order, zonelist_t *zonelist){unsigned long min;zone_t **zone, * classzone;struct page * page;int freed;zone = zonelist->zones;classzone = *zone;min = 1UL << order;for (;;) {//遍历各种区空闲页面的总量zone_t *z = *(zone++);if (!z)break;min += z->pages_low;if (z->free_pages > min) {//如果总理安大于最低水平线与所请求页面数之和,就调用rmqueue()试图分配page = rmqueue(z, order);if (page)return page;//分配成功,返回第一page指针}}
的标志(need_balance)置 1,而且如果内核线程 kswapd 在一个等待队列中睡眠,就唤醒它,
让它收回一些页面以备使用(可以看出, need_balance 是和 kswapd 配合使用的)。
classzone->need_balance = 1;mb();if (waitqueue_active(&kswapd_wait))wake_up_interruptible(&kswapd_wait);
zone = zonelist->zones;min = 1UL << order;for (;;) {unsigned long local_min;zone_t *z = *(zone++);if (!z)break;local_min = z->pages_min;if (!(gfp_mask & __GFP_WAIT))local_min >>= 2;min += local_min;if (z->free_pages > min) {page = rmqueue(z, order);if (page)return page;}}
if (current->flags & (PF_MEMALLOC | PF_MEMDIE)) {zone = zonelist->zones;for (;;) {zone_t *z = *(zone++);if (!z)break;page = rmqueue(z, order);if (page)return page;}return NULL;}
/* Atomic allocations - we can‘t balance anything */if (!(gfp_mask & __GFP_WAIT))return NULL;
balance_classzone()函数把当前进程所占有的局部页面释放出来。如果释放成功,则返回
一个 page 结构指针,指向页面块中第一个页面的起始地址。
page = balance_classzone(classzone, gfp_mask, order, &freed);if (page)return page;
体代码如下:
//指向要分配页面的管理区,order表示分配页面数为2的order次方static struct page * rmqueue(zone_t *zone, unsigned int order){//area指向free_area的第order个元素free_area_t * area = zone->free_area + order;unsigned int curr_order = order;struct list_head *head, *curr;unsigned long flags;struct page *page;spin_lock_irqsave(&zone->lock, flags);do {head = &area->free_list;curr = memlist_next(head);if (curr != head) {unsigned int index;//获得空闲块的第 1 个页面的地址,如果这个地址是个无效的地址,就陷入 BUG()page = memlist_entry(curr, struct page, list);if (BAD_RANGE(zone,page))BUG();//从队列中摘除分配出去的页面块。memlist_del(curr);index = page - zone->zone_mem_map;if (curr_order != MAX_ORDER-1)//如果某个页面块被分配出去,就要在 frea_area 的位图中进行标记,这是通过调用 MARK_USED()宏来完成的。MARK_USED(index, curr_order, area);zone->free_pages -= 1UL << order;//如果分配出去后还有剩余块,就通过 expand()获得所分配的页块,而把剩余块链入适当的空闲队列中。page = expand(zone, page, index, order, curr_order, area);spin_unlock_irqrestore(&zone->lock, flags);set_page_count(page, 1);if (BAD_RANGE(zone,page))BUG();if (PageLRU(page))BUG();if (PageActive(page))BUG();return page;}curr_order++;area++;} while (curr_order < MAX_ORDER);//如果当前空闲队列没有空闲块,就从更大的空闲块队列中找。spin_unlock_irqrestore(&zone->lock, flags);return NULL;}
/*zone指向已分配页块所在的管理区page指向一分配的页块index为一分配的页块在mem_map中的下标;low表示所需页面块的大小为2的low次方high表示从实际空闲队列中实际分配的页面块大小为2的high次方area指向要实际分配的页块*/static inline struct page * expand (zone_t *zone, struct page *page,unsigned long index, int low, int high, free_area_t * area){unsigned long size = 1 << high;//初始化为分配块的页面数while (high > low) {if (BAD_RANGE(zone,page))BUG();area--;high--;size >>= 1;memlist_add_head(&(page)->list, &(area)->free_list);/*然后调用 memlist_add_head()把刚分配出去的页面块又加入到低一档(物理块减半)的空闲队列中准备从剩下的一半空闲块中重新进行分配*///MARK_USED()设置位图MARK_USED(index, high, area);index += size;page += size;}if (BAD_RANGE(zone,page))BUG();return page;}
特定大小的专用缓冲区进行处理,以避免内碎片的产生。对于较少使用的内存区,可以创建
一组通用缓冲区(如 Linux 2.0 中所使用的 2 的幂次方)来处理,即使这种处理模式产生碎
片,也对整个系统的性能影响不大。
typedef struct slab_s {struct list_head list;unsigned long colouroff;//slab上着色区的大小void *s_mem; /*指向对象区的起点 */unsigned int inuse; /* 分配对象的个数 */kmem_bufctl_t free;//空闲对象链的第一个对象} slab_t;
struct kmem_cache_s {/* 1) each alloc & free *//* full, partial first, then free */struct list_head slabs_full;struct list_head slabs_partial;struct list_head slabs_free;unsigned int objsize;原始的数据结构的大小.初始化为kemem_cache_t的大小unsigned int flags; /* constant flags */unsigned int num; //每个slab obj的个数spinlock_t spinlock;#ifdef CONFIG_SMPunsigned int batchcount;#endif/* 2) slab additions /removals *//* order of pgs per slab (2^n) */unsigned int gfporder;//gfporder 则表示每个 Slab 大小的对数,即每个 Slab 由 2 gfporder 个页面构成。/* force GFP flags, e.g. GFP_DMA */unsigned int gfpflags;size_t colour; /* 颜色数目 */unsigned int colour_off; /*颜色的偏移量 */unsigned int colour_next; /* 下一个slab将要使用的颜色 */kmem_cache_t *slabp_cache;unsigned int growing;unsigned int dflags; /* dynamic flags *//* constructor func */void (*ctor)(void *, kmem_cache_t *, unsigned long);/* de-constructor func */void (*dtor)(void *, kmem_cache_t *, unsigned long);unsigned long failures;/* 3) cache creation/removal */char name[CACHE_NAMELEN];struct list_head next;#ifdef CONFIG_SMP/* 4) per-cpu data */cpucache_t *cpudata[NR_CPUS];#endif…..};
static kmem_cache_t cache_cache = {slabs_full: LIST_HEAD_INIT(cache_cache.slabs_full) ,slabs_partial: LIST_HEAD_INIT(cache_cache.slabs_partial),slabs_free: LIST_HEAD_INIT(cache_cache.slabs_free) ,objsize: sizeof(kmem_cache_t),//原始的数据结构的大小.初始化为kemem_cache_t的大小flags: SLAB_NO_REAP,spinlock: SPIN_LOCK_UNLOCKED,colour_off: L1_CACHE_BYTES,name: "kmem_cache",};
//缓冲区名 对象大小 所请求的着色偏移量kmem_cache_t *kmem_cache_create(const char *name, size_t size, size_t offset,unsigned long c_flags,//对缓冲区的设置标志,SLAB_HWCACHE_ALIGN:表示与第一个高速缓冲中的行边界对齐//指向对象指针 ,指向缓冲区void (*ctor) (void *objp, kmem_cache_t *cachep, unsigned long flags),//构造函数,一般为NULLvoid (*dtor) (void *objp, kmem_cache_t *cachep, unsigned long flags))//析构函数一般为NULL
个 Slab 由几个页面组成,划分为多少个对象;Slab 的描述结构 slab_t 应该放在 Slab 的外
面还是放在 Slab 的尾部;还有“颜色”的数量等等。并根据调用参数和计算结果设置
kmem_cache_t 结构中的各个域,包括两个函数指针 ctor 和 dtor。最后,将 kmem_cache_t
结构插入到 cache_cache 的 next 队列中。
kmem_cache_create()所创建的缓冲区中还没有包含任何 Slab,因此,
也没有空闲的对象。只有以下两个条件都为真时,才给缓冲区分配 Slab:
(1)已发出一个分配新对象的请求;
(2)缓冲区不包含任何空闲对象。
当这两个条件都成立时,Slab 分配模式就调用 kmem_cache_grow()函数给缓冲区分配
一个新的 Slab。其中,该函数调用 kmem_gatepages()从伙伴系统获得一组页面;然后又调用
kmem_cache_slabgmt()获得一个新的 Slab 结构; 还要调用 kmem_cache_init_objs()为新 Slab
中的所有对象申请构造方法(如果定义的话); 最后, 调用 kmem_slab_link_end()把这个 Slab
结构插入到缓冲区中 Slab 链表的末尾。
在内核中初始化开销不大的数据结构可以合用一个通用的缓冲区。通用缓冲区非常类似
于物理页面分配中的大小分区,最小的为 32,然后依次为 64、128、……直至 128KB(即 32
个页面),但是,对通用缓冲区的管理又采用的是 Slab 方式。从通用缓冲区中分配和释放缓
冲区的函数为:
void *kmalloc(size_t size, int flags);Void kree(const void *objp);
其分配专用缓冲区,而应该调用 kmallo()进行分配。如果数据结构的大小接近一个页面,则
干脆通过 alloc_page()为之分配一个页面。
事实上,在内核中,尤其是驱动程序中,有大量的数据结构仅仅是一次性使用,而且所
占内存只有几十个字节, 因此, 一般情况下调用 kmallo()给内核数据结构分配内存就足够了。
另外,因为,在 Linux 2.0 以前的版本一般都调用 kmallo()给内核数据结构分配内存,因此,
调用该函数的一个优点是(让你开发的驱动程序)能保持向后兼容。
是一个安全区,目的是为了“捕获”对非连续区的非法访问。出于同样的理由,在其他非连
续的内存区之间也插入了 4KB 大小的安全区。每个非连续内存区的大小都是 4096 的倍数。
描述非连续区的数据结构
struct vm_struct {unsigned long flags;void * addr;//内存区的起始地址unsigned long size;//内存区大小+4096(安全区的大小)struct vm_struct * next;};struct vm_struct * vmlist;//非连续区组成一个单链表
Linux内核之内存管理完全剖析的更多相关文章
- Linux内核笔记--内存管理之用户态进程内存分配
内核版本:linux-2.6.11 Linux在加载一个可执行程序的时候做了种种复杂的工作,内存分配是其中非常重要的一环,作为一个linux程序员必然会想要知道这个过程到底是怎么样的,内核源码会告诉你 ...
- 24小时学通Linux内核之内存管理方式
昨天分析的进程的代码让自己还在头昏目眩,脑子中这几天都是关于Linux内核的,对于自己出现的一些问题我会继续改正,希望和大家好好分享,共同进步.今天将会讲诉Linux如何追踪和管理用户空间进程的可用内 ...
- Linux内核之内存管理
Linux内核之内存管理 Linux利用的是分段+分页单元把逻辑地址转换为物理地址; RAM的某些部分永久地分配给内核, 并用来存放内核代码以及静态内核数据结构; RAM的其余部分称动态内存(dyna ...
- Linux内核笔记——内存管理之slab分配器
内核版本:linux-2.6.11 内存区和内存对象 伙伴系统是linux用于满足对不同大小块内存分配和释放请求的解决方案,它为slab分配器提供页框分配请求的实现. 如果我们需要请求具有连续物理地址 ...
- 深入理解Linux内核-内存管理
内核如果给自己分配动态内存 动态内存:RAM的某些部分被永久打分配给内核,用来存放内核代码以及静态内核数据结构:剩余的部分被称为动态内存 连续物理内存区管理: 页框管理:1.页大小的选择,通常情况下主 ...
- Linux 内核开发 - 内存管理
1.1什么是内存管理 内存管理是对计算机内存进行分配和使用的技术.内存管理主要存在于多任务的操作系统中,因为内存资源极其有限.须要在不同的任务之间共享内存,内存管理的存在就是要高效.高速的非配内存,并 ...
- Linux内核之 内存管理
前面几篇介绍了进程的一些知识,从这篇开始介绍内存.文件.IO等知识,发现更不好写哈哈.但还是有必要记录下自己的所学所思.供后续翻阅,同时写作也是一个巩固的过程. 这些知识以前有文档涉及过,但是角度不同 ...
- Linux内核笔记——内存管理之块内存分配
内核版本:linux-2.6.11 伙伴系统 伙伴系统是linux用于满足对不同大小块物理内存分配和释放请求的解决方案. 内存管理区 linux将物理内存分成三个内存管理区,分别为ZONE_DMA Z ...
- Linux内核之内存管理(4)--缺页处理程序
本文主要解说缺页处理程序,凝视足够具体,不再解释. //以下函数将一页内存页面映射到指定线性地址处,它返回页面的物理地址 //把一物理内存页面映射到线性地址空间指定处或者说把线性地址空间指定地址add ...
随机推荐
- 6月27日 OGDF不同的布局算法
检查不同布局算法 备注 CircularLayout 可以非连通 FastMultipoleMultilevelEmbedder FMMMLayout 可以非连通 StressMajoriz ...
- ArcGis 中MapControl 框选
void mCtrl_OnMouseDown(object sender, ESRI.ArcGIS.Controls.IMapControlEvents2_OnMouseDownEvent e) ...
- vuejs使用技巧
组件创建自定义标签时,自定义的标签不要用驼峰写法,vue否者报错,例如<my-template></my-template>合法或者去掉中间的斜杠全部小写,只要出现大写字母就会 ...
- Jdev Run Page 没有反应
从旧电脑把原有的Jdeveloper完整的拷贝至新电脑,且已完整配置JDEV_USER_HOME,JAVA_HOME等环境变量, Run Page报以下错误. [Starting OC4J using ...
- jquery 删除字符串最后一个字符的方法
字符串:var s = "1,2,3,4,5," 目标:删除最后一个 "," 方法: s=s.substring(0,s.Length-1): 字符串:var ...
- [MetaHook] R_SparkShower
By hzqst void R_SparkShower(float *pos) { TEMPENTITY *tent; tent = efx.CL_TempEntAllocNoModel(pos); ...
- Jenkins进阶系列之——06FTP publisher plugin插件下载(支持绝对路径)
注意:绝对路径用/开头 绝对路径:/root/.jenkins/jobs/test/workspace/bbb/test.war 相对路径:bbb/test.war 点我下载
- html 空格-有趣的试验
首先,先给大家看一组demo <input /> <input type="submit" /> 展示效果: 为什么会出现空格呢?input不是行内元素吗? ...
- jQuery 模板插件jquery-tmpl
Step1:导入脚本: <script src="@Url.Content("~/Scripts/jquery-1.7.1.min.js")">&l ...
- brew-cask之本地安装应用
cask 固然好用,但是无奈很多资源在墙外,能下载的非常有限,就是能下载,也慢的要死.但是很多下载软件却可以下载这些资源,很奇怪,要么是有人FQ下载了,缓存到他们的服务器了,要么就是软件可以FQ下载. ...