使用/proc实现内核与用户空间通信

1. 前言

Linux内核空间与用户空间的通信可通过"/proc"目录的文件读写来实现，如果只是控制内核中的参数而不是传输较多数据的话，用“/proc”是很合适的。另外一种内核与用户空间通信方式方式是使用内核设备的读写或IOCTL来实现，以后再介绍。

2. /proc概述

/proc目录是系统模拟出来的一个文件系统，本身并不存在于磁盘上，其中的文件都表示内核参数的信息，这些信息分两类，一类是可都可写的，这类参数都在“/proc/sys”目录下，另一类是只读的，就是“/proc/sys”目录之外的其他目录和文件，当然这只是一种惯例，实际在其他目录下建立可读写的/proc文件也是可以的。

操作/proc目录不需要特殊工具，在用户层看来就是一普通文件，在shell中用“cat”命令进行查看，用“echo”命令来写文件信息。

Linux内核在2.4以后/proc目录文件的建立已经变得很容易，以前版本都还需要构造文件操作结构来实现，现在只需要调用简单函数就可以了。/proc文件通过是create_proc_entry()函数来建立，使用remove_proc_entry()函数来删除，建立新目录可以通过proc_mkdir()函数调用，这些函数在fs/proc/generic.c中定义，通常我们不必直接使用create_proc_entry()函数来建立，而是通过这个函数的包裹函数来实现。

3. 只读/proc文件

内核编译选项要设置CONFIG_PROC_FS。

3.1 建立/proc只读项

只读的/proc文件可以通过create_proc_read_entry()或create_proc_info_entry()函数来建立，在模块初始化时调用，：

/* include/linux/proc_fs.h */

static inline struct proc_dir_entry *create_proc_read_entry(const char *name,
mode_t mode, struct proc_dir_entry *base,
read_proc_t *read_proc, void * data)
{
struct proc_dir_entry *res=create_proc_entry(name,mode,base);
if (res) {
res->read_proc=read_proc;
res->data=data;
}
return res;
}

该函数需要5个参数：
name：要建立的文件名
mode：文件模式
base：所在的目录
read_proc：这是个函数指针，表示读取文件内容的函数
data：传递给read_proc函数的用户参数指针

static inline struct proc_dir_entry *create_proc_info_entry(const char *name,
mode_t mode, struct proc_dir_entry *base, get_info_t *get_info)
{
struct proc_dir_entry *res=create_proc_entry(name,mode,base);
if (res) res->get_info=get_info;
return res;
}

该函数需要4个参数：
name：要建立的文件名
mode：文件模式
base：所在的目录
get_info：这是个函数指针，表示读取文件内容的函数，这个函数比上面的read_proc函数少一个用户输入参数

对于base，内核已经预定义了一些目录/proc/net, /procbus, /proc/fs, /proc/driver, 这些是在fs/proc/root.c中定义的：

struct proc_dir_entry *proc_net, *proc_bus, *proc_root_fs, *proc_root_driver;

3.2 删除/proc只读项

只读的/proc文件可以通过remove_proc_entry()函数来建立，在模块删除时调用，该函数在fs/proc/generic.c中定义：

void remove_proc_entry(const char *name, struct proc_dir_entry *parent)

该函数需要2个参数：
name：要建立的文件名
parent：父目录

3.3 网络相关/proc的建立和删除

对于网络参数(/proc/net)，内核更提供了proc_net_create()和proc_net_remove()包裹函数来建立和删除/proc/net文件：

static inline struct proc_dir_entry *proc_net_create(const char *name,
mode_t mode, get_info_t *get_info)
{
return create_proc_info_entry(name,mode,proc_net,get_info);
}

static inline void proc_net_remove(const char *name)
{
remove_proc_entry(name,proc_net);
}

proc_net就是已经预定义好的"/proc/net"目录的指针，这样在建立网络部分的只读文件时就直接调用这两个函数就可以了。

3.4 举例

net/ipv4/af_inet.c:
...
// 建立/proc/net/netstat文件
proc_net_create ("netstat", 0, netstat_get_info);
...

netstat_get_info()函数在net/ipv4/proc.c文件中定义，函数的参数格式是固定的：

//buffer是数据输出的缓冲区，要输出的数据都写到这个缓冲区；
//start用来返回buffer中起始数据的位置；
//offset指定偏移start所指数据相对buffer起点的偏移，实际start是通过buffer和

//offset计算出来的；
//length表示buffer的长度，是由内核自己分配的，编程时要检查向缓冲区写的数据长度

//是否超过length规定的限值。

int netstat_get_info(char *buffer, char **start, off_t offset, int length)
{
int len, i;
// len记录写入缓冲区的数据长度，所有数据长度都要累加
len = sprintf(buffer,
        "TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed"
        " EmbryonicRsts PruneCalled RcvPruned OfoPruned"
        " OutOfWindowIcmps LockDroppedIcmps ArpFilter"
        " TW TWRecycled TWKilled"
        " PAWSPassive PAWSActive PAWSEstab"
        " DelayedACKs DelayedACKLocked DelayedACKLost"
        " ListenOverflows ListenDrops"
        " TCPPrequeued TCPDirectCopyFromBacklog"
        " TCPDirectCopyFromPrequeue TCPPrequeueDropped"
        " TCPHPHits TCPHPHitsToUser"
        " TCPPureAcks TCPHPAcks"
        " TCPRenoRecovery TCPSackRecovery"
        " TCPSACKReneging"
        " TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder"
        " TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo"
        " TCPLoss TCPLostRetransmit"
        " TCPRenoFailures TCPSackFailures TCPLossFailures"
        " TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans"
        " TCPTimeouts"
        " TCPRenoRecoveryFail TCPSackRecoveryFail"
        " TCPSchedulerFailed TCPRcvCollapsed"
        " TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv"
        " TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose"
        " TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger"
        " TCPAbortFailed TCPMemoryPressures/n"
        "TcpExt:");
for (i=0; i<offsetof(struct linux_mib, __pad)/sizeof(unsigned long); i++)
　　len += sprintf(buffer+len, " %lu", fold_field((unsigned long*)net_statistics, sizeof(struct linux_mib), i));

len += sprintf (buffer + len, "/n");

if (offset >= len)
{
*start = buffer;
return 0;
}
//计算数据起始指针
*start = buffer + offset;
len -= offset;

// 检查写入的长度是否溢出
if (len > length)
len = length;
if (len < 0)
len = 0;
return len;
}

4. 可读写的/proc文件

要支持可读写的/proc，内核编译选项要设置CONFIG_SYSCTL。

可读写/proc文件按惯例通常放在/proc/sys目录下，这些文件对应的内核参数或者是全局变量，或者是动态分配的内存空间，不能是临时变量。

4.1 建立函数

建立可读写的/proc文件使用register_sysctl_table()函数来登记，该函数在kernel/sysctl.c中定义，声明如下:

struct ctl_table_header *register_sysctl_table(ctl_table * table, int insert_at_head);

该函数返回一个struct ctl_table_header结构的指针，在释放时使用；

该函数第一个参数table是sysctl控制表，定义如下：

/* include/linux/sysctl.h */

typedef struct ctl_table ctl_table;

struct ctl_table
{
int ctl_name;  /* 数值表示的该项的ID */
const char *procname; /* 名称 */
void *data;             /* 对于的内核参数 */
int maxlen;             /* 该参数所占的存储空间 */
mode_t mode;            /* 权限模式：rwxrwxrwx */
ctl_table *child;       /* 子目录表 */
proc_handler *proc_handler; /* 读写数据处理的回调函数 */
ctl_handler *strategy;  /* 读/写时的回调函数,是对数据的预处理，
     该函数是在读或写操作之前执行，该函数返回值
     <0表示出错；==0表示正确，继续读或写；>0表
     示读/写操作已经在函数中完成，可以直接返回了*/
struct proc_dir_entry *de; /* /proc控制块指针 */
void *extra1;  /* 额外参数，常在设置数据范围时用来表示最大最小值 */
void *extra2;
};

注意该结构中的第6个参数子目录表，这使得该表成为树型结构。

第二个参数表示链表的插入方式，是插入到链表头还是链表尾；

由此可知重要的是struct ctl_table结构的填写，而最重要的是结构项proc_handler，该函数处理数据的输入和输出，如果不是目录而是文件，该项是不可或缺的。早期内核版本中这些都需要单独编写，现在2.4以后内核提供了一些函数可以完成大部分的数据输入输出功能：

// 处理字符串数据
extern int proc_dostring(ctl_table *, int, struct file *,
    void *, size_t *);
// 处理整数向量
extern int proc_dointvec(ctl_table *, int, struct file *,
    void *, size_t *);
// 处理整数向量,但init进程处理时稍有区别
extern int proc_dointvec_bset(ctl_table *, int, struct file *,
         void *, size_t *);
// 处理最大最小值形式的整数向量
extern int proc_dointvec_minmax(ctl_table *, int, struct file *,
    void *, size_t *);
// 处理最大最小值形式的无符合长整数向量
extern int proc_doulongvec_minmax(ctl_table *, int, struct file *,
      void *, size_t *);
// 处理整数向量,但用户数据作为秒数,转化为jiffies值,常用于时间控制
extern int proc_dointvec_jiffies(ctl_table *, int, struct file *,
     void *, size_t *);
// 处理无符合长整数向量,用户数据作为为毫秒值,转化为jiffies值,常用于时间控制
extern int proc_doulongvec_ms_jiffies_minmax(ctl_table *table, int,
          struct file *, void *, size_t *);

举例，以下代码取自net/ipv4/netfilter/ip_conntrack_standalone.c:

static ctl_table ip_ct_sysctl_table[] = {
{NET_IPV4_NF_CONNTRACK_MAX, "ip_conntrack_max",
&ip_conntrack_max, sizeof(int), 0644, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_BUCKETS, "ip_conntrack_buckets",
&ip_conntrack_htable_size, sizeof(unsigned int), 0444, NULL,
&proc_dointvec},
{NET_IPV4_NF_CONNTRACK_TCP_TIMEOUT_SYN_SENT, "ip_conntrack_tcp_timeout_syn_sent",
&ip_ct_tcp_timeout_syn_sent, sizeof(unsigned int), 0644, NULL,
&proc_dointvec_jiffies},
......
{0}
};

static ctl_table ip_ct_netfilter_table[] = {
{NET_IPV4_NETFILTER, "netfilter", NULL, 0, 0555, ip_ct_sysctl_table, 0, 0, 0, 0, 0},
{NET_IP_CONNTRACK_MAX, "ip_conntrack_max",
&ip_conntrack_max, sizeof(int), 0644, NULL,
&proc_dointvec},
{0}
};

static ctl_table ip_ct_ipv4_table[] = {
{NET_IPV4, "ipv4", NULL, 0, 0555, ip_ct_netfilter_table, 0, 0, 0, 0, 0},
{0}
};

static ctl_table ip_ct_net_table[] = {
{CTL_NET, "net", NULL, 0, 0555, ip_ct_ipv4_table, 0, 0, 0, 0, 0},
{0}
};

static int init_or_cleanup(int init)
{
...
ip_ct_sysctl_header = register_sysctl_table(ip_ct_net_table, 0);
...
}

有些/proc/sys的文件控制比较复杂，参数的输入实际是一个触发信息来执行一系列操作，这时这些缺省处理函数功能就不足了，就需要单独编写ctl_table结构中的proc_handle和strategy函数。如对于/proc/sys/net/ipv4/ip_forward文件，对应的内核参数是ipv4_devconf.forwarding，如果该值改变，会将所有网卡设备的forwarding属性值进行改变，定义如下：

/* net/ipv4/sysctl_net_ipv4.c */

static
int ipv4_sysctl_forward(ctl_table *ctl, int write, struct file * filp,
void *buffer, size_t *lenp)
{
// 保持当前的forwarding值
int val = ipv4_devconf.forwarding;
int ret;
// 完成/proc/sys的读写操作，如果是写操作，forwarding值已经改为新值
ret = proc_dointvec(ctl, write, filp, buffer, lenp);

// 写操作，forwarding值改变，用新的forwarding值修改所有网卡的forwarding属性
if (write && ipv4_devconf.forwarding != val)
inet_forward_change(ipv4_devconf.forwarding);

return ret;
}

static int ipv4_sysctl_forward_strategy(ctl_table *table, int *name, int nlen,
    void *oldval, size_t *oldlenp,
    void *newval, size_t newlen,
    void **context)
{
int new;
if (newlen != sizeof(int))
  return -EINVAL;
if (get_user(new,(int *)newval))
  return -EFAULT;
if (new != ipv4_devconf.forwarding)
  inet_forward_change(new);
// 把forwarding值赋值为新值后应该可以返回>0的数的，现在不赋值只能返回0继续了
// 不过该strategy函数好象不是必要的，上面的proc_handler函数已经可以处理了
return 0; /* caller does change again and handles handles oldval */
}

ctl_table ipv4_table[] = {
......
        {NET_IPV4_FORWARD, "ip_forward",
         &ipv4_devconf.forwarding, sizeof(int), 0644, NULL,
         &ipv4_sysctl_forward,&ipv4_sysctl_forward_strategy},
......

4.2 释放函数

释放可读写的/proc文件使用unregister_sysctl_table()函数，该函数在kernel/sysctl.c中定义，声明如下:

void unregister_sysctl_table(struct ctl_table_header * header)

参数就是建立时的返回的struct ctl_table_header结构指针，通常在模块释放函数中调用。

5. 结论

内核中/proc编程现在已经很简单，将/proc目录作为单个的内核参数的控制是很合适的，但不适合大批量的数据传输。

使用/proc实现内核与用户空间通信的更多相关文章

linux 内核与用户空间通信机制netlink初探
1.Linux进程概述 Linux中的进程间通信机制源自于Unix平台上的进程通信机制.Unix的两大分支AT&T Unix和BSD Unix在进程通信实现机制上各有所不同,前者形成了运行 ...
linux 内核与用户空间通信之netlink使用方法
转自:http://blog.csdn.net/haomcu/article/details/7371835 Linux中的进程间通信机制源自于Unix平台上的进程通信机制.Unix的两大分支AT&a ...
Linux内核和用户空间通信之netlink
1. netlink Netlink套接字是用以实现用户进程与内核进程通信的一种特殊的进程间通信(IPC) ,也是网络应用程序与内核通信的最常用的接口. Netlink 是一种特殊的 socket,它 ...
Linux内核空间-用户空间通信之debugfs
一.debugfs文件系统简介 debugfs虚拟文件系统是一种内核空间与用户空间的接口,基于libfs库实现,专用于开发人员调试,便于向用户空间导出内核空间数据(当然,反方向也可以).debugfs ...
Linux内核态用户态相关知识 & 相互通信
http://www.cnblogs.com/bakari/p/5520860.html 内核从本质上看是一种软件——控制计算机的硬件资源,并提供上层应用程序运行的环境. 系统调用是操作系统的最小功能 ...
Linux 系统内核空间与用户空间通信的实现与分析-NETLINK (转载)
Linux中的进程间通信机制源自于Unix平台上的进程通信机制.Unix的两大分支AT&T Unix和BSD Unix在进程通信实现机制上的各有所不同,前者形成了运行在单个计算机上的Syste ...
linux 系统内核空间与用户空间通信的实现与分析<转>
linux 系统内核空间与用户空间通信的实现与分析 2 评论: 陈鑫 (chen.shin@hotmail.com), 自由软件爱好者, 南京邮电学院电子工程系 2004 年 7 月 01 日内容 ...
Linux启动时间优化-内核和用户空间启动优化实践
关键词:initcall.bootgraph.py.bootchartd.pybootchart等. 启动时间的优化,分为两大部分,分别是内核部分和用户空间两大部分. 从内核timestamp 0.0 ...
Linux 系统内核空间与用户空间通信的实现与分析
本文转载自:https://www.ibm.com/developerworks/cn/linux/l-netlink/index.html 多数的 Linux 内核态程序都需要和用户空间的进程交换数 ...

随机推荐

jquery实现的下拉和收缩代码实例
<!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta ...
iconv 批量修改文件编码
iconv_shell.sh #!/bin/bash "];then echo "Usage: `basename $0` dir filter" exit fi dir ...
解决xcode打开时loading假死的问题
症状如下: 点击打开xcode后,就一直会看到loading,但是CPU消耗很高,基本上就是死了(动弹不得),通过活动监测器看到xcode显示为“未响应” 以为是安装程序的问题,结果选中xcode拉到 ...
arm-linux-objdump
一.arm-linux-objdump常用来显示二进制文件信息,常用来查看反汇编代码二.常用选项:1.-b bfdname 指定目标码格式2.—disassemble或者-d 反汇编可执行段3.—di ...
Ubuntu 13.10 安装 ia32-lib
Ubuntu 13.10下面不参直接安装ia32-libs,直接安装的时候会提示下面的信息: output$ sudo apt-get install ia32-libs Reading packag ...
java -d64
在 resin启动时指定java时加上了 -d64选项 JAVA="/xx/java -d64" 选择 "-server"选项必须使用-d64 http://b ...
NYOJ-2 括号配对问题 -- 数据结构_堆栈
以前做过的,现在整理一下,主要是堆栈的使用 1.碰到左括号就入栈,碰到右括号就从栈里弹出一个和当前比配,匹配失败就肯定是NO了; 2.如果右括号弹栈的时候栈空,则说明之前没有和右括号匹配的左括号了,这 ...
div 两列布局，左侧固定宽度px，右侧自适应宽度，满屏
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xht ...
Spark是一种分布式的计算方案
Spark的安装基于HDFS,所以我们要设置hadoop的配置文件,所以spark的存储不是其主要的功能点,而spark作为分布式生态中的角色是一种计算模式(其他的计算模式,比如MR,Storm, ...
Oracle数据库——函数 http://www.jb51.net/article/40469.htm
1====分析函数相当于把分组后的结果加到每一行里 SELECT t.loan_contract_no,t.loan_name,t.loan_amount,ROWNUM, row_number ...

使用/proc实现内核与用户空间通信

使用/proc实现内核与用户空间通信的更多相关文章

随机推荐

热门专题