BIND9的架构与机制笔记1

　　BIND9采用的是事件驱动的机制来工作，而事件的源头则是IO，IO在linux使用的EPOLL的边缘触发模式。

　　本篇说的是epoll，BIND9如果创建了watcher线程（宏USE_WATCHER_THREAD控制），这里就讨论有线程的情况，实际上即使不创建

线程干的也都是一样的活。在lib/isc/socket.c中setup_watcher函数：（所有的代码都是截取的epoll下的片段，因为还有kqueue，devpoll，select等的实现代码，太多了）

#elif defined(USE_EPOLL)

    manager->nevents = ISC_SOCKET_MAXEVENTS;

    manager->events = isc_mem_get(mctx, sizeof(struct epoll_event) *

                      manager->nevents);

    if (manager->events == NULL)

        return (ISC_R_NOMEMORY);

    manager->epoll_fd = epoll_create(manager->nevents);

    if (manager->epoll_fd == -) {

        result = isc__errno2result(errno);

        isc__strerror(errno, strbuf, sizeof(strbuf));

        UNEXPECTED_ERROR(__FILE__, __LINE__,

                 "epoll_create %s: %s",

                 isc_msgcat_get(isc_msgcat, ISC_MSGSET_GENERAL,

                        ISC_MSG_FAILED, "failed"),

                 strbuf);

        isc_mem_put(mctx, manager->events,

                sizeof(struct epoll_event) * manager->nevents);

        return (result);

    }

#ifdef USE_WATCHER_THREAD

    result = watch_fd(manager, manager->pipe_fds[], SELECT_POKE_READ);

    if (result != ISC_R_SUCCESS) {

        close(manager->epoll_fd);

        isc_mem_put(mctx, manager->events,

                sizeof(struct epoll_event) * manager->nevents);

        return (result);

    }

#endif    /* USE_WATCHER_THREAD */

先是创建了要监视的最大socket fd数目（manager->nevents）对应的epoll_event结构体数组，然后调用epoll_create函数创建一个epoll fd，参数则是指定监视的socket fd

最大数目。我的内核版本是3.13，man一下epoll_create发现它是这样说的：epoll_create() creates an epoll(7) instance. Since Linux 2.6.8, thesize argument is ignored, but must be greater than zero。这个函数在2.6.8内核以后就忽略参数size了，但是传递的参数值一定要大于0。后来找了一下资料，网上的高手的博客说的就很清楚了http://www.cnblogs.com/apprentice89/p/3234677.html。继续往下说，后面的watch_fd实在创建线程的情况下才有，就是将pipe_fds[0]这个管道描述符，也就是一个可读的流，而上述的socket fd都是可以归为流。watch_fd的实现代码：

#elif defined(USE_EPOLL)

        struct epoll_event event;

        if (msg == SELECT_POKE_READ)

                event.events = EPOLLIN;

        else

                event.events = EPOLLOUT;

        memset(&event.data, , sizeof(event.data));

        event.data.fd = fd;

        if (epoll_ctl(manager->epoll_fd, EPOLL_CTL_ADD, fd, &event) == - &&

            errno != EEXIST) {

                result = isc__errno2result(errno);

        }

        return (result);

这是将pipe_fds[0]加入epoll_fd的监听队列，EPOLL_CTL_ADD是操作类型，注册该fd到epoll_fd上。这个管道的目的是接收管理该线程的消息，比如线程退出。

那么进入线程看：

static isc_threadresult_t

watcher(void *uap) {

    isc__socketmgr_t *manager = uap;

    isc_boolean_t done;

    int ctlfd;

    int cc;

#ifdef USE_KQUEUE

    const char *fnname = "kevent()";

#elif defined (USE_EPOLL)

    const char *fnname = "epoll_wait()";

#elif defined(USE_DEVPOLL)

    const char *fnname = "ioctl(DP_POLL)";

    struct dvpoll dvp;

#elif defined (USE_SELECT)

    const char *fnname = "select()";

    int maxfd;

#endif

    char strbuf[ISC_STRERRORSIZE];

#ifdef ISC_SOCKET_USE_POLLWATCH

    pollstate_t pollstate = poll_idle;

#endif

    /*

     * Get the control fd here.  This will never change.

     */

    ctlfd = manager->pipe_fds[];

    done = ISC_FALSE;

    while (!done) {

        do {

#ifdef USE_KQUEUE

            cc = kevent(manager->kqueue_fd, NULL, ,

                    manager->events, manager->nevents, NULL);

#elif defined(USE_EPOLL)

            cc = epoll_wait(manager->epoll_fd, manager->events,

                    manager->nevents, -);

#elif defined(USE_DEVPOLL)

            dvp.dp_fds = manager->events;

            dvp.dp_nfds = manager->nevents;

#ifndef ISC_SOCKET_USE_POLLWATCH

            dvp.dp_timeout = -;

#else

            if (pollstate == poll_idle)

                dvp.dp_timeout = -;

            else

                dvp.dp_timeout = ISC_SOCKET_POLLWATCH_TIMEOUT;

#endif    /* ISC_SOCKET_USE_POLLWATCH */

            cc = ioctl(manager->devpoll_fd, DP_POLL, &dvp);

#elif defined(USE_SELECT)

            LOCK(&manager->lock);

            memcpy(manager->read_fds_copy, manager->read_fds,

                   manager->fd_bufsize);

            memcpy(manager->write_fds_copy, manager->write_fds,

                   manager->fd_bufsize);

            maxfd = manager->maxfd + ;

            UNLOCK(&manager->lock);

            cc = select(maxfd, manager->read_fds_copy,

                    manager->write_fds_copy, NULL, NULL);

#endif    /* USE_KQUEUE */

            if (cc <  && !SOFT_ERROR(errno)) {

                isc__strerror(errno, strbuf, sizeof(strbuf));

                FATAL_ERROR(__FILE__, __LINE__,

                        "%s %s: %s", fnname,

                        isc_msgcat_get(isc_msgcat,

                               ISC_MSGSET_GENERAL,

                               ISC_MSG_FAILED,

                               "failed"), strbuf);

            }

#if defined(USE_DEVPOLL) && defined(ISC_SOCKET_USE_POLLWATCH)

            if (cc == ) {

                if (pollstate == poll_active)

                    pollstate = poll_checking;

                else if (pollstate == poll_checking)

                    pollstate = poll_idle;

            } else if (cc > ) {

                if (pollstate == poll_checking) {

                    /*

                     * XXX: We'd like to use a more

                     * verbose log level as it's actually an

                     * unexpected event, but the kernel bug

                     * reportedly happens pretty frequently

                     * (and it can also be a false positive)

                     * so it would be just too noisy.

                     */

                    manager_log(manager,

                            ISC_LOGCATEGORY_GENERAL,

                            ISC_LOGMODULE_SOCKET,

                            ISC_LOG_DEBUG(),

                            "unexpected POLL timeout");

                }

                pollstate = poll_active;

            }

#endif

        } while (cc < );

#if defined(USE_KQUEUE) || defined (USE_EPOLL) || defined (USE_DEVPOLL)

        done = process_fds(manager, manager->events, cc);

#elif defined(USE_SELECT)

        process_fds(manager, maxfd, manager->read_fds_copy,

                manager->write_fds_copy);

        /*

         * Process reads on internal, control fd.

         */

        if (FD_ISSET(ctlfd, manager->read_fds_copy))

            done = process_ctlfd(manager);

#endif

    }

    manager_log(manager, TRACE, "%s",

            isc_msgcat_get(isc_msgcat, ISC_MSGSET_GENERAL,

                   ISC_MSG_EXITING, "watcher exiting"));

    return ((isc_threadresult_t));

}

无限循环，epoll_wait当监听的epoll_fd队列上有IO事件发生时，将对应的socket fd和事件放入events数组中，并且将这些注册在epoll_fd上的socket fd对应事件清空。

process_fds遍历数组，找到对应的socket fd，并判断该fd是不是线程控制管道，如果是则会在执行完其他socket fd上的对应事件后再处理管道中的控制消息。

static isc_boolean_t

process_fds(isc__socketmgr_t *manager, struct epoll_event *events, int nevents)

{

    int i;

    isc_boolean_t done = ISC_FALSE;

#ifdef USE_WATCHER_THREAD

    isc_boolean_t have_ctlevent = ISC_FALSE;

#endif

    if (nevents == manager->nevents) {

        manager_log(manager, ISC_LOGCATEGORY_GENERAL,

                ISC_LOGMODULE_SOCKET, ISC_LOG_INFO,

                "maximum number of FD events (%d) received",

                nevents);

    }

    for (i = ; i < nevents; i++) {

        REQUIRE(events[i].data.fd < (int)manager->maxsocks);

#ifdef USE_WATCHER_THREAD

        if (events[i].data.fd == manager->pipe_fds[]) {

            have_ctlevent = ISC_TRUE;

            continue;

        }

#endif

        if ((events[i].events & EPOLLERR) !=  ||

            (events[i].events & EPOLLHUP) != ) {

            /*

             * epoll does not set IN/OUT bits on an erroneous

             * condition, so we need to try both anyway.  This is a

             * bit inefficient, but should be okay for such rare

             * events.  Note also that the read or write attempt

             * won't block because we use non-blocking sockets.

             */

            events[i].events |= (EPOLLIN | EPOLLOUT);

        }

        process_fd(manager, events[i].data.fd,

               (events[i].events & EPOLLIN) != ,

               (events[i].events & EPOLLOUT) != );

    }

#ifdef USE_WATCHER_THREAD

    if (have_ctlevent)

        done = process_ctlfd(manager);

#endif

    return (done);

}

待续

BIND9的架构与机制笔记1的更多相关文章

Magento架构师的笔记-----Magento显示当前目录的父分类和子分类的分类名
在Magento目录的分类页面里,希望在左侧导航获取到父分类和子分类,可以用以下方法:打开app/your_package/your_themes/template/catalog/navigatio ...
剖析虚幻渲染体系（12）- 移动端专题Part 2（GPU架构和机制）
目录 12.4 移动渲染技术要点 12.4.1 Tile-based (Deferred) Rendering 12.4.2 Hierarchical Tiling 12.4.3 Early-Z 12 ...
Web高级征程：《大型网站技术架构》读书笔记系列
一.此书到底何方神圣? <大型网站技术架构:核心原理与案例分析>通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计 ...
.net架构设计读书笔记--第三章第8节域模型简介（Introducing Domain Model）
一.数据--行为转变很长的时间,典型的分析方法或多或少是以下两种,第一,收集需求并做一些分析,找出有关实体 (例如,客户. 订单. 产品) 和进程来实现. 第二,手持这种理解你尝试推断一个物 ...
OpenCV基本架构［OpenCV 笔记0］
最近正在系统学习OpenCV,将不定期发布笔记,主要按照毛星云的<OpenCV3编程入门>的顺序学习,会参考官方教程和文档.学习工具是Xcode+CMake,会对书中一部分内容更正,并加入 ...
Spark cache、checkpoint机制笔记
Spark学习笔记总结 03. Spark cache和checkpoint机制 1. RDD cache缓存当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出 ...
微服务架构（Microservice Architect Pattern）综述——什么是微服务架构（读书笔记）
简单定义: 微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间相互协调,相互配合,为用户提供最终价值.每个服务运行在其独立的进程中,服务与服务间采用轻量级的通信机制相互沟通(通 ...
.net架构设计读书笔记--第三章第10节命令职责分离（CQRS）简介（Introducing CQRS）
一.分离查询命令 Separating commands from queries 早期的面向DDD设计方法的难点是如何设计一个类,这个类要包含域的方方面面.通常来说,任务软件系统方法调用可以 ...
.net架构设计读书笔记--第三章第9节域模型实现（ImplementingDomain Model）
我们长时间争论什么方案是实现域业务领域层架构的最佳方法.最后,我们用一个在线商店案例来说明,其中忽略了许多之前遇到的一些场景.在线商店对很多人来说更容易理解. 一.在线商店项目简介 1. 用例 ...

随机推荐

构建基于Javascript的移动web CMS——加入jQuery插件
当看到墨颀 CMS的菜单,变成一个工具栏的时候.变认为这一切有了意义.于是就继续看看这样一个CMS的边栏是怎么组成的. RequireJS与jQuery 插件演示样例一个简单的组合示比例如以下所看到 ...
Topcoder SRM 648 (div.2)
第一次做TC全部通过,截图纪念一下. 终于蓝了一次,也是TC上第一次变成蓝名,下次就要做Div.1了,希望div1不要挂零..._(:зゝ∠)_ A. KitayutaMart2 万年不变的水题. # ...
(转)使用DataTime这个类来获取当前的时间
我们可以通过使用DataTime这个类来获取当前的时间.通过调用类中的各种方法我们可以获取不同的时间:如:日期(--).时间(::).日期+时间(-- ::)等. //获取日期+时间 DateTime ...
apache也可以做负载均衡，跟nignx的区别是什么？
后续更新中.. 参考 http://zhumeng8337797.blog.163.com/blog/static/100768914201242211633248/ 比较 http://zhan.r ...
让sublime支持gbk常用编码
Sublime Text 2是一个非常不错的源代码及文本编辑器,但是不支持GB2312和GBK编码在很多情况下会非常麻烦.不过Sublime Package Control所以供的插件可以让Subli ...
Linux ulimit 系统资源控制
ulimit 的功能和用法 ulimit 功能简述假设有这样一种情况,当一台 Linux 主机上同时登陆了 10 个人,在系统资源无限制的情况下,这 10 个用户同时打开了 500 个文档,而假设每 ...
php 通过ip获取地理位置
<?php header('Content-Type:text/html;Charset=utf-8'); function GetIp(){ $realip = ''; $unknown = ...
QT5-控件-QLabel和QLCDNumber-标签显示图片或者视频，LCD用于上位机不错
#ifndef MAINWINDOW_H #define MAINWINDOW_H #include <QMainWindow> #include <QLabel> #incl ...
C++拾遗（六）函数相关(1)
返回值 C++规定返回值不能是数组.但可以是其它任何类型(包括结构体和对象). 通常,函数将返回值复制到指定的CPU寄存器或内存单元中,然后调用函数调用该内存单元的值. 函数原型参数列表中可以不包 ...
HAOI 硬币购物
试题描述: 现在一共有4种硬币,面值各不相同,分别为ci(i=1,2,3,4).某人去商店买东西,去了tot次,每次带di枚ci硬币,购买价值为si的货物.请问每次有多少种付款方法. 输入: 第一行包 ...

BIND9的架构与机制笔记1

BIND9的架构与机制笔记1的更多相关文章

随机推荐

热门专题