Linux企业级项目实践之网络爬虫（4）—

当我们设计好程序框架之后就要开始实现它了。第一步当然是要实现主程序的流程框架。之后我们逐渐填充每个流程的细节和其需要调用的模块。

主程序的流程如下：

1、解析命令行参数，并根据参数跳转到相应的处理分支

2、解析配置文件

3、载入处理模块

4、加载种子URL

5、启动抓取任务

主程序的代码如下：

int main(int argc, void *argv[])

{

   struct epoll_event events[10];

   int daemonized = 0;

   char ch;

   while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -1) {

        switch(ch) {

            case 'v':

                version();

                break;

            case 'd':

                daemonized = 1;

                break;

            case 'h':

            case '?':

            default:

                usage();

        }

   }

   g_conf = initconfig();

   loadconfig(g_conf);

   set_nofile(1024);

   vector<char *>::iterator it = g_conf->modules.begin();

   for(; it != g_conf->modules.end(); it++) {

        dso_load(g_conf->module_path, *it);

   }

   if (g_conf->seeds == NULL) {

        SPIDER_LOG(SPIDER_LEVEL_ERROR, "Wehave no seeds, Buddy!");

   } else {

        int c = 0;

        char ** splits =strsplit(g_conf->seeds, ',', &c, 0);

        while (c--) {

            Surl * surl = (Surl*)malloc(sizeof(Surl));

            surl->url =url_normalized(strdup(splits[c]));

            surl->level = 0;

            surl->type = TYPE_HTML;

            if (surl->url != NULL)

                push_surlqueue(surl);

       }

   }       

   if (daemonized)

        daemonize();

   chdir("download");

   int err = -1;

   if ((err = create_thread(urlparser, NULL, NULL, NULL)) < 0) {

        SPIDER_LOG(SPIDER_LEVEL_ERROR,"Create urlparser thread fail: %s", strerror(err));

   }

   int try_num = 1;

   while(try_num < 8 && is_ourlqueue_empty())

        usleep((10000 << try_num++));

   if (try_num >= 8) {

        SPIDER_LOG(SPIDER_LEVEL_ERROR, "NOourl! DNS parse error?");

   }

   if (g_conf->stat_interval > 0) {

        signal(SIGALRM, stat);

        set_ticker(g_conf->stat_interval);

   }

   int ourl_num = 0;

   g_epfd = epoll_create(g_conf->max_job_num);

   while(ourl_num++ < g_conf->max_job_num) {

        if (attach_epoll_task() < 0)

            break;

   }

   int n, i;

   while(1) {

        n = epoll_wait(g_epfd, events, 10,2000);

        printf("epoll:%d\n",n);

        if (n == -1)

            printf("epollerrno:%s\n",strerror(errno));

        fflush(stdout);

        if (n <= 0) {

            if (g_cur_thread_num <= 0&& is_ourlqueue_empty() && is_surlqueue_empty()) {

                sleep(1);

                if (g_cur_thread_num <= 0&& is_ourlqueue_empty() && is_surlqueue_empty())

                    break;

            }

        }

        for (i = 0; i < n; i++) {

            evso_arg * arg = (evso_arg*)(events[i].data.ptr);

            if ((events[i].events &EPOLLERR) ||

                (events[i].events &EPOLLHUP) ||

                (!(events[i].events &EPOLLIN))) {

                SPIDER_LOG(SPIDER_LEVEL_WARN,"epoll fail, close socket %d",arg->fd);

                close(arg->fd);

                continue;

            }

            epoll_ctl(g_epfd, EPOLL_CTL_DEL,arg->fd, &events[i]); /* del event */

            printf("helloepoll:event=%d\n",events[i].events);

            fflush(stdout);

            create_thread(recv_response, arg,NULL, NULL);

        }

   }

   SPIDER_LOG(SPIDER_LEVEL_DEBUG, "Task done!");

   close(g_epfd);

   return 0;

}

Linux企业级项目实践之网络爬虫（4）——主程序流程的更多相关文章

Linux企业级项目实践之网络爬虫（1）——项目概述及准备工作
我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
Linux企业级项目实践之网络爬虫（21）——扩展为多任务爬虫
高效的网络爬虫是搜索引擎的重要基础.采用多任务并发执行,实现类似于CPU的流水线(pipeline)运行方式,可极大地提高网络和计算资源的利用率等性能. #include "threads. ...
Linux企业级项目实践之网络爬虫（2）——网络爬虫的结构与工作流程
网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份. 一个通用的网络爬虫的框架如图所示:
Linux企业级项目实践之网络爬虫（23）——系统测试：找出系统中的bug
为了验证爬虫的业务流程.性能和健壮性需要进行测试. 软件测试是描述一种用来促进鉴定软件的正确性.完整性.安全性和质量的过程.软件测试的经典定义是:在规定的条件下对程序进行操作,以发现程序错误,衡量软件 ...
Linux企业级项目实践之网络爬虫（28）——爬虫socket处理
Socket是进程之间交换数据的机制.这些进程即可以是同一台机器上的,也可以是通过网络连接起来的不同机器.一旦一个Socket连接建立,那么数据就能够双向传输,直到其中一端关闭连接. 通常,请求数据的 ...
Linux企业级项目实践之网络爬虫（19）——epoll接口
由于要实现爬虫程序的快速抓取,显然如果采用阻塞型的I/O方式,那么系统可能很长时间都处在等待内核响应的状态中,这样爬虫程序将大大地降低效率.然而,如果采用非阻塞I/O,那么就要一直调用应用进程,反复对 ...
Linux企业级项目实践之网络爬虫（6）——将程序设计成为守护进程
在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程.为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统. ...
Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫
网络抓取系统分为核心和扩展组件两部分.核心部分是一个精简的.模块化的爬虫实现,而扩展部分则包括一些便利的.实用性的功能.目标是尽量的模块化,并体现爬虫的功能特点.这部分提供简单.灵活的API,在基本不 ...
Linux企业级项目实践之网络爬虫（30）——通过查阅RFC文档扩充更加复杂的功能
HTTP是一种很简单的请求.响应式协议,客户端发送一个请求.服务器返回一个响应.HTTP 1.1 版本规范由 RFC2616 定义.了解了 HTTP请求.响应消息在TCP数据流中的格式,很容易使用纯 ...

随机推荐

Java框架学习之Hibernate入门
Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库. Hibernate可以应用在任何使用JDB ...
最牛逼的的shell命令
参考远程diff [root@jiangyi01.sqa.zmf /home/ahao.mah/ALIOS_QA/tools/iperf] #ssh ahao.mah@dnstest02.tbc c ...
css hack 兼容性
做前端多年,虽然不是经常需要hack,但是我们经常会遇到各浏览器表现不一致的情况.基于此,某些情况我们会极不情愿的使用这个不太友好的方式来达到大家要求的页面表现.我个人是不太推荐使用hack的,要知 ...
Linux - Eclipse CDT + GCC 安装(2014.10.2)
Eclipse CDT + GCC 安装 (2014.10.2) 本文地址:http://blog.csdn.net/caroline_wendy 1. 安装Eclipse,在官方站点下载Eclips ...
C语音指针Introduction.
指针是C语言中广泛使用的一种数据类型. 运用指针编程是C语言最主要的风格之一.利用指针变量可以表示各种数据结构: 能很方便地使用数组和字符串: 并能象汇编语言一样处理内存地址,从而编出精练而高效的程序 ...
saltstack对递归依赖条件(死循环依赖)的处理
本文将对saltstack中状态文件中require条件产生死循环的情形进行简单的测试和分析测试思路: 写一个包含递归依赖条件的状态文件,进行测试: A依赖于B B依赖于C ...
javascript正则
<script type="text/javascript"> //去除两边空格,如果要去除所有空格,使用/\s*即可/ String.prototype.trim ...
Swift 数组、字典
import Foundation // 数组 var arr = [,2.3] var arr1 = [] print(arr) // 字典 var dict = ["] // 添加新项 ...
Limited Edition for Visual Studio 2013 图文教程（教你如何打包.NET程序）
原文:InstallShield Limited Edition for Visual Studio 2013 图文教程(教你如何打包.NET程序) InstallShield Limited Edi ...
HDU 5141
这个题 LIS + 并查集的思想 + 链式前向星要求找s(i,j)使i j 能有最长的LIS ... 做法是枚举每一个j 即终点算起点的可能无力吐槽了 bc 的时候写错了一个地方 ...

Linux企业级项目实践之网络爬虫（4）——主程序流程

Linux企业级项目实践之网络爬虫（4）——主程序流程的更多相关文章

随机推荐

热门专题