linux c++爬虫（一）

 int main(int argc, void *argv[])

 {

     struct epoll_event events[];

     int daemonized = ;

     char ch;

     while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -) {

         switch(ch) {

             case 'v':

                 version();

                 break;

             case 'd':

                 daemonized = ;

                 break;

             case 'h':

             case '?':

             default:

                 usage();

         }

     }

     g_conf = initconfig();

     loadconfig(g_conf);

     set_nofile(); 

     vector<char *>::iterator it = g_conf->modules.begin();

     for(; it != g_conf->modules.end(); it++) {

         dso_load(g_conf->module_path, *it);

     } 

     if (g_conf->seeds == NULL) {

         SPIDER_LOG(SPIDER_LEVEL_ERROR, "We have no seeds!");

     } else {

         int c = ;

         char ** splits = strsplit(g_conf->seeds, ',', &c, );

         while (c--) {

             Surl * surl = (Surl *)malloc(sizeof(Surl));

             surl->url = url_normalized(strdup(splits[c]));

             surl->level = ;

             surl->type = TYPE_HTML;

             if (surl->url != NULL)

                 push_surlqueue(surl);

         }

     }   

     if (daemonized)

         daemonize();

     chdir("download"); 

     int err = -;

     if ((err = create_thread(urlparser, NULL, NULL, NULL)) < ) {

         SPIDER_LOG(SPIDER_LEVEL_ERROR, "Create urlparser thread fail: %s", strerror(err));

     }

     /* waiting seed ourl ready */

     int try_num = ;

     while(try_num <  && is_ourlqueue_empty())

         usleep(( << try_num++));

     if (try_num >= ) {

         SPIDER_LOG(SPIDER_LEVEL_ERROR, "NO ourl! DNS parse error?");

     }

     /* set ticker  */

     if (g_conf->stat_interval > ) {

         signal(SIGALRM, stat);

         set_ticker(g_conf->stat_interval);

     }

     /* begin create epoll to run */

     int ourl_num = ;

     g_epfd = epoll_create(g_conf->max_job_num);

     while(ourl_num++ < g_conf->max_job_num) {

         if (attach_epoll_task() < )

             break;

     }

     /* epoll wait */

     int n, i;

     while() {

         n = epoll_wait(g_epfd, events, , );

         printf("epoll:%d\n",n);

         if (n == -)

             printf("epoll errno:%s\n",strerror(errno));

         fflush(stdout);

         if (n <= ) {

             if (g_cur_thread_num <=  && is_ourlqueue_empty() && is_surlqueue_empty()) {

                 sleep();

                 if (g_cur_thread_num <=  && is_ourlqueue_empty() && is_surlqueue_empty())

                     break;

             }

         }

         for (i = ; i < n; i++) {

             evso_arg * arg = (evso_arg *)(events[i].data.ptr);

             if ((events[i].events & EPOLLERR) ||

                 (events[i].events & EPOLLHUP) ||

                 (!(events[i].events & EPOLLIN))) {

                 SPIDER_LOG(SPIDER_LEVEL_WARN, "epoll fail, close socket %d",arg->fd);

                 close(arg->fd);

                 continue;

             }

             epoll_ctl(g_epfd, EPOLL_CTL_DEL, arg->fd, &events[i]); /* del event */

             printf("hello epoll:event=%d\n",events[i].events);

             fflush(stdout);

             create_thread(recv_response, arg, NULL, NULL);

         }

     }

     SPIDER_LOG(SPIDER_LEVEL_DEBUG, "Task done!");

     close(g_epfd);

     return ;

 }

本项目主要进行网页的抓取，上述为主控制模块

 while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -1) {

主要作用为命令行参数的解析，根据命令行参数我们判断是一些额外输出信息和以什么方式进行（ps：守护进成）

 24     g_conf = initconfig();

 25     loadconfig(g_conf);

进行初始化配置，对log配置进行加载，
log配置包含了一些抓取深度，种子，动态库路径等等之类的信息
下面主要是一些需要抓取前加载的配置文件

cur_thread_num.

max_job_num=

seeds=http://www.imeiding.com

logfile=spiderq.log

# Set the level to log. The probable values list as follow:

#    DEBUG

#    INFO

#    WARN

#    ERROR

#    CRIT

log_level=

max_depth=

module_path=/etc/spider/modules/

load_module=savehtml

load_module=saveimage

load_module=maxdepth

load_module=domainlimit

load_module=headerfilter

# specify which type of resource we accept. Each one a line.

# text/html is accepted default

accept_types=image/jpeg

我们将动态库都存在vector里面，以便后续使用
但是在读取配置文件的时候我们不要忘记字符串的处理，比如，空行，注释行#，空格，=划分等等问题

接下来设置守护进程，以便使任务脱离终端控制，

创建线程，通过libevent进行dns解析，，开启epoll任务，向epoll中注册事件，模式为ET模式，不断的等待内核中epoll事件的触发并进行处理

通过开启线程进行http请求，手写http头部，进行发送给server端一个http请求报文

http协议请求页面时的流程：

1、输入网址

2、向DNS发送解析请求

3、 DNS返回给我们一个对应的IP地址

4、通过IP地址向资源所在的主机发送请求

5、如果资源存在，主机返回200状态，同时返回数据部分

6、本地http客户端（一般来说是浏览器）接收数据

7、得到资源

得到http接受报文的时候，对http接收报文进行解析，解析内部的url并放入队列中，并对http接收报文进行持久化操作

linux c++爬虫（一）的更多相关文章

Linux shell爬虫实现树洞网自动回复Robot
奇怪的赞数人生在世,不如意事十之八九,可与言者无二三人.幸好我们生在互联网时代,现实中找不到可以倾诉的人还可以在网络上寻找发情绪宣泄口,树洞这类产品就是提供一个让人在网络上匿名倾诉的平台. 我是偶然 ...
Linux 驱动开发
linux驱动开发总结(一) 基础性总结 1, linux驱动一般分为3大类: * 字符设备 * 块设备 * 网络设备 2, 开发环境构建: * 交叉工具链构建 * NFS和tftp服务器安装 3, ...
微信小程序开发 [00] 写在前面的话，疯狂唠唠
我总是喜欢在写东西之前唠唠嗑,按照惯例会在博文的开篇写这么一段"写在前面的话",这次却为了这个唠嗑单独开了一篇文,大概预想着要胡说八道的话有点多. 前段时间突然对小程序来了兴趣,说 ...
Shell脚本日志关键字监控+告警
最近小张的爬虫程序越来越多,可当爬虫程序报错,不能及时的发现,从而造成某些重要信息不能及时获取的问题,更有甚者,遭到领导的批评.于是就在想有没有一种方法,当爬取信息报错的时候,可以通过邮件或者短信的方 ...
在linux下python爬虫进程发生异常时自动重启直至正常结束的方法
之前在做爬虫的时候遇到一种情况,当网络情况不太好的时候,爬虫爬到的链接在urlopen时会因为无法正常连接而报URLError或者timeout的错误导致陈序报错而终止:但是这些错误在重新运行陈序后能 ...
Linux企业级项目实践之网络爬虫（19）——epoll接口
由于要实现爬虫程序的快速抓取,显然如果采用阻塞型的I/O方式,那么系统可能很长时间都处在等待内核响应的状态中,这样爬虫程序将大大地降低效率.然而,如果采用非阻塞I/O,那么就要一直调用应用进程,反复对 ...
Linux企业级项目实践之网络爬虫（6）——将程序设计成为守护进程
在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程.为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统. ...
Linux企业级项目实践之网络爬虫（1）——项目概述及准备工作
我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开 ...
Linux 安装python爬虫框架 scrapy
Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...

随机推荐

Dashboard登录成功后 RuntimeError: Unable to create a new session key.
openstack按照官网docs部署horizon后,使用admin账号密码登录,但网页提示未知错误. 查看/var/log/httpd/error_log 提示这个:RuntimeError: U ...
PRINCE2认证
PRINCE是PRoject IN Controlled Environment(受控环境下的项目管理)的简称. PRINCE2描述了如何以一种逻辑性的.有组织的方法,按照明确的步骤对项目进行管理.它 ...
分布式文件管理系统_FastDFS集群
简单介绍 1,client storage tracker的关系先用一幅图来解释用户如何访问一个通过DFS管理的文件一般来说,一台服务器只有一个storage server,多个storage s ...
Docker系列一之基础快速入门企业实战
1.1什么是LXC LXC为Linux Container的简写.Linux Container容器是一种内核虚拟化技术,可以提供轻量级的虚拟化,以便隔离进程和资源,而且不需要提供指令解释机制以及全虚 ...
CF766 E. Mahmoud and a xor trip [预处理][树形dp]
题解: 二营长!你他娘的意大利炮呢? dp[i][j][0]: 从i,跋涉到以i为根的子树的每一个节点,在第j个数位上一共产生了多少个0. dp[i][j][1]: 从i,跋涉到以i为根的子树的每一个 ...
Visual Studio 2015 Professional 破解
Visual Studio 2015 Professional 版本破解序列号:HMGNV-WCYXV-X7G9W-YCX63-B98R2
JAVA 发送邮件代码---发送HTML内容
依赖包:mail.jar JAR链接地址: http://pan.baidu.com/s/1o8LNl0Y 密码: ja52 package com.dava; import java.util.Pr ...
C++学习笔记之模板篇
title: C++学习笔记之模板篇 tags: c++,c,模板,vector,friend,static,运算符重载,标准模板 --- 一.模板不管是函数模板还是类模板,在未初始化前都是不占用内 ...
donet体系结构
一.C#与.NET的关系 1.粗略地説,.net是一种在Windows平台上的编程架构----一种API.2.C#编译器专门用于.net,这表示用C#编写的所有代码总是使用.NET Framework ...
36.java_exception_test
package mytext1; class TZException extends Exception{ TZException(String str){ super(str); } public ...

linux c++爬虫（一）

linux c++爬虫（一）的更多相关文章

随机推荐

热门专题