一只简单的网络爬虫（基于linux C/C++）———

爬虫里面采用了多线程的方式处理多个任务，以便支持并发的处理，把主函数那边算一个线程的话，加上一个DNS解析的线程，以及我们可以设置的max_job_num值，最多使用了1+1+max_job_num个线程。相关的线程封装如下：

创建线程

int create_thread(void *(*start_func)(void *), void * arg, pthread_t *pid, pthread_attr_t * pattr)

{

    pthread_attr_t attr;

    pthread_t pt;

    if (pattr == NULL)

     {

        pattr = &attr;

        pthread_attr_init(pattr);//pthread_attr_init函数的作用初始化一个线程对象的属性,需要用pthread_attr_destroy函数对其去除初始化

        pthread_attr_setstacksize(pattr, 1024*1024);//设置线程堆栈的大小

        pthread_attr_setdetachstate(pattr, PTHREAD_CREATE_DETACHED);//设置线程分离

    }

    if (pid == NULL)

        pid = &pt;

    int rv = pthread_create(pid, pattr, start_func, arg);//创建线程

    pthread_attr_destroy(pattr);//取出线程对象属性的初始化

    return rv;

}

主要是使用了pthread_attr_init函数对线程的属性做了一些设置

Posix线程中的线程属性是一个pthread_attr_t类型，主要包括scope属性、detach属性、堆栈地址、堆栈大小、优先级。在pthread_create中，把第二个参数设置为NULL的话，将采用默认的属性配置。

pthread_attr_t的主要属性的意义如下：

__detachstate，表示新线程是否与进程中其他线程脱离同步，如果设置为PTHREAD_CREATE_DETACHED 则新线程不能用pthread_join()来同步，且在退出时自行释放所占用的资源。缺省为PTHREAD_CREATE_JOINABLE状态。这个属性也可以在线程创建并运行以后用pthread_detach()来设置，而一旦设置为PTHREAD_CREATE_DETACH状态（不论是创建时设置还是运行时设置）则不能再恢复到PTHREAD_CREATE_JOINABLE状态。

__schedpolicy，表示新线程的调度策略，主要包括SCHED_OTHER（正常、非实时）、SCHED_RR（实时、轮转法）和SCHED_FIFO（实时、先入先出）三种，缺省为SCHED_OTHER，后两种调度策略仅对超级用户有效。运行时可以用过pthread_setschedparam()来改变。

__schedparam，一个struct sched_param结构，目前仅有一个sched_priority整型变量表示线程的运行优先级。这个参数仅当调度策略为实时（即SCHED_RR或SCHED_FIFO）时才有效，并可以在运行时通过pthread_setschedparam()函数来改变，缺省为0。

__inheritsched，有两种值可供选择：PTHREAD_EXPLICIT_SCHED和PTHREAD_INHERIT_SCHED，前者表示新线程使用显式指定调度策略和调度参数（即attr中的值），而后者表示继承调用者线程的值。缺省为PTHREAD_EXPLICIT_SCHED。

__scope，表示线程间竞争CPU的范围，也就是说线程优先级的有效范围。POSIX的标准中定义了两个值：PTHREAD_SCOPE_SYSTEM和PTHREAD_SCOPE_PROCESS，前者表示与系统中所有线程一起竞争CPU时间，后者表示仅与同进程中的线程竞争CPU。目前LinuxThreads仅实现了PTHREAD_SCOPE_SYSTEM一值。

为了设置这些属性，POSIX定义了一系列属性设置函数，包括pthread_attr_init()、pthread_attr_destroy()和与各个属性相关的pthread_attr_getXXX/pthread_attr_setXXX函数。如下图：

主要的函数如下：

1、pthread_attr_init

功能：对线程属性变量的初始化。

头文件： pthread.h

函数原型： int pthread_attr_init (pthread_attr_t* attr);

函数传入值：attr:线程属性。

函数返回值：成功： 0

失败： -1

2、pthread_attr_setscope

功能：设置线程 __scope 属性。scope属性表示线程间竞争CPU的范围，也就是说线程优先级的有效范围。POSIX的标准中定义了两个值：PTHREAD_SCOPE_SYSTEM和PTHREAD_SCOPE_PROCESS，前者表示与系统中所有线程一起竞争CPU时间，后者表示仅与同进程中的线程竞争CPU。默认为PTHREAD_SCOPE_PROCESS。目前LinuxThreads仅实现了PTHREAD_SCOPE_SYSTEM一值。

头文件： pthread.h

函数原型： int pthread_attr_setscope (pthread_attr_t* attr, int scope);

函数传入值：attr: 线程属性。

scope:PTHREAD_SCOPE_SYSTEM，表示与系统中所有线程一起竞争CPU时间，

PTHREAD_SCOPE_PROCESS，表示仅与同进程中的线程竞争CPU

函数返回值：成功： 0

失败： -1

3、pthread_attr_setdetachstate

功能：设置线程detachstate属性。该表示新线程是否与进程中其他线程脱离同步，如果设置为PTHREAD_CREATE_DETACHED则新线程不能用pthread_join()来同步，且在退出时自行释放所占用的资源。缺省为PTHREAD_CREATE_JOINABLE状态。这个属性也可以在线程创建并运行以后用pthread_detach()来设置，而一旦设置为PTHREAD_CREATE_DETACH状态（不论是创建时设置还是运行时设置）则不能再恢复到PTHREAD_CREATE_JOINABLE状态。

头文件： phread.h

函数原型： int pthread_attr_setdetachstate (pthread_attr_t* attr, int detachstate);

函数传入值：attr:线程属性。

detachstate:PTHREAD_CREATE_DETACHED，不能用pthread_join()来同步，且在退出时自行释放所占用的资源

PTHREAD_CREATE_JOINABLE，能用pthread_join()来同步

函数返回值：成功： 0

失败： -1

4、pthread_attr_setschedparam

功能：设置线程schedparam属性，即调用的优先级。

头文件： pthread.h

函数原型： int pthread_attr_setschedparam (pthread_attr_t* attr, struct sched_param* param);

函数传入值：attr：线程属性。

param：线程优先级。一个struct sched_param结构，目前仅有一个sched_priority整型变量表示线程的运行优先级。这个参数仅当调度策略为实时（即SCHED_RR或SCHED_FIFO）时才有效，并可以在运行时通过pthread_setschedparam()函数来改变，缺省为0

函数返回值：成功： 0

失败： -1

5、pthread_attr_getschedparam

功能：得到线程优先级。

头文件： pthread.h

函数原型： int pthread_attr_getschedparam (pthread_attr_t* attr, struct sched_param* param);

函数传入值：attr：线程属性；

param：线程优先级；

函数返回值：成功： 0

失败： -1

具体的函数可以通过man查得，下面谈谈pthread_attr_setdetachstate

在任何一个时间点上，线程是可结合的（joinable），或者是分离的（detached）。一个可结合的线程能够被其他线程收回其资源和杀死；在被其他线程回收之前，它的存储器资源（如栈）是不释放的。相反，一个分离的线程是不能被其他线程回收或杀死的，它的存储器资源在它终止时由系统自动释放。

线程的分离状态决定一个线程以什么样的方式来终止自己。在默认情况下线程是非分离状态的，这种情况下，原有的线程等待创建的线程结束。只有当pthread_join（）函数返回时，创建的线程才算终止，才能释放自己占用的系统资源。而分离线程不是这样子的，它没有被其他的线程所等待，自己运行结束了，线程也就终止了，马上释放系统资源。程序员应该根据自己的需要，选择适当的分离状态。所以如果我们在创建线程时就知道不需要了解线程的终止状态，则可以pthread_attr_t结构中的detachstate线程属性，让线程以分离状态启动。

爬虫里使用的是线程分离。

线程（任务）开始

void begin_thread()

{

    SPIDER_LOG(SPIDER_LEVEL_DEBUG, "Begin Thread %lu", pthread_self());//获得线程自身的ID

}

该函数只是简单的打印一下自身id日志

线程（任务）结束

下面这个函数结束了一个任务，其实线程是自动结束的，因为之前设置了线程分离的属性，在线程函数执行结束后就会终止并释放资源，并没有使用pthread_join（）函数，因此该函数其实只是打印下标志说明线程结束，并且如果在事件数允许的情况下调用attach_epoll_task()，该函数执行了发送请求，注册epoll事件等操作，然后又根据epoll_wait函数返回的事件数又创建若干线程来执行任务，如果事件数达到设置的上限，则会在其他线程结束的时候再创建新的线程来处理任务

//结束一个任务，只是结束任务， 因为设置了线程分离，所以回调函数执行结束后便会结束该线程

//但是如果任务数允许，则会创建新的任务

void end_thread()

{

    pthread_mutex_lock(&gctn_lock);

    int left = g_conf->max_job_num - (--g_cur_thread_num);//刷新剩下的任务数

    if (left == 1)

    {//创建一些新的任务，主函数那里只是处理原来的那些url

        // can start one thread

        attach_epoll_task();//该函数执行了发送请求，注册epoll事件等操作

    }

    else if (left > 1)

    {

        // can start two thread

        attach_epoll_task();

        attach_epoll_task();

    }

    else

    {//要先等待其他的事件退出，才能开启新的任务

        // have reached g_conf->max_job_num , do nothing

    }

    //打印当前线程的id以及剩下的任务数

    SPIDER_LOG(SPIDER_LEVEL_DEBUG, "End Thread %lu, cur_thread_num=%d", pthread_self(), g_cur_thread_num);

    pthread_mutex_unlock(&gctn_lock);

}

因此该爬虫没有使用线程池，而是每次创建新的线程处理事件，然后事件函数执行完毕自动结束线程，循环这个过程。

线程属性的相关知识可以参考这里

一只简单的网络爬虫（基于linux C/C++）————线程相关的更多相关文章

一只简单的网络爬虫（基于linux C/C++）————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
一只简单的网络爬虫（基于linux C/C++）————浅谈并发（IO复用）模型
Linux常用的并发模型 Linux 下设计并发网络程序,有典型的 Apache 模型( Process Per Connection ,简称 PPC ), TPC ( Thread Per Conn ...
一只简单的网络爬虫（基于linux C/C++）————支持动态模块加载
插件在软件设计中有很大的好处,可以方便地扩展各种功能,使用插件技术能够在分析.设计.开发.项目计划.协作生产和产品扩展等很多方面带来好处: (1)结构清晰.易于理解.由于借鉴了硬件总线的结构,而且各个 ...
一只简单的网络爬虫（基于linux C/C++）————socket相关及HTTP
socket相关建立连接网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
一只简单的网络爬虫（基于linux C/C++）————守护进程
守护进程,也就是通常说的Daemon进程,是Linux中的后台服务进程.它是一个生存期较长的进程,通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件.守护进程常常在系统引导装入时启动, ...
一只简单的网络爬虫（基于linux C/C++）————读取命令行参数及日志宏设计
linux上面的程序刚开始启动的时候一般会从命令行获取某些参数,比如以守护进程运行啊什么的,典型的例子就是linux下的man,如下图所示实现该功能可以使用getopt函数实现,该函数在头文件uni ...
一只简单的网络爬虫（基于linux C/C++）————利用正则表达式解析页面
我们向一个HTTP的服务器发送HTTP的请求后,服务器会返回可能一个HTML页面(当然也可以是其他的资源),我们可以利用返回的HTML页面,在其中寻找其他的Url,例如我们可以这样在浏览器上查看一下H ...
一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析
Url处理爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...
一只简单的网络爬虫（基于linux C/C++）————配置文件设计及读取
一般来说linux下比较大型的程序都是以配置文件作为参数介质传递的,该爬虫也采用配置文件的方式来获取参数,配置文件格式大致如下: max_job_num=1 #seeds=https://www.ba ...

随机推荐

String 对象-->toUpperCase() 方法
1.定义和用法将字符串中所有的小写字符转换成大写字符,大写字符保持不变返回转换后的结果字符串语法: string.toUpperCase() 注意:不会改变字符串本身,仅以返回值的形式返回结果 ...
hadoop(十)hdfs上传删除文件（完全分布式七)|12
集群测试上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/hdfs dfs -put wcinput/wc. ...
Keepalived实现Nginx负载均衡高可用
第一章:keepalived介绍 VRRP协议目的就是为了解决静态路由单点故障问题的第二章: keepalived工作原理 2.1 作为系统网络服务的高可用功能(failover) keepali ...
Three.js如何选中外部模型
1.问题 three.js中模型选中使用的是射线法,根据摄像机角度,鼠标点击位置和模型选中的distance参数判断来选中模型.对于原生的矢量模型完全没有问题,但是当遇到导入的外部模型,如obj.st ...
Python发送http请求时遇到问题总结
1.报错信息为“ERROR 'str' object has no attribute 'endwith'”,排查发现endswith方法名写错了,少了s,写成了 'endwith' if inter ...
L10机器
机器翻译和数据集机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT). 主要特征:输出是单词序列而不是单个单词. 输出序列的长度可能与源序 ...
A - Engines Atcoder 4900
题目大意:n个点,任意几个点组合后得到的点距离原点的最远距离. 题解:极角排序:https://blog.csdn.net/qq_39942341/article/details/79840394 利 ...
python基础-json、pickle模块
json.pickle区别总结: """ json: 1.不是所有的数据类型否可以序列化,序列化返回结果为字符串 2.不能多次对同一文件序列化 3.json数据可以跨语 ...
详解 File类
在讲解File类之前,本人先要讲解下路径,因为我们对于文件的操作是离不开路径的: 目录路径: File类文件名称过滤器: 路径: 请观看本人博文 -- <详解绝对路径与相对路径> ...
《并发编程的艺术》阅读笔记之Sychronized
概述在JDK1.6中,锁一共四种状态,级别由低到高依次是:无锁状态.偏向锁状态.轻量级锁状态和重量级锁状态.锁可以升级但不能降级,这是为了提高获得锁和释放锁的效率.只有重量级锁涉及到操作系统线程切换 ...

一只简单的网络爬虫（基于linux C/C++）————线程相关

一只简单的网络爬虫（基于linux C/C++）————线程相关的更多相关文章

随机推荐

热门专题