一只简单的网络爬虫(基于linux C/C++)————读取命令行参数及日志宏设计
linux上面的程序刚开始启动的时候一般会从命令行获取某些参数,比如以守护进程运行啊什么的,典型的例子就是linux下的man,如下图所示
实现该功能可以使用getopt函数实现,该函数在头文件unistd.h定义
函数原型
int getopt(int argc,char * const argv[ ],const char * optstring);
函数说明
getopt()用来分析命令行参数。参数argc和argv是由main()传递的参数个数和内容。参数optstring 则代表欲处理的选项字符串。此函数会返回在argv 中下一个的选项字母,此字母会对应参数optstring 中的字母。如果选项字符串里的字母后接着冒号“:”,则表示还有相关的参数,全域变量optarg 即会指向此额外参数。如果getopt()找不到符合的参数则会印出错信息,并将全域变量optopt设为“?”字符,如果不希望getopt()印出错信息,则只要将全域变量opterr设为0即可。
短参数的定义
getopt()使用optstring所指的字串作为短参数列表,象”1ac:d::”就是一个短参数列表。短参数的定义是一个’-‘后面跟一个字母或数字,象-a, -b就是一个短参数。每个数字或字母定义一个参数。
其中短参数在getopt定义里分为三种:
1. 不带值的参数,它的定义即是参数本身。
2. 必须带值的参数,它的定义是在参数本身后面再加一个冒号。
3. 可选值的参数,它的定义是在参数本身后面加两个冒号 。
在这里拿上面的”1ac:d::”作为样例进行说明,其中的1,a就是不带值的参数,c是必须带值的参数,d是可选值的参数。
在实际调用中,’-1 -a -c cvalue -d’, ‘-1 -a -c cvalue -ddvalue’, ‘-1a -ddvalue -c cvalue’都是合法的。这里需要注意三点:
1. 不带值的参数可以连写,象1和a是不带值的参数,它们可以-1 -a分开写,也可以-1a或-a1连写。
2. 参数不分先后顺序,’-1a -c cvalue -ddvalue’和’-d -c cvalue -a1’的解析结果是一样的。
3. *要注意可选值的参数的值与参数之间不能有空格*,必须写成-ddvalue这样的格式,如果写成-d dvalue这样的格式就会解析错误。
返回值
getopt()每次调用会逐次返回命令行传入的参数。
当没有参数的最后的一次调用时,getopt()将返回-1。
当解析到一个不在optstring里面的参数,或者一个必选值参数不带值时,返回’?’。
当optstring是以’:’开头时,缺值参数的情况下会返回’:’,而不是’?’ 。
读取命令行参数函数可如下设计:
// 解析命令行参数
//getopt为标准库的函数,判断传进来的参数是否是后面参数集合的一部分
while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -1)
{//这里要做一个类型转换,否则出错
switch(ch)
{
case 'v'://获取版本
version();
break;
case 'd'://守护进程
daemonized = 1;
break;
case 'h'://获取帮助
case '?':
default:
usage();
}
}
根据返回值跳转到不同的函数执行。
日志宏
下面说说日志宏的实现,日志对于服务器程序或其他长期运行的,以守护进程方式运行的程序来说是非常重要的,除了发生错误的时候查看,在开发的时候输出调试信息更是有利于我们的开发,应该有不少的人会觉得用日志信息来调试会比使用gdb调试好。muduo库里面封装了很好的日志类,并且支持日志滚动,高效异步日志,实现了一个较好的日志功能,当然,我们并不用也去开发一个那样强大的日志库,“不要重复发明轮子”,学习是可以的,因为这个爬虫并不是用muduo库写的,而且我们的要求并没有那么高,所以我们可以自己实现一个简单的日志功能。
个人觉得日志一般应该包括时间,文件,所在行,日志等级,以及我们自己要输出的信息
一个简单的日志宏可以如下实现:
#define MAX_MESG_LEN 1024
#define SPIDER_LEVEL_DEBUG 0
#define SPIDER_LEVEL_INFO 1
#define SPIDER_LEVEL_WARN 2
#define SPIDER_LEVEL_ERROR 3
#define SPIDER_LEVEL_CRIT 4
static const char * LOG_STR[] = {
"DEBUG",
"INFO",
"WARN",
"ERROR",
"CRIT"
};
extern Config *g_conf;
//可变参数
//输出日期,时间,日志级别,源码文件,行号,信息
//'\'后面不要加注释
#define SPIDER_LOG(level, format, ...) do{ \
if (level >= g_conf->log_level) {\
time_t now = time(NULL); \
char msg[MAX_MESG_LEN]; \
char buf[32]; \
sprintf(msg, format, ##__VA_ARGS__); \
strftime(buf, sizeof(buf), "%Y%m%d %H:%M:%S", localtime(&now)); \
fprintf(stdout, "[%s] [%s] [file:%s] [line:%d] %s\n", buf, LOG_STR[level],__FILE__,__LINE__, msg); \
fflush (stdout); \
}\
if (level == SPIDER_LEVEL_ERROR) {\
exit(-1); \
} \
} while(0)
fprintf(stdout, “[%s] [%s] [file:%s] [line:%d] %s\n”, buf, LOG_STR[level],FILE,LINE, msg);这个是核心的输出函数,从左到右一次输出时间,日志等级,文件,所在行号,以及我们的信息。
VA_ARGS是一个可变参数宏,可以帮助我们把我们要输出的信息按照我们所要求的特定格式写进数组msg中,可见这里
FILE和LINE(前后都是双下划线,这里显示不出来)用于获取文件和行号
日志宏不仅是只能输出到终端,即一般日志应该能够写到文件中,特别是在以守护进程方式运行的时候,我们不希望终端上出现任何的消息,而是需要的时候采取查看日志文件,这里可以简单地实现下这个功能。
在以守护进程方式运行的时候,使用dup2函数将日志文件的文件描述符复制到标准输出stdout中,这样一来,输出到stdout的内容都将写到文件中,当然我们这里只是为了实现这个功能而已,效率及其他不做考虑,大并发的日志设计可以参考muduo库
该日志的输出效果如下:
一只简单的网络爬虫(基于linux C/C++)————读取命令行参数及日志宏设计的更多相关文章
- 一只简单的网络爬虫(基于linux C/C++)————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
- 一只简单的网络爬虫(基于linux C/C++)————主事件流程
该爬虫的主事件流程大致如下: 1.获取命令行参数,执行相应操作 2.读取配置文件,解析得到各种设置 3.载入各种模块 4.种子入队,开启DNS解析线程(原始队列不为空时解析) 5.创建epoll,开启 ...
- 一只简单的网络爬虫(基于linux C/C++)————浅谈并发(IO复用)模型
Linux常用的并发模型 Linux 下设计并发网络程序,有典型的 Apache 模型( Process Per Connection ,简称 PPC ), TPC ( Thread Per Conn ...
- 一只简单的网络爬虫(基于linux C/C++)————支持动态模块加载
插件在软件设计中有很大的好处,可以方便地扩展各种功能,使用插件技术能够在分析.设计.开发.项目计划.协作生产和产品扩展等很多方面带来好处: (1)结构清晰.易于理解.由于借鉴了硬件总线的结构,而且各个 ...
- 一只简单的网络爬虫(基于linux C/C++)————socket相关及HTTP
socket相关 建立连接 网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
- 一只简单的网络爬虫(基于linux C/C++)————守护进程
守护进程,也就是通常说的Daemon进程,是Linux中的后台服务进程.它是一个生存期较长的进程,通常独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件.守护进程常常在系统引导装入时启动, ...
- 一只简单的网络爬虫(基于linux C/C++)————利用正则表达式解析页面
我们向一个HTTP的服务器发送HTTP的请求后,服务器会返回可能一个HTML页面(当然也可以是其他的资源),我们可以利用返回的HTML页面,在其中寻找其他的Url,例如我们可以这样在浏览器上查看一下H ...
- 一只简单的网络爬虫(基于linux C/C++)————线程相关
爬虫里面采用了多线程的方式处理多个任务,以便支持并发的处理,把主函数那边算一个线程的话,加上一个DNS解析的线程,以及我们可以设置的max_job_num值,最多使用了1+1+max_job_num个 ...
- 一只简单的网络爬虫(基于linux C/C++)————Url处理以及使用libevent进行DNS解析
Url处理 爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...
随机推荐
- C语言实现链栈以及基本操作
链栈,即用链表实现栈存储结构.链栈的实现思路同顺序栈类似,顺序栈是将数顺序表(数组)的一端作为栈底,另一端为栈顶:链栈也如此,通常我们将链表的头部作为栈顶,尾部作为栈底,如下下图所示: 将链表头部作为 ...
- "按钮"组件:<h-button> —— 快应用组件库H-UI
 <import name="h-button" src="../Common/ui/h-ui/basic/c_button"></impo ...
- template_showpost
使用<a href='...'>name<\a>实现点击"name"与转向'...'网址的超链接操作 from django.shortcut import ...
- python3(九) Section
# list或tuple的部分元素 L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack'] # -----------------传统方法 print([L[ ...
- 超过百万的StackOverflow Flutter 问题
老孟导读:今天分享StackOverflow上高访问量的20大问题,这些问题给我一种特别熟悉的感觉,我想你一定或多或少的遇到过,有的问题在stackoverflow上有几十万的阅读量,说明很多人都遇到 ...
- leetcode c++做题思路和题解(4)——队列的例题和总结
队列的例题和总结 0. 目录 栈实现队列 队列实现栈 滑动窗口最大值 1. 栈实现队列 FIFO和FILO,相当于+-号,互转都是利用"负负得正"的原理. 官方解答中第二种思路很6 ...
- java的套接字实现远程连接
package jnet;//客户端程序,使用套接字连接服务器import java.net.*;import java.io.*;import javax.swing.*; public class ...
- AJ学IOS 之ipad开发Popover的调色板应用_popover显示后其他控件仍然能进行交互
AJ分享,必须精品 一:效果 后面的是xcode的控制台 二:代码 ViewController #import "ViewController.h" #import " ...
- AJ学IOS 之微博项目实战(3)微博主框架-UIImage防止iOS7之后自动渲染_定义分类
AJ分享,必须精品 一:效果对比 当我们设置tabBarController的tabBarItem.image的时候,默认情况下会出现图片变成蓝色的效果,这是因为ios7之后会对图片自动渲染成蓝色 代 ...
- Django系列操作
每次用到都去百度找....找的还不行~~得自己改~~耗时耗力虽然不难~~~直接贴代码记录下方便自己用~~~~ Django之分页 定义成一个块,直接引用到对应的位置即可... <div clas ...