Linux企业级项目实践之网络爬虫（29）—

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots.txt文件是一个文本文件。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

如果将网站视为酒店里的一个房间，robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观，哪些房间因为存放贵重物品，或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令，也不是防火墙，如同守门人无法阻止窃贼等恶意闯入者。

Robots协议用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取；可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽；可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容；设置网站地图连接，方便引导蜘蛛爬取页面。

文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图告诉爬虫这个页面是网站地图

//解析robots文本

void parseRobots()

{

   char key [32];

   char value [100];

   int i,j;

   int posl = 0, posm = 0 ,posr =0;

   int len = strlen(robotstxt);

   bool hasAgent = false;

   while(posl<len && posm<len && posr<len)

    {

       //找到第一个不为空格和换行符的字符位置，确定posl

       while(posl<len && (robotstxt[posl]==' '

                || robotstxt[posl]=='\n' ||robotstxt[posl]=='\r')) posl++;

       //以#开头的，直接过滤掉该行

       if(robotstxt[posl]=='#')

       {

           while(posl<len && robotstxt[posl]!='\n') posl++;

           continue;

       }

       //找‘：’,确定posm

       posm = posl+1;

       while(posm<len && robotstxt[posm]!=':') posm++;

       //找换行符位置，确定posr

       posr = posm+1;

       while(posr<len && robotstxt[posr]!='\n') posr++;

       for(j=0,i=posl;i<posm;i++)

       {

           if(robotstxt[i]!=''&&robotstxt[i]!='\t'&&robotstxt[i]!='\r'&&robotstxt[i]!='\n')

                key[j++] = robotstxt[i];

       }

       key[j] = '\0';

       for(j=0,i=posm+1;i<posr;i++)

       {

           if(robotstxt[i]!=''&&robotstxt[i]!='\t'&&robotstxt[i]!='\r'&&robotstxt[i]!='\n')

                value[j++] = robotstxt[i];

       }

       value[j]='\0';

       posl = posr;

       if(strcmp(strlwr(key),"user-agent")==0){

           if(strcmp(value,"*")==0||strcmp(value,"webcrawler")==0)

           {

                hasAgent = true;

           }

           else hasAgent = false;

       }

       if(hasAgent)

       {

           int len_val = strlen(value);

           if(len_val<=0) continue;

           if(strcmp(strlwr(key),"disallow")==0 &&disallow_size<MAXDISALLOW)

           {

                disallow[disallow_size] = newchar [len_val+1];

               strcpy(disallow[disallow_size],strlwr(value));

                disallow_size++;

           }

           else if (strcmp(strlwr(key),"allow")==0 &&allow_size<MAXDISALLOW)

           {

                allow[allow_size] = new char[len_val+1];

               strcpy(allow[allow_size],strlwr(value));

                allow_size++;

           }

           else if(strcmp(strlwr(key),"craw-delay")==0)

           {

                crawldelay = 0;

                int len_val = strlen(value);

                for(int i=0;i<len_val;i++)

                {

                    crawldelay = crawldelay *10 + value[i]-'0';

                }

           }

       }

    }

}

Linux企业级项目实践之网络爬虫（29）——遵守robots.txt的更多相关文章

Linux企业级项目实践之网络爬虫（1）——项目概述及准备工作
我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开 ...
Linux企业级项目实践之网络爬虫（21）——扩展为多任务爬虫
高效的网络爬虫是搜索引擎的重要基础.采用多任务并发执行,实现类似于CPU的流水线(pipeline)运行方式,可极大地提高网络和计算资源的利用率等性能. #include "threads. ...
Linux企业级项目实践之网络爬虫（2）——网络爬虫的结构与工作流程
网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份. 一个通用的网络爬虫的框架如图所示:
Linux企业级项目实践之网络爬虫（23）——系统测试：找出系统中的bug
为了验证爬虫的业务流程.性能和健壮性需要进行测试. 软件测试是描述一种用来促进鉴定软件的正确性.完整性.安全性和质量的过程.软件测试的经典定义是:在规定的条件下对程序进行操作,以发现程序错误,衡量软件 ...
Linux企业级项目实践之网络爬虫（30）——通过查阅RFC文档扩充更加复杂的功能
HTTP是一种很简单的请求.响应式协议,客户端发送一个请求.服务器返回一个响应.HTTP 1.1 版本规范由 RFC2616 定义.了解了 HTTP请求.响应消息在TCP数据流中的格式,很容易使用纯 ...
Linux企业级项目实践之网络爬虫（28）——爬虫socket处理
Socket是进程之间交换数据的机制.这些进程即可以是同一台机器上的,也可以是通过网络连接起来的不同机器.一旦一个Socket连接建立,那么数据就能够双向传输,直到其中一端关闭连接. 通常,请求数据的 ...
Linux企业级项目实践之网络爬虫（19）——epoll接口
由于要实现爬虫程序的快速抓取,显然如果采用阻塞型的I/O方式,那么系统可能很长时间都处在等待内核响应的状态中,这样爬虫程序将大大地降低效率.然而,如果采用非阻塞I/O,那么就要一直调用应用进程,反复对 ...
Linux企业级项目实践之网络爬虫（6）——将程序设计成为守护进程
在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程.为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统. ...
Linux企业级项目实践之网络爬虫（3）——设计自己的网络爬虫
网络抓取系统分为核心和扩展组件两部分.核心部分是一个精简的.模块化的爬虫实现,而扩展部分则包括一些便利的.实用性的功能.目标是尽量的模块化,并体现爬虫的功能特点.这部分提供简单.灵活的API,在基本不 ...

随机推荐

Bootstrap图片旋转轮播的实现
bootstrap初级知识旋转轮播源文件:carousel.js.carousel.less CSS文件:bootstrap.css 这些源文件可以从bootstrap中下载,关于轮播,有很多译法, ...
git commit error about 'vi'
error: There was a problem with the editor 'vi'. Please supply the message using either -m or -F opt ...
hdu 4499 Cannon(暴力)
题目链接:hdu 4499 Cannon 题目大意:给出一个n*m的棋盘,上面已经存在了k个棋子,给出棋子的位置,然后求能够在这种棋盘上放多少个炮,要求后放置上去的炮相互之间不能攻击. 解题思路:枚举 ...
huffman编码——原理与实现
哈夫曼算法原理 Wikipedia上面说的非常清楚了,这里我就不再赘述,直接贴过来了. 1952年, David A. Huffman提出了一个不同的算法,这个算法能够为不论什么的可能性提供出一个理想 ...
递归---NYOJ-90整数划分(一)
这个题理解了好大会才理解,看了网上的代码,不太理解,但是后来看了好几个人的, 大同小异吧,慢慢的就理解了. 思路: 递归函数的意思是, 将 n 划分为最大数为 m 的划分数, 可以分几种情况 1. 当 ...
mysql慢查优化总结
1.优化sql语句结构 or改成union,使用start,limit 先只查询出所有的id,然后再排序.如果查询出所有的id仍然很慢,就要仔细考虑了. 2.添加索引 mysql每次查询只能使用一个索 ...
android studio adb 打不开
1.cmd-->C:\Users\Administrator>adb start-serveradb server is out of date. killing...error: cou ...
Jq/Js收集
判断checkbox选中的个数1.$('#del').click(function(){ var length = $("input[name='checkItem']:checked&qu ...
angularjs中ng-attr的用法
<!DOCTYPE html> <html lang="zh-CN" ng-app="app"> <head> <me ...
QT5控件-QDateTimeEdit和类QDateTime
#ifndef MAINWINDOW_H #define MAINWINDOW_H #include <QMainWindow> #include <QDateTime> #i ...

Linux企业级项目实践之网络爬虫（29）——遵守robots.txt

Linux企业级项目实践之网络爬虫（29）——遵守robots.txt的更多相关文章

随机推荐

热门专题