离robots.txt启动网络爬虫之旅

要成为一个网络爬虫或搜索引擎（在这里，共同蜘蛛）它不会陌生，在搜索引擎爬虫的第一个文件或者访问该网站上浏览robots.txt该。robots.txt文件讲述了蜘蛛server哪些文件要观看正在。

当一个搜索蜘蛛訪问一个网站时，它会首先检查该网站根文件夹下是否存在robots.txt，假设存在，搜索机器人就会依照该文件里的内容来确定訪问的范围；假设该文件不存在。全部的搜索蜘蛛将可以訪问网站上全部没有被口令保护的页面。

那我们应该如何使用robots.txt呢？

第一： robots.txt必须放置在一个网站的根文件夹下。并且文件名称必须所有小写。

第二：必须遵循下面语法：

最简单的 robots.txt 文件使用三条规则：

：User-Agent: 适用下列规则的漫游器（比方百度（Baiduspider）、Google（Googlebot））

：Disallow: 要拦截的网页（能够和）

：Allow: 同意语法（Disallow结合起来使用）

接下来让我们看下实际应用。

一般站点中不须要蜘蛛抓取的文件有：后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们能够写下面robots.txt内容：

User-agent: *

Disallow: /admin/ 后台管理文件

Disallow: /require/ 程序文件

Disallow: /attachment/ 附件

Disallow: /images/ 图片

Disallow: /data/ 数据库文件

Disallow: /template/ 模板文件

Disallow: /css/ 样式表文件

Disallow: /lang/ 编码文件

Disallow: /script/ 脚本文件

假设你想同意全部搜索引擎訪问站点的全部部分

1、你能够建立一个空白的文本文档。命名为robots.txt

2、User-agent: *

Disallow:

3、User-agent: *

Allow: /

假设你想禁止全部搜索引擎訪问站点的全部部分。把上面2中改成 Disallow: / 就能够了

假设你想禁止百度 User-agent: Baiduspider

假设你想禁止除Google外的一切搜索引擎

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

注：事实上并不是全部的爬昆虫将遵循robots.txt合约，因为我们能够制造恶意爬行动物。哈哈

离robots.txt启动网络爬虫之旅的更多相关文章

Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
Scrapy 爬虫日志中出现Forbidden by robots.txt
爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBO ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
Python3爬虫（二）网络爬虫的尺寸与约束
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.网络爬虫的尺寸: 1.小规模,数据量小,爬取速度不敏感,Requests库,爬取网页 2.中规模,数据规模较大 ...
<HTTP权威指南>记录 ---- 网络爬虫
网络爬虫网络爬虫(web crawler)能够在无需人类干预的情况下自动进行一系列Web事务处理的软件程序.很多爬虫会从一个Web站点逛到另一个Web站点,获取内容,跟踪超链,并对它们找到的数据进行 ...
假期学习【六】Python网络爬虫2020.2.4
今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...
SEO优化-robots.txt解读
一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...

随机推荐

[TroubleShooting]'trn\bak' is incorrectly formed. SQL Server cannot process this media family.
SQL Server online consultants came across an interesting scenario where one of our client was una ...
Facebook Asynchronous Layout and Rending
Facebook Asynchronous Layout and Rending by 吴雪莹 dispatch_async(backgroundQueue, ^{ storyNode = [[FBS ...
玩转web之json(五)---将表单通过serialize()方法获取的值转成json
form表单有一个serialize()方法,可以序列化表单的值,但是jquery提供的这个方法会把数据序列化为类似下面的形式: a=1&b=2&c=3&d=4 jquery并 ...
Cocos2d-x3.0 lua捆绑C++分类
我知道这个纪录Lua结合整个过程. 原文地址:http://blog.csdn.net/qqmcy/article/details/26099859 准备工作: 1.创一个一个Lua的2dxproje ...
编程算法 - 最小的k个数红黑树代码(C++)
最小的k个数红黑树代码(C++) 本文地址: http://blog.csdn.net/caroline_wendy 题目: 输入n个整数, 找出当中的最小k个数. 使用红黑树(multiset) ...
SQL Server 开发利器 SQL Prompt 6.5 T-SQL智能感知分析器下载地址完全破解+使用教程
SQL脚本越写越多,总是觉得编写效率太过于低下,这和打字速度无关.在我个人编写SQL脚本时,至少会把SQL的格式排列成易于阅读的,因为其他人会阅读到你的SQL,无论是在程序中或是脚本文件中,良好的排版 ...
Windows在生产体系Android开关机动画
在Windows根据系统.办Android开关机动画,几个需要注意的问题: 1.压缩的选择 2.压缩的格式: 版权声明:本文博客原创文章,博客,未经同意,不得转载.
ios说说自己的计划是什么样的发展论坛
ios发展论坛在显示 iOS 5 在,主界面包含以下内置的应用程序: 信息.日历.照片. YouTube.股市.地图(AGPS辅助的Google地图).天气.时间.计算机.备忘录.系统设置. ...
iOS多用连接、反向协议、安全
资源 WWDC-2013-Session-708 BlackHat-US-2014-"It Just (Net)works" Understanding Multipeer Con ...
在高德地图应用api，和api展出的标记小的应用程序
<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content ...

离robots.txt启动网络爬虫之旅

离robots.txt启动网络爬虫之旅的更多相关文章

随机推荐

热门专题