离robots.txt启动网络爬虫之旅

要成为一个网络爬虫或搜索引擎（在这里，共同蜘蛛）它不会陌生，在搜索引擎爬虫的第一个文件或者访问该网站上浏览robots.txt该。robots.txt文件讲述了蜘蛛server哪些文件要观看正在。

当一个搜索蜘蛛訪问一个网站时，它会首先检查该网站根文件夹下是否存在robots.txt，假设存在，搜索机器人就会依照该文件里的内容来确定訪问的范围；假设该文件不存在。全部的搜索蜘蛛将可以訪问网站上全部没有被口令保护的页面。

那我们应该如何使用robots.txt呢？

第一： robots.txt必须放置在一个网站的根文件夹下。并且文件名称必须所有小写。

第二：必须遵循下面语法：

最简单的 robots.txt 文件使用三条规则：

：User-Agent: 适用下列规则的漫游器（比方百度（Baiduspider）、Google（Googlebot））

：Disallow: 要拦截的网页（能够和）

：Allow: 同意语法（Disallow结合起来使用）

接下来让我们看下实际应用。

一般站点中不须要蜘蛛抓取的文件有：后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们能够写下面robots.txt内容：

User-agent: *

Disallow: /admin/ 后台管理文件

Disallow: /require/ 程序文件

Disallow: /attachment/ 附件

Disallow: /images/ 图片

Disallow: /data/ 数据库文件

Disallow: /template/ 模板文件

Disallow: /css/ 样式表文件

Disallow: /lang/ 编码文件

Disallow: /script/ 脚本文件

假设你想同意全部搜索引擎訪问站点的全部部分

1、你能够建立一个空白的文本文档。命名为robots.txt

2、User-agent: *

Disallow:

3、User-agent: *

Allow: /

假设你想禁止全部搜索引擎訪问站点的全部部分。把上面2中改成 Disallow: / 就能够了

假设你想禁止百度 User-agent: Baiduspider

假设你想禁止除Google外的一切搜索引擎

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

注：事实上并不是全部的爬昆虫将遵循robots.txt合约，因为我们能够制造恶意爬行动物。哈哈

离robots.txt启动网络爬虫之旅的更多相关文章

Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
网络爬虫与web之间的访问授权协议——Robots
网站的管理者们通常会有这样一种心态:一方面期待百度.Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息.正是因为这样,才有“好爬虫”.“坏爬虫”这样的说法 ...
Scrapy 爬虫日志中出现Forbidden by robots.txt
爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBO ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
Python3爬虫（二）网络爬虫的尺寸与约束
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.网络爬虫的尺寸: 1.小规模,数据量小,爬取速度不敏感,Requests库,爬取网页 2.中规模,数据规模较大 ...
<HTTP权威指南>记录 ---- 网络爬虫
网络爬虫网络爬虫(web crawler)能够在无需人类干预的情况下自动进行一系列Web事务处理的软件程序.很多爬虫会从一个Web站点逛到另一个Web站点,获取内容,跟踪超链,并对它们找到的数据进行 ...
假期学习【六】Python网络爬虫2020.2.4
今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...
SEO优化-robots.txt解读
一.什么是robots.txt robots.txt 文件由一条或多条规则组成.每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径. 通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看 ...

随机推荐

前台技术--通过javaScript提交表单
window.location=pp+"?username="+getCookie("username")+"&userid="+g ...
用MODELLER构建好模型后对loop区域进行自动的优化过程
一:对生成的模型的所有的loop区域进行优化 # Homology modeling by the automodel class from modeller import * from modell ...
Blend4精选案例图解教程（四）：请给我路径指引
原文:Blend4精选案例图解教程(四):请给我路径指引路径在界面设计中,可以起到很好的辅助作用,我常常使用它来对元素进行规则排列和非规则排列控制. 本次教程将演示,Blend中路径的常规用法. 1 ...
为什么Redis比Memcached易
GitHub版本号地址: https://github.com/cncounter/translation/blob/master/tiemao_2014/Redis_beats_Memcached/ ...
python udp编程实例
与python tcp编程控制见 http://blog.csdn.net/aspnet_lyc/article/details/39854569 c++ udp/tcp 编程见 http://blo ...
iOS_11_tableViewCell使用alertView变更数据
最后效果图: Girl.h // // Girl.h // 11_tableView的使用_红楼梦 // // Created by beyond on 14-7-26. // Copyright ( ...
利用Sails.js+MongoDB开发博客系统
http://yoyoyohamapi.me/categories/利用Sails-js-MongoDB开发博客系统/ 利用Sails.js+MongoDB开发博客系统 Apr 14, 2016 利用 ...
JDBC连接数据库 prepareStatement
import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import ...
计时器 Timer
计时器 Timer 不多说了,守则.
Apple Watch 2.0 数据通讯
经常会碰到Watch app和WatchKit extension需要访问同一个文件.比如,使用一个自定义的字体,播放多媒体文件.有两种方法完成这个任务. 设计的时候,每个包放一份文件.它们分别访问自 ...

离robots.txt启动网络爬虫之旅

离robots.txt启动网络爬虫之旅的更多相关文章

随机推荐

热门专题