网站站点的背景调研

1. 检查 `robots.txt`

网站都会定义robots.txt 文件，这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了，这个限制仅仅只是一个建议，你可以遵守，也可以不遵守。但对于一个良好的网民来说，最好还是遵守robots.txt 文件里面的限制。

Q：如何查看这个 robots.txt 文件？

A：你只需要在 目标网站站点域名 后面加上 robots.txt 即可。

举例：目标网站站点域名：http://www.aobosir.com/ 。目标网站站点的robots.txt 文件：http://www.aobosir.com/robots.txt 。

# section 1

User-agent: BadCrawler

Disallow: /

# section 2

User-agent: *

Crawl-delay: 5

Disallow: /trap

# section 3

Sitemap: http://aobojaing.github.io/sitemap.xml

Q： robots.txt 文件里面的东西都是什么意思，又有什么用？

A：一个部分一个部分的讲解：

section 1：

这部分的意思就是：robots.txt 文件禁止那些代理为 BadCrawler 的爬虫访问该网站。 BadCrawler 中文翻译为：恶意爬网程序。

其实这一部分纯粹没用。因为一个恶意爬虫是根本不会代理成：BadCrawler 来访问网站的。你想啊，一个小偷，他会在偷别人东西之前告诉对方，“我是小偷，我要偷你东西了，你做好准备哦！” ？

我们还是尽量遵守robots.txt 文件里面的要求为好。这套专栏后面的博客中，将会展示如何让爬虫自动遵守 robots.txt 文件的要求。

section 2：

不管什么用户，两次爬取请求之间的间隔时间不可以小于 5秒钟。否则你访问的这个网站会将网页自动跳整到 /trap 链接。

就是说：网站服务器封禁了你的IP。我这个网站是封禁你1分钟的时间。一个真实的网站可能会对你的IP封禁更长的时间，如果你行为恶劣，甚至是永久封禁！

section 3：

定义了一个 Sitemap 文件，这个文件就是所谓的 网站地图。我们马上就来介绍这个文件。

2. 检查网站地图

下面的截图是在 robots.txt 文件中发现的 Sitemap 文件的内容：

网站提供的 Sitemap 文件（即网站地图），它提供了网站站点里面所有页面的链接。它们组成了这个 Sitemap 文件，现在你应该清楚：为什么叫这个文件为网站地图了吧。

我们无须爬取某个网站站点里面的每一个网页。网站提供的 Sitemap 文件帮助了我们的网络爬虫定为网站最新的内容。

虽然 Sitemap 文件提供了一种爬取网站的有效方式，但是我们仍需要对其谨慎处理，因为该文件经常存在缺失、过期或者不完整的问题。

3. 估算网站大小

Q：为什么要估算网站大小？

A：目标网站的大小指的是，这个站点里面有多少个网页。有多少的网页，会影响到我们如何进行爬取。爬取网站上的信息的方式有两种：串行爬取和分布式爬取。如果目标网站的网页数量不是很多，只有几百个网页，使用串行爬取就可以。但是如果一个目标网站的网页有几百万个，我们使用串行爬取的话，可能要持续数月才能完成，这个时候，我们就需要分布式爬取的策略来解决这个问题。

所以，在爬取目标网站之前，估算网站大小是很有必要的。

Q：如何估算网站大小？

A：估算网站大小的一个简便方法是：检查Google爬虫的爬取结果。

举例：目标网站：http://blog.csdn.net/github_35160620，现在我们要估算这个网站的大小。做法：在google搜索栏里面输入：site:http://blog.csdn.net/github_35160620 ，就可以了。

Google的爬虫估算该网站拥有98个网页，这个数字和事情情况差不多。（实际上，这个http://blog.csdn.net/github_35160620网站里面有101格网页。）

我们通过 Google搜索的site关键词过滤域名结果，从而获取估计的网站大小的信息。

这个例子估算的结果还算正确。不过对于更大型的网站，我们会发现 Google 的估算并十分准确。

Q：上不了 Google 网站，怎么办？

A：告诉你一个方法：无须翻墙，无需任何设置，就可以上谷歌，网速也是相当的快：虫部落 http://so.chongbuluo.com/

4. 识别网站所用技术

编写中…

5. 寻找网站所有者

编写中…

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识的更多相关文章

python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
【Python网络爬虫三】爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
精通python网络爬虫之自动爬取网页的爬虫代码记录
items的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...

随机推荐

MySQL+Node.js连接和操作
在本节中,您将学习如何使用mysql模块从node.js应用程序与MySQL进行交互. 我们将向您展示如何使用Node.js连接到MySQL,执行常用操作,如使用mysql模块API执行插入,选择,更 ...
C++ const 常量和常指针
常量,该指针所指向的值为只读 ; const int * p = &a; 常指针,该指针的值为只读,不可再指向其他地址 const * const p = &a; 常值,常指针 con ...
C程序设计语言阅读笔记
预处理器 ->.i 编译器 >.s 汇编器 >.o 链接器 --可执行文件 ------------------ math.h头文件包含各种数学函数的声明,所有函数都返回一个 ...
JSON格式规范总结
JSON有三类元素: 1.结构体(关键字:大括号)2.键值对(关键字:冒号)3.数组(关键字:中括号) 组织规则:结构体中放一个或者多个键值对.键只能是字符串.值可以是:字符串.数字.null.tru ...
JavaScript函数的默认参数(default parameter)
JavaScript函数的默认参数(default parameter) js函数参数的默认值都是undefined, ES5里,不支持直接在形参里写默认值.所以,要设置默认值,就要检测参数是否为un ...
让32位应用程序不再为2G内存限制苦恼
最近在做个程序,虽然是小型程序,但是使用的内存量却很大,动辄达到10G.在64位系统上可以轻松实现,无奈我是基于32位的系统进行开发,程序还没跑起来就已经被终止了. 试过很多办法,包括文件内 ...
df 命令-显示目前磁盘剩余的磁盘空间
linux中df命令的功能是用来检查linux服务器的文件系统的磁盘空间占用情况.可以利用该命令来获取硬盘被占用了多少空间,目前还剩下多少空间等信息. 1．命令格式: df [选项] [文件] 2．命 ...
angular使用代理解决跨域
angular2.angular4.angular5 及以上版本的跨域问题. 通过angular自身的代理转发功能配置package.json 两种方式启动代理服务第一种: 启动项目通过npm s ...
利用Synergy在局域网内让Ubuntu和Windows 7两台机器共用一套键鼠。
一个主机可以连接多个显示器, 方便自己使用, 但是这只是一个系统分屏显示, 如果想用两台不同系统的电脑, 并且还不想老是在两套键鼠之间来回转换, 那么建议你可以用Synergy软件来实现多台电脑之间的 ...
C语言在32位和64位机器下数字数据类型的字节数取决于编译器和平台，主要由编译器决定。
C语言中数字数据类型的字节数 C声明 32位机器 64位机器 char 1 1 short int 2 2 int 4 4 //整型在32位和64位下都是4个字节 long int 4 8 l ...

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

网站站点的背景调研

1. 检查 robots.txt

2. 检查 网站地图

3. 估算 网站大小

4. 识别 网站所用技术

5. 寻找 网站所有者