Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
网站站点的背景调研
1. 检查 robots.txt
网站都会定义robots.txt 文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了,这个限制仅仅只是一个建议,你可以遵守,也可以不遵守。但对于一个良好的网民来说,最好还是遵守robots.txt 文件里面的限制。
Q: 如何查看这个 robots.txt 文件?
A: 你只需要在 目标网站站点域名 后面加上 robots.txt 即可。
举例:目标网站站点域名:http://www.aobosir.com/ 。目标网站站点的robots.txt 文件:http://www.aobosir.com/robots.txt 。
# section 1
User-agent: BadCrawler
Disallow: /
# section 2
User-agent: *
Crawl-delay: 5
Disallow: /trap
# section 3
Sitemap: http://aobojaing.github.io/sitemap.xml
Q: robots.txt 文件里面的东西都是什么意思,又有什么用?
A: 一个部分一个部分的讲解:
section 1:
这部分的意思就是:robots.txt 文件禁止那些代理为 BadCrawler 的爬虫访问该网站。 BadCrawler 中文翻译为:恶意爬网程序。
其实这一部分纯粹没用。因为一个恶意爬虫是根本不会代理成:BadCrawler 来访问网站的。你想啊,一个小偷,他会在偷别人东西之前告诉对方,“我是小偷,我要偷你东西了,你做好准备哦!” ?
我们还是尽量遵守robots.txt 文件里面的要求为好。这套专栏后面的博客中,将会展示如何让爬虫自动遵守 robots.txt 文件的要求。
section 2:
不管什么用户,两次爬取请求之间的间隔时间不可以小于 5秒钟。否则你访问的这个网站会将网页自动跳整到 /trap 链接。
就是说:网站服务器封禁了你的IP。我这个网站是封禁你1分钟的时间。一个真实的网站可能会对你的IP封禁更长的时间,如果你行为恶劣,甚至是永久封禁!
section 3:
定义了一个 Sitemap 文件,这个文件就是所谓的 网站地图。我们马上就来介绍这个文件。
2. 检查 网站地图
下面的截图是在 robots.txt 文件中发现的 Sitemap 文件的内容:
网站提供的 Sitemap 文件(即 网站地图),它提供了网站站点里面所有页面的链接。它们组成了这个 Sitemap 文件,现在你应该清楚:为什么叫这个文件为网站地图了吧。
我们无须爬取某个网站站点里面的每一个网页。网站提供的 Sitemap 文件 帮助了我们的网络爬虫定为网站最新的内容。
虽然 Sitemap 文件提供了一种爬取网站的有效方式,但是我们仍需要对其谨慎处理,因为该文件经常存在缺失、过期或者不完整的问题。
3. 估算 网站大小
Q: 为什么要估算 网站大小?
A: 目标网站的大小指的是,这个站点里面有多少个网页。有多少的网页,会影响到我们如何进行爬取。爬取网站上的信息的方式有两种:串行爬取 和 分布式爬取。如果目标网站的网页数量不是很多,只有几百个网页,使用串行爬取就可以。但是如果一个目标网站的网页有几百万个,我们使用串行爬取的话,可能要持续数月才能完成,这个时候,我们就需要分布式爬取的策略来解决这个问题。
所以,在爬取目标网站之前,估算 网站大小 是很有必要的。
Q: 如何估算 网站大小?
A: 估算网站大小的一个简便方法是:检查Google爬虫的爬取结果。
举例:目标网站:http://blog.csdn.net/github_35160620,现在我们要估算这个网站的大小。做法:在google搜索栏里面输入:site:http://blog.csdn.net/github_35160620 ,就可以了。
Google的爬虫估算该网站拥有98个网页,这个数字和事情情况差不多。(实际上,这个http://blog.csdn.net/github_35160620网站里面有101格网页。)
- 我们通过 Google搜索的
site关键词过滤域名结果,从而获取估计的网站大小的信息。- 这个例子估算的结果还算正确。不过对于更大型的网站,我们会发现 Google 的估算并十分准确。
Q: 上不了 Google 网站,怎么办?
A: 告诉你一个方法:无须翻墙,无需任何设置,就可以上谷歌,网速也是相当的快:虫部落 http://so.chongbuluo.com/
4. 识别 网站所用技术
编写中…
5. 寻找 网站所有者
编写中…
Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识的更多相关文章
- python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
- python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
- python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
- Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
- 【Python网络爬虫三】 爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序 需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
- python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
- Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
- 精通python网络爬虫之自动爬取网页的爬虫 代码记录
items的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
- Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫
如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
随机推荐
- SpringTask定时任务实例讲解【Java获取微信公众平台accessToken及jsapiTicket】
项目中调用微信公众平台的接口时,因为获取到的accessToken及jsapiTicket有效时长只有两个小时,需要不断更新. 所以做了个定时任务,记录一下. .SpringTask实现有两种方式,一 ...
- scnaf()读入字符串需要注意的地方
#include<iostream> #include<cstdio> using namespace std; int main() { ],cch[]; int a; ci ...
- HiHo 1032 最长回文子串 (Manacher算法求解)
/** * 求解最长回文字串,Manacher算法o(n)求解最长回文子串问题 **/ #include<cstdio> #include<cstdlib> #include& ...
- visual assist(VA)设置快捷键(其它安装的插件设置快捷键也在这里)
安装完visual assist后发现快捷键无法使用纠结,然后找如何去设置快捷建以此记录一下: 在Tools-->customize-->Keyboard-->Add-ins 常用的 ...
- 【集成学习】sklearn中xgboot模块中fit函数参数详解(fit model for train data)
参数解释,后续补上. # -*- coding: utf-8 -*- """ ############################################## ...
- HDU - 6191 Query on A Tree (可持久化字典树/字典树合并)
题目链接 题意:有一棵树,树根为1,树上的每个结点都有一个数字x.给出Q组询问,每组询问有两个值u,x,代表询问以结点u为根的子树中的某一个数与x的最大异或值. 解法一:dfs序+可持久化字典树.看到 ...
- python究竟要不要使用多线程
在总结concurrent.futures库之前先来弄明白三个问题: (1)python多线程究竟有没有用? (2)python虚拟机机制如何控制代码的执行? (3)python中多进程处理原理是怎么 ...
- npm init node 通过指令创建一个package.json文件及npm安装package.json
描述包的文件是package.json文件. 一个这样的文件,里面的信息还是挺大的.我们可以放弃手动建立.为了练手我们有命令行来建一个这样的包; 完成name,varsion....license项的 ...
- ajax返回
1.几种方式public function getAjax(){ //$data = 'ok'; //$this->ajaxReturn($data); // 'ok' //$this-> ...
- Java程序员如何在竞争中保持优势
Java程序员入门容易,进阶很难,想要在竞争中保持优势,脚踏实地的同时也要仰望星空规划自己的未来.时间在流逝,年龄在增加,你期望的薪水也在不断增多,你总得让自己能力持续增加以配得上想要的收入吧. 从初 ...