通过网站地图爬取目标站点的所有网页

使用的系统：Windows 10 64位

Python 语言版本：Python 2.7.10 V

使用的编程 Python 的集成开发环境：PyCharm 2016 04

我使用的 urllib 的版本：urllib2

注意： 我没这里使用的是 Python2 ，而不是Python3

一 . 前言

通过前两节（爬取一个网页的网络爬虫和解决爬取到的网页显示时乱码问题），我们终于完成了最终的 download() 函数。

这一节和我未来的两节，我一个介绍 3种方法来爬取一个站点里面所有的网页。

这一篇博客，就来介绍第一种方法：使用目标网站的网站地图文件（Sitemap.xml）来爬取目标站点里面的所有的网页。

二 . 原理

之前，我们在目标网站的 robots.txt 文件中发现了网站地图（Sitemap.xml 文件），网站地图中包含了这个站点里面所有网页的URL。想要下载目标网站里面的所有网页，我们可以通过一个简单的正则表达式来解析网站地图（Sitemap.xml 文件）。如何解析？很简单，只需要从<loc>标签中提取出 URL 即可，就是这点工作。

在以后的博客中，我还会介绍一种更加健壮的解析方法 — CCS选择器。

三 . 代码

import re

def crawl_sitemap(url):

    # download the sitemap file

    sitemap = download(url)

    # extract the sitemap links

    links = re.findall('<loc>(.*?)</loc>', sitemap)

    # download each link

    for link in links:

        # scrape html here

        # ...

        html = download(link)

其中，代码中使用的 download(url) 函数的代码在这一篇博客的最下面。

四 . 解释代码

需要解释的就是下面这句使用正则表达式来解析 Sitemap文件里面的 URL：

    links = re.findall('<loc>(.*?)</loc>', sitemap)

findall() 函数是找到所有符合条件的Str字符串。<loc>(.*?)</loc>指的是：(.*?) 意思是：匹配所有<loc>(xxxx)</loc> 这样字符串，并将括号内的数据作为结果返回。

详细的内容，请见下面的两个博客：

Python 正则表达式总结

Python 正则表达式 — findall()方法

五 . 运行

先将 Python 终端交互程序启动：（在 PyCharm 软件中的 Terminal 窗口里，或者在Windows 系统的DOS窗口。）

> C:\Python27\python.exe -i 1-4-2-sitema

p_scrape.py

现在运行网站地图爬虫，从目标网站（http://example.webscraping.com/sitemap.xml）中下载所有网页。

>>> crawl_sitemap('http://example.webscraping.com/sitemap.xml')

Downloading:  http://example.webscraping.com/sitemap.xml

Downloading:  http://example.webscraping.com/view/Afghanistan-1

Downloading:  http://example.webscraping.com/view/Aland-Islands-2

Downloading:  http://example.webscraping.com/view/Albania-3

Downloading:  http://example.webscraping.com/view/Algeria-4

...

总结：

可以看到，程序运行的效果和我们的预期一致。

但是不是每个站点都可以依靠Sitemap文件来爬取站点中的每个网页。有些站点可能根本就没有 Sitemap文件。

所以我们下一节在介绍一种方法，它不会依赖Sitemap文件，是使用索引号的方法来爬取一个站点中所有的网页的。

Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页的更多相关文章

Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页
通过 ID索引号遍历目标网页里链接的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyChar ...
（转）Python网络爬虫实战：世纪佳缘爬取近6万条数据
又是一年双十一了,不知道从什么时候开始,双十一从“光棍节”变成了“双十一购物狂欢节”,最后一个属于单身狗的节日也成功被攻陷,成为了情侣们送礼物秀恩爱的节日. 翻着安静到死寂的聊天列表,我忽然惊醒,不行 ...
Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接，并下载这些URL链接的源代码
通过正则表达式来获取一个网页中的所有的 URL链接,并下载这些 URL链接的源代码使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 ...
Python 网络爬虫 004 (编程) 如何编写一个网络爬虫，来下载（或叫：爬取）一个站点里的所有网页
爬取目标站点里所有的网页使用的系统:Windows 10 64位 Python语言版本:Python 3.5.0 V 使用的编程Python的集成开发环境:PyCharm 2016 04 一 . 首 ...
Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取
前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌 ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...

随机推荐

04-THREE.JS 添加、删除物体，批量操作
<!DOCTYPE html> <html> <head> <title></title> <script src="htt ...
二维码的扫描和生成--第三方开源--ZXing
ZXing的二维码功能的提取lib下载地址:https://github.com/xuyisheng/ZXingLib 1.扫描二维码: 我们扫描就是要用到这个CaptureActivity类,直接把 ...
LeetCode OJ：Populating Next Right Pointers in Each Node II（指出每一个节点的下一个右侧节点II）
Follow up for problem "Populating Next Right Pointers in Each Node". What if the given tre ...
nyoj-1092-数字分隔（二）
java大法好啊思路:单独拿出整数部分分隔题目链接 import java.math.BigDecimal; import java.util.Scanner; public class Main ...
AJAX的最小单元
$(function(){ $('#send').click(function(){ $.ajax({ type: "GET", url: "test.json" ...
C#进阶之路（四）：拉姆达
对于拉姆达,许多文章都讲过原理及如何使用,所以这篇文章我主要是摘录我学习过的文字,总结下我自己的学习心得. 什么是拉姆达表达式 "Lambda表达式"是一个匿名函数,是一种高效的类 ...
三、python沉淀之路--列表（list)
一.列表提供的一些方法 1.append():在原值最后追加 li = [11,22,33,44,55,] li.append(99) print(li) li.append('中国') print( ...
swing之UI选择文件
package gui1; import java.awt.Container; import java.awt.FlowLayout; import java.awt.event.ActionEve ...
ShadowGun 图形技术分析
https://zhuanlan.zhihu.com/p/27966138 ShadowGun虽然是2011年的移动平台的游戏demo,但是里面的很多优化技巧到现在来看都是很值得学习的,毕竟是上过西瓜 ...
浅析BMP位图文件结构（含Demo）
浅析BMP位图文件结构(含Demo) 作者:一点一滴的Beer http://beer.cnblogs.com/ 关于BMP位图格式在网上可以找到比较详细的相关文档,有兴趣的可以搜索标题为“BMP ...

Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页