Python使用xslt提取网页数据

1，引言

在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分，实验了用xslt方式一次性提取静态网页内容并转换成xml格式。

2，用lxml库实现网页内容提取

lxml是python的一个库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

这2天测试了在python中通过xslt来提取网页内容，记录如下：

2.1，抓取目标

假设要提取集搜客官网旧版论坛的帖子标题和回复数，如下图，要把整个列表提取出来，存成xml格式

2.2，源代码1：只抓当前页，结果显示在控制台

Python的优势是用很少量代码就能解决一个问题，请注意下面的代码看起来很长，其实python函数调用没有几个，大篇幅被一个xslt脚本占去了，在这段代码中，只是一个好长的字符串而已，至于为什么选择xslt，而不是离散的xpath或者让人挠头的正则表达式，请参看《Python即时网络爬虫项目启动说明》，我们期望通过这个架构，把程序员的时间节省下来一大半。

可以拷贝运行下面的代码(在windows10， python3.2下测试通过)：

from urllib import request

from lxml import etree

url="http://www.sina.com/cn/forum/7"  #由于博客园的限制，如果你要运行该段代码的话请将‘sina’替换成‘gooseeker’

conn=request.urlopen(url)

doc = etree.HTML(conn.read())

xslt_root = etree.XML("""\

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >

<xsl:template match="/">

<列表>

<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/>

</列表>

</xsl:template>

<xsl:template match="table/tbody/tr[position()>=1]" mode="list">

<item>

<标题>

<xsl:value-of select="*//*[@class='topic']/a/text()"/>

<xsl:value-of select="*[@class='topic']/a/text()"/>

<xsl:if test="@class='topic'">

<xsl:value-of select="a/text()"/>

</xsl:if>

</标题>

<回复数>

<xsl:value-of select="*//*[@class='replies']/text()"/>

<xsl:value-of select="*[@class='replies']/text()"/>

<xsl:if test="@class='replies'">

<xsl:value-of select="text()"/>

</xsl:if>

</回复数>

</item>

</xsl:template>

<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表">

<item>

<list>

<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/>

</list>

</item>

</xsl:template>

</xsl:stylesheet>""")

transform = etree.XSLT(xslt_root)

result_tree = transform(doc)

print(result_tree)

源代码请通过本文结尾的GitHub源下载。

2.3，抓取结果

得到的抓取结果如下图：

2.4，源代码2：翻页抓取，结果存入文件

我们对2.2的代码再做进一步修改，增加翻页抓取和存结果文件功能，代码如下：

from urllib import request

from lxml import etree

import time

xslt_root = etree.XML("""\

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" >

<xsl:template match="/">

<列表>

<xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/>

</列表>

</xsl:template>

<xsl:template match="table/tbody/tr[position()>=1]" mode="list">

<item>

<标题>

<xsl:value-of select="*//*[@class='topic']/a/text()"/>

<xsl:value-of select="*[@class='topic']/a/text()"/>

<xsl:if test="@class='topic'">

<xsl:value-of select="a/text()"/>

</xsl:if>

</标题>

<回复数>

<xsl:value-of select="*//*[@class='replies']/text()"/>

<xsl:value-of select="*[@class='replies']/text()"/>

<xsl:if test="@class='replies'">

<xsl:value-of select="text()"/>

</xsl:if>

</回复数>

</item>

</xsl:template>

<xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表">

<item>

<list>

<xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/>

</list>

</item>

</xsl:template>

</xsl:stylesheet>""")

baseurl="http://www.sina.com/cn/forum/7"   #由于博客园的限制，如果你要运行该代码的话，将'sina'替换成'gooseeker‘

basefilebegin="jsk_bbs_"

basefileend=".xml"

count=1

while (count < 12):

        url=baseurl + "?page=" + str(count)

        conn=request.urlopen(url)

        doc = etree.HTML(conn.read())

        transform = etree.XSLT(xslt_root)

        result_tree = transform(doc)

        print(str(result_tree))

        file_obj=open(basefilebegin+str(count)+basefileend,'w',encoding='UTF-8')

        file_obj.write(str(result_tree))

        file_obj.close()

        count+=1

        time.sleep(2)

我们增加了写文件的代码，还增加了一个循环，构造每个翻页的网址，但是，如果翻页过程中网址总是不变怎么办？其实这就是动态网页内容，下面会讨论这个问题。

3，总结

这是开源Python通用爬虫项目的验证过程，在一个爬虫框架里面，其它部分都容易做成通用的，就是网页内容提取和转换成结构化的操作难于通用，我们称之为提取器。但是，借助GooSeeker可视化提取规则生成器MS谋数台，提取器的生成过程将变得很便捷，而且可以标准化插入，从而实现通用爬虫，在后续的文章中会专门讲解MS谋数台与Python配合的具体方法。

4，接下来阅读

本文介绍的方法通常用来抓取静态网页内容，也就是所谓的html文档中的内容，目前很多网站内容是用javascript动态生成的，一开始html是没有这些内容的，通过后加载方式添加进来，那么就需要采用动态技术，请阅读《Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》

5，集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

6，文档修改历史

2016-05-26：V2.0，增补文字说明；把跟帖的代码补充了进来
2016-05-29：V2.1，增加最后一章源代码下载源

Python使用xslt提取网页数据的更多相关文章

python爬虫-提取网页数据的三种武器
常用的提取网页数据的工具有三种xpath.css选择器.正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/i ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
API例子：用Python驱动Firefox采集网页数据
1,引言本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
python python 入门学习之网页数据爬虫cnbeta文章保存
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/ ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...

随机推荐

JAVA单元测试Junit
1.为什么要用Junit 做了很多项目,几乎没怎么用过Java的单元测试,是因为它没有用吗?显然不是,是自己的开发方式太不规范!对于大型的软件项目,单元测试不仅有效实用,还非常有必要!它能够测试每个方 ...
AngularJS中的控制器示例_3
<!doctype html> <html ng-app="myApp"> <head> <script src="C:\\Us ...
mysql group_concat函数是有长度限制的
在表关联查询中,特别是一对多关系的表查询中,group_concat函数是很有用的一个函数,帮助我们减少对数据库查询的次数,减少服务器的压力. 但是今天使用group_concat函数查询数据库时,发 ...
hdu 1595 find the longest of the shortest
http://acm.hdu.edu.cn/showproblem.php?pid=1595 这道题我用spfa在枚举删除边的时候求最短路超时,改用dijkstra就过了. #include < ...
LeetCode_Populating Next Right Pointers in Each Node II
Follow up for problem "Populating Next Right Pointers in Each Node". What if the given tre ...
unix c 03
C程序员的错误处理 errno/perror/strerror 都是系统设计好的自定义函数中的错误处理 1 可以返回-1 代表错误 2 指针类型可以用 NULL 代表错误 ...
NLog 2.0.0.2000 使用实例
原文地址:http://www.cnblogs.com/sorex/archive/2013/01/31/2887174.html ---------------------------------- ...
HDU 1576 A/B(数论)
题目:求(A/B)%9973,但由于A很大,我们只给出n(n=A%9973)(我们给定的A必能被B整除,且gcd(B,9973) = 1).数据给出n和b 推导过程 A/B = K K = 9973* ...
我的Android进阶之旅------>Android拍照小例子
今天简单的学习了一下android拍照的简单实现. 当然该程序是个小例子,非常简单,没有什么复杂的操作,但是可以学习到Android 拍照API流程. 1.在布局文件中添加一个 surfaceView ...
（36）JS运动之使物体向右运动
基本思路:样式要是绝对定位,不然的话根本走不起来.当开启一个定时器的时候.必须先清除定时器.这是为了防止鼠标连续点击button而开启多个定时器,导致物体的速度加快等原因,其次要控制好物体的运动和停止 ...

Python使用xslt提取网页数据

Python使用xslt提取网页数据的更多相关文章

随机推荐

热门专题