Python——XPath使用

一：XPath介绍

XPath全称XML路径语言，用于确定XML文档中某部分位置。XPath基于XML树状结构，在树中寻找结点。

现在，一般使用XPath在XML中查找、提取信息，同时，它也支持HTML。所以，我们可以用XPath取代正则表达式来提取信息。

XPath通过元素以及属性进行导航。

二：XPath使用大概步骤

1：安装lxml模块

2：导入树形结构

from lxml import etree

3：把requests抓取的网页转化为树形结构

selector=etree.HTML(网页源码)

4：从树形结构中查找信息

selector.xpath(查找条件)

三：实战

Xpath提取内容：

手动分析法：右键网页—>审查元素—>点击左侧的树结构，逐层展开找到自己需要抓取的内容，这个逐层元素标签构成的路径就是目标元素的路径

谷歌浏览器生成法：：右键网页—>审查元素—>点击左侧的树结构，逐层展开找到自己需要抓取的内容—>右键目标元素弹出菜单，选择“copy xpath”，即可获取目标元素的路径

观察可知，XPath提取内容的规律：

// 定位根节点

/ 进入下一层

/text() 获取当前层文本内容

/@XXX 获取XXX属性值

#coding:utf8

from lxml import etree

import requests

#连接到网页获取源码

html=requests.get("http://www.74xw.com/")

html.encoding='utf-8'

str=html.text

#转为树形结构

selector=etree.HTML(str)

#使用xpath提取内容

titles=selector.xpath("/html/body/div[2]/div[1]/div[2]/div/a/@title")

for title in titles:

    print title

四：特殊情况处理

相同字符开头的标签如何处理？

使用start-with(@属性名，属性值中开头相同的部分)

content=html.xpath("//div[start-with(@id,"class-")]/text()")

标签嵌套标签如何处理？

使用先抓大，再抓小的法则以及string(.)：

data=html.xpath("//大标签")[0] #抓大

info=data.xpath('string(.)')  #抓小（含\n与空格）

str=info.replace('\n','').replace(' ','') #把\n 与 空格 处理掉

print str

Python——XPath使用的更多相关文章

使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...
Python Xpath语法
Python Xpath语法一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath('//div') 选取了div节点 ...
python xpath
提取Item 选择器介绍我们有很多方法从网站中提取数据.Scrapy 使用一种叫做 XPath selectors的机制,它基于 XPath表达式.如果你想了解更多selectors和其他机制你可以 ...
15-糗事百科（python+xpath）
爬取糗事百科的段子: 1.用xpath分析首要爬去内容的表达式: 2.用发起请求,获得原码: 3.用xpath分析源码,提取有用信息: 4.由python格式转为json格式,写入文件 #_*_ co ...
selenium3 + python - xpath定位
什么是xpath呢? 官方介绍:XPath即为XML路径语言,它是一种用来确定XML1(标准通用标记语言3的子集)文档中某部分位置的语言.反正小编看这个介绍是云里雾里的,通俗一点讲就是通过元素的路径来 ...
python xpath学习
一.选取节点: 二.谓词: 注意:在scrapy中用xpath进行搜索时,如果使用相对路径,要加上.,如,不然搜索的是整个文档.
python+xpath+requests爬取维基百科历史上的今天
import requests import urllib.parse import datetime from lxml import etree fhout = open("result ...
13-爬取百度贴吧中的图片（python+xpath）
通过xpath分析页面,爬取页面中的图片: #_*_ coding: utf-8 _*_ ''' Created on 2018年7月15日 @author: sss function: 使用xpat ...
Python Xpath 提取html整个元素（标签与内容）
提取html某标签中文字时,文字中含有:“<sub>2</sub>O<sub>5</sub>”,导致提取的文字不符合预期. 解决方法: #coding= ...

随机推荐

黑镜第一至二季/全集Black Mirror迅雷下载
本季第一.二季 Black Mirror (2011-2013)看点:<黑镜>(Black Mirror)是一部由查理·布洛克主创.英国电视4台(Channel 4)于2011年12月播出 ...
[Ubuntu] fg、bg让你的进程在前后台之间切换
refer to : http://man.linuxde.net/jobs Linux下的fg和bg命令是进程的前后台调度命令,即将指定号码(非进程号)的命令进程放到前台或后台运行.比如一个需要长 ...
cannot import name 'main' 解决方案
error description: pip3 install numpy Traceback (most recent call last): File "/usr/bin/pip3&qu ...
python模块uuid产生唯一id
使用版本4:uuid4就可以了 UUID4缺点:糟糕的随机数发生器使得它更有可能发生碰撞,但是概率真的很小 UUID1缺点:暴露隐私 If all you want is a unique ID, y ...
Martin Fowler谈微服务的优缺点
很多开发团队已经认识到微服务架构比单体架构更优越.但是也有其他团队感觉到这是一种消弱生产力的负担.就像任何软件架构,微服务架构同样有利弊.为了能做出一个明智的选择,你必须了解这些应用并将它们运用到你特 ...
IIS 7.0 SSL 部署指南
一. 生成证书请求 1.进入IIS控制台进入IIS控制台,并选择服务器的服务器证书设置选项. 2.添加证书请求进入服务器证书配置页面,并选择“创建证书申请” 3.选择加密服务提供 ...
IT知识大扫盲
做了这么多软件开发,下列一些知识不一定都懂. 首先,说一些电子商务扫盲的名词: 常见的电子商务类型有:C2C.B2B.B2C.C2B.O2O等等,下面来简要说明下这几种类型. C2C(Customer ...
【Eclipse】Eclipse性能调优
Eclipse性能调优 eclipse 吃内存_百度搜索 eclipse 性能调优之内存分配 - Defonds 的专栏 - CSDN博客优化JVM参数提高eclipse运行速度 - Java综合 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
MFC自定义控件如何向父窗口发送自定义消息
自定义了一个控件 class CHtmlEditCtrlEx : public CHtmlEditCtrl 想在这个控件接收到Ctrl+V键盘消息的时候,向该控件所在的窗口发送一个自定义消息.具体 ...

Python——XPath使用

Python——XPath使用的更多相关文章

随机推荐

热门专题