python爬虫-xpath基础

# 准备一个html格式文档

doc = '''

<div>

    <ul>

         <li class="item-0"><a href="https://ask.hellobi.com/link1.html">first item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link2.html">second item</a></li>

         <li class="item-inactive"><a href="https://ask.hellobi.com/link3.html">third item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link4.html">fourth item</a></li>

         <li class="item-0"><a href="https://ask.hellobi.com/link5.html">fifth item</a>

     </ul>

 </div>

'''

# 导入模块

from lxml import etree

# etree.html是将爬取的网页数据再生成标准网页格式数据，因为有些网页不规范写的时候。

# etree.html可以解析html文件：（服务器上返回的html数据）。

# 解析HTML，返回根节点对象

# 将字符串格式的文件转化为html文档

tree = etree.HTML(doc)

# print(tree)   #==>   <Element html at 0x26f62635140> 表明这是一个html文档

# 调用 tostring() 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型

result = etree.tostring(tree)

# 利用 decode() 方法转成 str 类型

# print(result.decode('utf-8'))

# 在这里我们首先导入了 LXML 库的 etree 模块，然后声明了一段 HTML 文本，

# 调用 HTML 类进行初始化，这样我们就成功构造了一个 XPath 解析对象，

# 在这里注意到 HTML 文本中的最后一个 li 节点是没有闭合的，

# 但是 etree 模块可以对 HTML 文本进行自动修正。

# 在这里我们调用 tostring() 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型，

# 在这里我们利用 decode() 方法转成 str 类型，结果如下：

'''

<html><body><div>

    <ul>

         <li class="item-0"><a href="https://ask.hellobi.com/link1.html">first item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link2.html">second item</a></li>

         <li class="item-inactive"><a href="https://ask.hellobi.com/link3.html">third item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link4.html">fourth item</a></li>

         <li class="item-0"><a href="https://ask.hellobi.com/link5.html">fifth item</a>

     </li></ul>

 </div>

</body></html>

'''

# etree.parse是对标准网页格式数据进行解析用的。

# etree.parse直接接受一个文档，按照文档结构解析（本地文件）。

# etree.HTMLParser()指定解析器HTMLParser会根据文件修复HTML文件中缺失的如声明信息)

# b.html的内容就是doc

tree = etree.parse('./b.html', etree.HTMLParser())

result = etree.tostring(tree)

# print(result.decode('utf-8'))

# 这次的输出结果略有不同，多了一个 DOCTYPE 的声明，不过对解析无任何影响，结果如下：

'''

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

<html><body><div>

    <ul>

         <li class="item-0"><a href="https://ask.hellobi.com/link1.html">first item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link2.html">second item</a></li>

         <li class="item-inactive"><a href="https://ask.hellobi.com/link3.html">third item</a></li>

         <li class="item-1"><a href="https://ask.hellobi.com/link4.html">fourth item</a></li>

         <li class="item-0"><a href="https://ask.hellobi.com/link5.html">fifth item</a>

     </li></ul>

 </div></body></html>

'''

# 定位

tree = etree.parse('./b.html', etree.HTMLParser())

# result = tree.xpath('/html') # [<Element html at 0x1f20a07aac0>]

# result = tree.xpath('/html//li') # 跟下面返回一致

# result = tree.xpath('/html//li[@class]')

# result = tree.xpath('/html//li[2]')  # 选哪个li [<Element li at 0x13fcd6daec0>]

# result = tree.xpath('/html//li/a/text()') # 返回列表，['first item', 'second item', 'third item', 'fourth item', 'fifth item']

# result = tree.xpath('/html//li[@class="item-0"]') # 指定元素 [<Element li at 0x18664a7acc0>, <Element li at 0x18664a7ad80>]

# print(result)

li_list = tree.xpath('/html//li')

for li in li_list:

    # 从每一个li中提取到文字信息

    # ./当前节点下面

    result = li.xpath('./a/text()')

    print(result)  # 返回列表

    # 拿到属性值：@属性

    result2 = li.xpath('./a/@href')

    print(result2)  # 返回列表

python爬虫-xpath基础的更多相关文章

python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
Python 爬虫四基础案例-自动登陆github
GET&POST请求一般格式爬取Github数据 GET&POST请求一般格式很久之前在讲web框架的时候,曾经提到过一句话,在网络编程中“万物皆socket”.任何的网络通信归根 ...
[Python 练习爬虫] XPATH基础语法
XPATH语法: // 定位根标签 / 往下层寻找 /text() 提取文本内容 /@xxx 提取属性内容 Sample: import requests from lxml import etree ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
python爬虫相关基础概念
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面做得不好. 2.java ...
Python爬虫零基础入门（系列）
一.前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. update ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
python爬虫慕课基础2
实战演练:爬取百度百科1000个页面的数据对于新手来说,可以把spider_main.py代码中的try和except去掉,运行报错就会在控制台出现,根据错误去调试自己的程序发现以下错误: req ...
python爬虫慕课基础1
test_urllib2.py import http.cookiejar from urllib import request url = "http://www.baidu.com&qu ...
python爬虫----XPath
1.知道本节点元素,如何定位到兄弟元素详情见博客 XML代码见下 bt1在文档中只出现一次,所以很容易获取到bt1中内容,那怎么根据<td class='bt1'>来获取bt2中的内容 ...

随机推荐

Codeforces Round 927 (Div. 3) EFG
E:Link 题意:给定长度小于 \(4 \times 10^5\) 的整数 \(n\),求从 \(0\) 到 \(n\) 各数位变化次数之和. 如:\(n = 12345\) 个位变化 \(1234 ...
VSCode+VUE+ESLint以达到保存自动格式化
首先打开VSCode在.eslintrc.js中加入以下代码(不知道怎么找可以ctrl+shift+p进行搜索),添加 vscode 终端启动服务 // 添加⾃定义规则 'prettier/prett ...
SAP集成技术（四）五种集成架构
本文中,我们将介绍并解释五个主要的模型.我们主要区分直接集成.中间件导向集成以及两个一般的架构概念.直接集成(例如点对点集成)中的标准化很少,但中间件导向的拓扑(例如中心辐射型拓扑以及企业服务总线)追 ...
轻量级.net standard微信支付登录Nuget开源库
我个人编写的库,在我个人网站,小程序等很多地方都在使用中,大家可以搜索小程序什邡市宅猫君网络工作室或者到我的网站 store.zhaimaojun.cn 去体验支付和登录效果. 本库主要实现了na ...
80x86汇编—指令系统
文章目录 MOV 非法传送 XCHG XLAT 堆栈指令 push 和 pop 标志寄存器指令重点理解CF与OF与SF实际应用中的关系运算指令控制转移类指令(重点) 条件转移指令顺序是按照我们 ...
C数据结构：哈夫曼树算法实现与应用
学习哈夫曼树(编码) 带权二叉树认识WPL 最优二叉树构造哈夫曼树的过程哈夫曼树的应用建立哈夫曼树代码如下: 结构体代码部分建立操作代码找到最小结点(※难点) 附上建立哈夫曼树源代码带 ...
将自己喜欢的网页保存为单个文件包括图片(mhtml文件)
from selenium import webdriver driver = webdriver.Chrome(r'C:\chromedriver_win32\chromedriver.exe') ...
linux下RPM工具的使用：RPM安装/查询/查看/卸载/升级软件包
目录一.关于软件包二.RPM软件包三.RPM包通用的命名规则四.RPM工具的使用 4.1 rpm安装软件的功能 4.2 rpm查询的功能 4.3 rpm查看软件包内容是否被修改 4.4 rpm ...
从零开始写 Docker(十五)---实现 mydocker run -e 支持环境变量传递
本文为从零开始写 Docker 系列第十五篇,实现 mydocker run -e, 支持在启动容器时指定环境变量,让容器内运行的程序可以使用外部传递的环境变量. 完整代码见:https://gith ...
wpf 空间坐标系下，画一个立方体轮廓
代码: public partial class MainWindow : Window { public MainWindow() { InitializeComponent(); Worignpt ...

python爬虫-xpath基础

python爬虫-xpath基础的更多相关文章

随机推荐

热门专题