python之lxml(xpath)

bs4确实没这个好用，bs4的树太复杂

lxml很好

定位非常好

详细解说在注释里面有了

 #!/usr/bin/python3.4

 # -*- coding: utf-8 -*-

 from lxml import etree

 import urllib.request

 # 目标网址的html可以看一下

 url = "http://www.1kkk.com/manhua589/"

 # 解析网址

 data = urllib.request.urlopen(url).read()

 # 解码

 html = data.decode('UTF-8','ignore')

 page = etree.HTML(html.lower())

 # 查找的目标样式如下

 """

 ...

 <ul class="sy_nr1 cplist_ullg">

     <li>

       <a href="/vol1-6871/" class="tg">第1卷</a>（96页）</li>

     <li>

       <a href="/vol2-6872/" class="tg">第2卷</a>（90页）</li>

     <li>

       <a href="/vol3-6873/" class="tg">第3卷</a>（95页）</li>

     <li>

       <a href="/vol4-6874/" class="tg">第4卷</a>（94页）</li>

     <li>

       <a href="/vol5-6875/" class="tg">第5卷</a>（95页）</li>

     ...

 """

 # 找到ul下li下的a中的href

 hrefs = page.xpath('//ul[@class="sy_nr1 cplist_ullg"][2]/li/a/@href')

 # 找到<a>...</a>之间的文字

 hrefnames = page.xpath('//ul[@class="sy_nr1 cplist_ullg"][2]/li/a/text()')

 # 找到页数

 hrefpages = page.xpath('//ul[@class="sy_nr1 cplist_ullg"][2]/li/text()')

 for href in hrefs:

     # 打印出来

     print(href)

打印结果：

 /vol1-6871/

 /vol2-6872/

 /vol3-6873/

 /vol4-6874/

 /vol5-6875/

 /vol6-6876/

 /vol7-6877/

 /vol8-6878/

 /vol9-6879/

 /vol10-6880/

 /vol11-23456/

 /vol12-23457/

 /vol13-23695/

 /vol14-28326/

 /vol15-31740/

 /ch145-149-33558/

 /ch150-33559/

 /ch151-197255/

 /ch152-33560/

 /ch153-33561/

 /ch154-33562/

 /ch155-33563/

 /ch156-33564/

 /ch157-33565/

 ...

python之lxml(xpath)的更多相关文章

python中使用XPath
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
python中使用XPath笔记
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
Windows下Python安装lxml
1.下载easy_install的安装包,下载地址:https://pypi.Python.org/pypi/setuptools 我是Windows7,所以直接下载Windows(Simplify) ...
requests+lxml+xpath爬取豆瓣电影
(1)lxml解析html from lxml import etree #创建一个html对象 html=stree.HTML(text) result=etree.tostring(html,en ...
python爬微信公众号前10篇历史文章（3）-lxml&xpath初探
理解lxml以及xpath 什么是lxml? python中用来处理XML和HTML的library.与其他相比,它能提供很好的性能, 并且它支持XPath. 具体可以查看官方文档->http: ...
Python 通过lxml遍历html xpath
#coding:utf-8 ''' Created on 2017年10月9日 @author: li.liu ''' from selenium import webdriver from lxml ...

随机推荐

初次学习Linux需要注意的
Linux系统可以说是最安全的了,世界500强里90%的公司使用的都是Linux系统,可见Linux的市场有多广阔.但是就像很多朋友说的那样,想学习Linux开发,不知如何开始学习,该怎么办?学习Li ...
JQuery blockUI
1 $.blockUI({//界面锁定之后 ,显示样式和提示消息 css: { width: 'auto', left: '20px', right: '20px' }, message: '< ...
HDU 4135
http://acm.hdu.edu.cn/showproblem.php?pid=4135 求[A,B]内与N互素的数字个数首先对N分解质因数,对于一个质因数,1-n与它不互素的数字个数是n/(这 ...
JavaScript string.format
//string.format String.prototype.format=function(){ var e = this, f = arguments.length; if (f > 0 ...
Oracle PL/SQL高级应用存储过程
有名字的Plsql块,成为Oracle的对象,在以后用到时可以直接调用. CREATE OR REPLACE PROCEDURE myproc(id IN varchar2) IS -IN 为输入参数 ...
STL容器用法速查表：list,vector,stack,queue,deque,priority_queue,set,map
list vector deque stack queue priority_queue set [unordered_set] map [unordered_map] multimap [uno ...
机器学习技法-GBDT算法
课程地址:https://class.coursera.org/ntumltwo-002/lecture 之前看过别人的竞赛视频,知道GBDT这个算法应用十分广泛.林在第八讲,简单的介绍了AdaBoo ...
vmware上的Linux获取uuid
在挂载asm硬盘时需要硬盘的UUID 虚拟机配置中需要增加对UUID的支持. 在配置文件vmx文件中增加如下内容 disk.locking="FALSE" disk.EnableU ...
UVa 1346 - Songs
题目大意:n张唱片,每张都有长度和频率,要求题目中公式值最小.求一个排序,输出该排序下第m张CD的id. 思路:贪心,长度越长放越后面,频率越低放越后面,所以按len/p去排序即可. #include ...
iOS学习笔记---oc语言第六天
Block .数组高级 block本质上就是匿名函数(没有名称的函数) block语法和函数指针很相似回顾函数函数:C语⾔中,实现某一类功能的代码段. 完整的函数包含两部分:函数声明.函数定义函 ...

python之lxml(xpath)

python之lxml(xpath)的更多相关文章

随机推荐

热门专题