python爬虫解析库学习

一、xpath库使用：

　　1、基本规则：

　　　2、将文件转为HTML对象：

 html = etree.parse('./test.html', etree.HTMLParser())

 result = etree.tostring(html)

 print(result.decode('utf-8'))

　　　　3、属性多值匹配：

　　　　//a[contains(@class,'li')]

　　　4、多属性匹配：

　　　　　　//a[@class="a" and @font="red"]

　　　5、按序选择：

二、beautifulsoup库学习：

　　1、基本初始化：

　　　　将HTML字符串用lxml格式来解析，并补全标签，创建html处理对象。

　　2、获取信息：

　　　　（1）获取title的name属性：

　　　　　　soup.title.name

　　　　（2）获取多属性：

　　　　（3）children返回孩子节点：

　　　　（4）find_all函数：查找所有的节点。

　　　　　　·通过节点名称来查找：

　　　　　　　　soup.find_all(name='li')

　　　　　　·通过属性名来查找：

　　　　　　　　soup.find_all(attrs={'id':'link1'})

　　　　　　　　··通过文本来查找：

　　　　　　　　soup.find_all(text='') 用来匹配网页节点中的文本内容。

　　3、css选择器：

　　　　.select() 方法。参数内容和jquery相似。

　　　　返回内容为列表，类型是tag类型。

三、pyquery库：

　　1、初始化：

　　　　·通过HTML字符串

　　　　·通过url

　　　　·通过文件名。需要指出文件名。

　　2、常用函数：

　　　　（1）find() 方法

　　　　（2）children（）查找子结点

　　　　（3）查找父节点： parent()

　　　　（4）查找祖先节点：

　　　　　　parents()

　　　　（5）兄弟节点：

　　　　　　　　siblings() 方法

　　　　（6）对查找结果进行遍历：

　　　　　　　　.items()返回每一个节点。

　　　　（7）获取节点信息：

　　　　　　　　·获取属性：

　　　　　　　　　　.attrs（‘属性名’）

python爬虫解析库学习的更多相关文章

Python 爬虫解析库的使用 --- XPath
一.使用XPath XPath ,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言.它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索. 所 ...
Python 爬虫解析库的使用 --- Beautiful Soup
知道了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了.而且对于一个网页来说,都有一定的特殊结构和层级关系,而且有很多节点都有id或class来做区分,所以借助它们 ...
python爬虫解析库之Beautifulsoup模块
一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会 ...
python爬虫解析库之re模块
re模块一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中, ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...

随机推荐

rem移动端适配方案
一. rem vs em 单位定义特点 rem font size of the root element 以根元素字体大小为基准 em font size of the element 以父元素 ...
Go To Oracle
1.下载mingw (gcc 编译)---win32 2.下载OCI最新版,存放于C:\instantclient_12_1 ---win32 3.下载OCI SDK最新版,存放于C:\ins ...
js 判断一个字符在字符串中出现的次数
<script type="text/javascript"> var s='djh.doiwe.esd.d.ddd0sdd.d.'; var n=(s.split(' ...
jenkins了解一下，讲一下jenkins这个鬼东西
一.jenkins是干什么的? jenkins是一个免费的集成工具,它是基于java开发的.用来做自动化部署,傻瓜化操作. 一般的项目部署流程: 开发代码——>功能测试——>打包(使用ma ...
Java 线程的创建和启动
Java 使用 Thread 类代表线程,所有的线程对象都必须是 Thread 类或其子类的实例.每个线程的作用是完成一定的任务,实际上就是执行一段程序流(一段顺序执行的代码). Java 使用线程执 ...
PHP5.4.0新特性研究
PHP5.4.0新特性研究 1.内建Web Server 这的确是个好的改进,大大的方便了开发人员.以后开发机不装nginx,httpd也行 cd $PHP_INSTALL_PATH ./bin/ph ...
Hbase获取流程
1\\.客户端chou操作 2.服务器dauncaozuo操作 3\存储优化
AI算法第一天【概述与数学初步】
1. 机器学习的定义: 机器从数据中学习出规律和模式,以应用在新数据上作出预测的任务 2.学习现象: (1)语言文字的认知识别 (2)图像,场景,物体的认知和识别 (3)规则:下雨天要带雨伞 (4)复 ...
jquery和js的几种页面加载函数的方法以及执行顺序
参考博客:http://www.cnblogs.com/itslives-com/p/4646790.html https://www.cnblogs.com/james641/p/783837 ...
.NET提供了三种后台输出js的方式：
.NET提供了三种后台输出js的方式: 首先创建 js文件testjs.js { Page.ClientScript.RegisterClientScriptInclude("keys ...

python爬虫解析库学习

python爬虫解析库学习的更多相关文章

随机推荐

热门专题