python爬虫解析库学习

一、xpath库使用：

　　1、基本规则：

　　　2、将文件转为HTML对象：

 html = etree.parse('./test.html', etree.HTMLParser())

 result = etree.tostring(html)

 print(result.decode('utf-8'))

　　　　3、属性多值匹配：

　　　　//a[contains(@class,'li')]

　　　4、多属性匹配：

　　　　　　//a[@class="a" and @font="red"]

　　　5、按序选择：

二、beautifulsoup库学习：

　　1、基本初始化：

　　　　将HTML字符串用lxml格式来解析，并补全标签，创建html处理对象。

　　2、获取信息：

　　　　（1）获取title的name属性：

　　　　　　soup.title.name

　　　　（2）获取多属性：

　　　　（3）children返回孩子节点：

　　　　（4）find_all函数：查找所有的节点。

　　　　　　·通过节点名称来查找：

　　　　　　　　soup.find_all(name='li')

　　　　　　·通过属性名来查找：

　　　　　　　　soup.find_all(attrs={'id':'link1'})

　　　　　　　　··通过文本来查找：

　　　　　　　　soup.find_all(text='') 用来匹配网页节点中的文本内容。

　　3、css选择器：

　　　　.select() 方法。参数内容和jquery相似。

　　　　返回内容为列表，类型是tag类型。

三、pyquery库：

　　1、初始化：

　　　　·通过HTML字符串

　　　　·通过url

　　　　·通过文件名。需要指出文件名。

　　2、常用函数：

　　　　（1）find() 方法

　　　　（2）children（）查找子结点

　　　　（3）查找父节点： parent()

　　　　（4）查找祖先节点：

　　　　　　parents()

　　　　（5）兄弟节点：

　　　　　　　　siblings() 方法

　　　　（6）对查找结果进行遍历：

　　　　　　　　.items()返回每一个节点。

　　　　（7）获取节点信息：

　　　　　　　　·获取属性：

　　　　　　　　　　.attrs（‘属性名’）

python爬虫解析库学习的更多相关文章

Python 爬虫解析库的使用 --- XPath
一.使用XPath XPath ,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言.它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索. 所 ...
Python 爬虫解析库的使用 --- Beautiful Soup
知道了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了.而且对于一个网页来说,都有一定的特殊结构和层级关系,而且有很多节点都有id或class来做区分,所以借助它们 ...
python爬虫解析库之Beautifulsoup模块
一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会 ...
python爬虫解析库之re模块
re模块一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中, ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...

随机推荐

Day 5-5 绑定方法与非绑定方法
绑定方法与非绑定方法: 在类内部定义的绑定方法,分两大类: classmehtod是给类用的,即绑定到类,类在使用时会将类本身当做参数传给类方法的第一个参数(即便是对象来调用也会将类当作第一个参数传入 ...
Android——MaterialDesign之四 FloatingActionButton、Snackbar、CoordinaterLayout
FloatingActionButton 悬浮按钮,默认colorAccent来作为按钮的颜色 <android.support.design.widget.FloatingActionButt ...
QTP自动化测试-点滴-步骤
1 添加 test 2 设置整个测试项目的 setting -数据表位置 3 添加引用方法文件 4 添加 action 5 添加 action 对应的 repository 控件库 6 录制.整 ...
vue循環語句
迭代數組: v-for="site in sites”,sites表示源數組名,site表示數組元素: 迭代對象: v-for=“value in Object”, v-for=" ...
Vue簡介
vue使用由下向上的增量開發模型: vue是javascript的漸進框架: vue的目標是盡量使用簡單的API實現響應的數據綁定和組合的視圖組件.
LODOP 获取打印设计代码不带INIT初始化语句
前面的博文生成JS代码模版和文档式模版,生成的是带初始化语句的模版,如果想要打印多个,可以循环多个任务,什么是一个任务,可查看本博客相关博文:Lodop打印语句最基本结构介绍(什么是一个任务)一个任务 ...
spring @Validated 注解开发中使用group分组校验
之前知道spring支持JSR校验,在自己定义的bean中加入@NotNull,@NotBlank,@Length等之类的校验用于处理前台传递过来的request请求,避免在写多余的代码去处理. 但是 ...
c++ 动态生成string类型的数组
定义一个字符串指针,将其初始化为空 char *a=NULL 然后输入输出 cin>>a cout<<a 编译无误,但执行会遇见错误当为*a动态分配存储空间时,程序执行正常 ...
Maven使用（一）—— Maven的安装与全局配置
一.Maven安装 Maven的安装步骤: 1.Maven官网(http://maven.apache.org/)下载压缩包,解压缩,当前最新版本是apache-maven-3.5.3-bin.zip ...
Node.js 安装与管理
一.node安装 Windows下,官网下载 Node.js 安装包,运行安装即可, 安装成功后,可查看版本号 node -v 二.npm npm 是 node 包管理工具,随同node一起安装,安装 ...

python爬虫解析库学习

python爬虫解析库学习的更多相关文章

随机推荐

热门专题