爬虫-数据解析-xpath

xpath 解析

模块安装 :
pip install lxml
xpath的解析原理
- 实例化一个etree类型的对象,且将页面源码数据加载到该对象中
- 需要调用该对象的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取
etree对象的实例化
- etree.parse(fileNane) 加载本地
- etree.HTML(page_text) 加载网络请求的响应
xpath方法返回的永远是一个列表

标签定位

在xpath表达式中最最侧的 / 表示的含义是说,当前定位的标签必须从根节点开始进行定位
xpath表达式中最左侧的 // 表示可以从任意位置进行标签定位
xpath表达式中非最左侧的 // 表示的是多个层级的意思
xpath表达式中非最左侧的 / 表示的是一个层级的意思
属性定位://tagName[@arrtName='value']
索引定位://tagName/li[3]

定位条件可以多个,使用| 分开

from lxml import etree

tree = etree.parse('./test.html')

tree.xpath('/html/head/meta')[0] #绝对路径

tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位

#属性定位

tree.xpath('//div[@class="song"]')

#索引定位

tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本

tree.xpath('//p[1]/text()')

#取属性

tree.xpath('//a[@id="feng"]/@href')

tree = etree.parse('./test.html')

tree.xpath('/html/head/meta')[0] #绝对路径

tree.xpath('//meta')[0] #相对路径,将整个页面源码中所有的meta进行定位

#属性定位

tree.xpath('//div[@class="song"]')

#索引定位

tree.xpath('//div[@class="tang"]/ul/li[3]') #该索引是从1开始

#取文本

tree.xpath('//p[1]/text()')

tree.xpath('//div[@class="song"]//text()')

#取属性

tree.xpath('//a[@id="feng"]/@href')

# 多个条件

div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()')[0]

提取数据

取文本:
- /text():取直系的文本内容
- //text():取所有的文本内容
取属性直:
- tag/@attrName

# 需求:爬取boss的招聘信息

from lxml import etree

headers = {  # 反扒策略

    'User-Agent':',

    'cookie':''

}

url = 'https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB&city=101010100&industry=&position='

page_text = requests.get(url,headers=headers).text

#数据解析

tree = etree.HTML(page_text)

li_list = tree.xpath('//div[@class="job-list"]/ul/li')

for li in li_list:

#     需要将li表示的局部页面源码数据中的相关数据进行提取

#     如果xpath表达式被作用在了循环中,表达式要以./或者.//开头

    detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="info-primary"]/h3/a/@href')[0]

    job_title = li.xpath('.//div[@class="info-primary"]/h3/a/div/tex	t()')[0]

    salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()')[0]

    company = li.xpath('.//div[@class="info-company"]/div/h3/a/text()')[0]

    #对详情页的url发请求解析出岗位职责

    detail_page_text = requests.get(detail_url,headers=headers).text

    tree = etree.HTML(detail_page_text)

    job_desc = tree.xpath('//div[@class="text"]//text()')

    job_desc = ''.join(job_desc)

    print(job_title,salary,company,job_desc)

乱码处理

对获取到的内容先编码再转码:

img_name = img_name.encode('iso-8859-1').decode('gbk')

爬虫-数据解析-xpath的更多相关文章

python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
爬虫-数据解析-bs4
1.数据解析解析: 根据指定的规则对数据进行提取作用: 实现聚焦爬虫数据解析方式: - 正则表达式 - bs4 - xpath 数据解析的通用原理: 数据解析需要作用在页面源码中(一组html标 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
03 数据解析-Xpath
Xpath解析 XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
Python网络爬虫数据解析的三种方式
request实现数据爬取的流程: 指定url 基于request发起请求获取响应的数据数据解析持久化存储 1.正则解析: 常用的正则回顾:https://www.cnblogs.com/wqz ...
02 爬虫数据解析之re,xpath,beautifulsoup
一.正则匹配简单用法演示: 字符: print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符, ...
python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...

随机推荐

【windows 操作系统】文件保护：文件访问类型和访问控制
文件保护:文件访问类型和访问控制为了防止文件共享可能会导致文件被破坏或未经核准的用户修改文件,文件系统必须控制用户对文件的存取,即解决对文件的读.写.执行的许可问题. 为此,必须在文件系统中建立相应 ...
通过xmanager连接linux远程主机桌面
转至:https://blog.csdn.net/kadwf123/article/details/79564293 1.效果图: 远程linux桌面版主机,此处是虚拟机: 使用xmanager xb ...
linux中()、[]、{}、(())、[[]]等各种括号的使用
转至:https://www.jianshu.com/p/b88c7e07aaa9 linux中().[].{}.(()).[[]]等各种括号的使用 1.小括号.圆括号() 1.1 单小括号() 命令 ...
Docker-可视化管理工具总结-推荐使用Portainer
对于初学docker的小白,一款好的可视化工具有助于快速掌握docker基本形态和概念,下面针对docker可视化工具做些总结 ui-for-docker UI For Docker是一个使用Dock ...
JAVA_Scanner 键盘输入
键盘输入语句介绍:在编程中,需要接收用户输入的数据,就可以使用键盘输入语句来获取.Input.java , 需要一个扫描器(对象), 就是 Scanner 步骤: 导入该类的所在包, java.u ...
JAVA——类与对象
目录类与对象一.类二.对象 2.1对象的内存布局形式三.类与对象 3.1如何创建 3.2如何访问属性 3.2类与对象的分配机制 3.2.1Java内存的结构分析注意事项和细节类与对象为什 ...
Python 学习路线（2022）
原文链接: Python 学习路线(2022) 前几天整理了一份 Go 学习路线(2022),广受好评.那么趁火打劫,不是,是趁热打铁,又整理了一份 Python 学习路线. 内容依然是从入门到进阶, ...
Python语法3
目录模块 Python程序架构第三方工具包: 创建packet包模块导入方式异常处理六种典型异常异常处理自定义异常模块 Python程序架构 Python源代码文件:*.py 一个py ...
MATLAB菜鸟入门笔记【编程习惯】
1.编程标记模板 % Script file:temp_conversion.m % % Purepose: % To convert an input temperature from d ...
Spark 在 Window 环境下的搭建
1.java/scala的安装 - 安装JDK下载: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-21 ...

爬虫-数据解析-xpath

xpath 解析

标签定位

提取数据

爬虫-数据解析-xpath的更多相关文章

随机推荐

热门专题