xpath 解析及案例

xpath解析

编码流程：
- 1.实例化一个etree对象，且将页面源码加载到该对象中
- 2.使用xpath函数，且在函数中必须作用一个xpath表达式进行标签的定位
- 3.使用xpath进行属性和文本的提取
xpath表达式：
- / and //
- 索引和属性定位：//a[1] //a[@tagName]
- /text() //text()
- //a/@attrName
- xpath函数返回的一定是一个列表

- 环境安装：

    - pip install lxml

- 解析原理：

    - 实例化一个etree的对象，且将页面源码数据加载到该对象中

    - 调用etree对象中的xpath方法实现标签定位和数据的提取

    - 在xpath函数中必须作用xpath表达式

将 response.text 放到 etree.HTML( 中 ) 返回 tree 进行.xpath操作
取文本信息
- /text() 单层 //text() 多层
取属性
- /@alt
- /@src
可使用:
tree.xpath('//div[@class="hot"]/div[@class="bottom"]/ul/li/a/text() | //div[@class="all"]/div[@class="bottom"]/ul/div[2]/li/a/text()')
解析某二手房信息

import requests

from lxml import etree

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

url = 'https://bj.*****.com/shahe/ershoufang/pn1/'

page_text = requests.get(url=url,headers=headers).text

#数据解析（名称，单价/总价，详情）

tree = etree.HTML(page_text)

#li_list列表元素都是li标签对象

li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')

fp = open('./二手房.txt','w',encoding='utf-8')

for li in li_list:

    title = li.xpath('./div[2]/h2/a/text()')[0]

    detail = li.xpath('./div[2]/p//text()')

    detail = ''.join(detail)

    detail = detail.strip()

    price = li.xpath('./div[3]/p//text()')

    price = ''.join(price)

    price = price.strip()

    fp.write(title+':'+price+':'+detail+'\n')

fp.close()

print('over!!!')

xpath 解析及案例的更多相关文章

xpath解析案例
xpath解析百度页面的百度一下 # 1)获取网页的源码 # 2)解析的服务器响应的文件 etree.HTML , 用来解析字符串格式的HTML文档对象,将传进去的字符串转变成 element 对象 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
JAVA通过XPath解析XML性能比较（原创）
(转载请标明原文地址) 最近在做一个小项目,使用到XML文件解析技术,通过对该技术的了解和使用,总结了以下内容. 1 XML文件解析的4种方法通常解析XML文件有四种经典的方法.基本的解析方式有两种 ...
利用XPath解析带有xmlns的XML文件
在.net中,编写读取xml 的程序中提示"未将对象引用设置到对象的实例",当时一看觉得有点奇怪.为什么在读取xml数据的时候也要实例化一个对象.google了才知道,xml文件中 ...
爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
python开发遇到的坑(1)xpath解析ValueError: Unicode strings with encoding declaration are not supported
Traceback (most recent call last): File "/Users/*******.py", line 37, in <module> Bt ...
xpath解析数据
xpath解析数据 """ xpath 也是一种用于解析xml文档数据的方式 xml path w3c xpath搜索用法在 XPath 中,有七种类型的节点:元素.属 ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
@1-4使用Xpath解析豆瓣短评
使用Xpath解析豆瓣短评 Python爬虫(入门+进阶) DC学院本节课程主要介绍解析神器Xpath是什么.Xpath如何安装及使用,以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页 ...

随机推荐

mysql创建和调用out参数的存储过程
CREATE PROCEDURE sp_add(a int, b int,out c int) begin set c=a+ b; end; 调用过程: call sp_add (,,@a); sel ...
.NET 单元测试的利剑——模拟框架Moq（简述篇）
.NET 单元测试的利剑--模拟框架Moq 前言这篇文章是翻译文,因为通过自己参与的项目,越发觉得单元测试的重要性,特别是当跟业务数据打交道的时候的,Moq就如雪中送炭,所以想学习这个框架,就从这篇 ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
Elasticsearch系列（1）：认识Elasticsearch
官方定义 Elasticsearch 是一个实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据. 它被用作全文检索.结构化搜索.分析以及这三个功能的组合. Elasti ...
面试必会之HashMap源码分析
相关文章面试必会之ArrayList源码分析面试必会之LinkedList源码分析简介 HashMap最早出现在JDK1.2中,底层基于散列算法实现.HashMap 允许 null 键和 nul ...
谈谈你对 Java 平台的理解
声明本篇所涉及的提问,正文的知识点,全都来自于杨晓峰的<Java核心技术36讲>,当然,我并不会全文照搬过来,毕竟这是付费的课程,应该会涉及到侵权之类的问题. 所以,本篇正文中的知识点, ...
VS2013 添加控制台程序
一.打开vs2013
javascript对象与方法
对象与方法一.数组(Array) 1.使用new关键字创建数组 var box = new Array(); //创建了一个数 ...
CSS3布局之box-flex的使用
语法: box-flex:<number> 其中number取值:使用浮点数指定对象所分配其父元素剩余空间的比例.设置或检索伸缩盒对象的子元素如何分配其剩余空间.(伸缩盒最老版本) htm ...
SPOJ7258 SUBLEX - Lexicographical Substring Search(后缀自动机)
Little Daniel loves to play with strings! He always finds different ways to have fun with strings! K ...

xpath 解析 及案例

xpath解析

xpath 解析 及案例的更多相关文章

随机推荐

热门专题

xpath 解析及案例

xpath 解析及案例的更多相关文章