Xpath解析

import requests

from lxml import etree

url = 'https://www.huawei.com/cn/?ic_medium=direct&ic_source=surlent'

response = requests.get(url = url)

ht = response.text

tree = etree.HTML(ht)

#也可以解析本地文件

#tree = etree.parse(文件名)

‘//’表示若干层（包括一层）嵌套下， ‘/’表示一层嵌套。
索引从1开始。
以标签结束，则返回元素为内存地址的一个列表。
取文本:/text() 取属性：/@attr 例如：/@href
多重限定条件 a [@href="xxx" and @class = "xxx"]
模糊匹配 div[contains(@class,'xx')] 匹配类名中含有‘xx'的div标签
div[starts-with(@class,'xx')] 匹配类名以‘xx'开始的div标签
"|"表示或 //img[@class= 'icon-image']/@alt | //img[@class= 'icon-image']/@src
"*“ 表示所有,例如：// *[@class = 'xxx'] 匹配所有类名为‘xxx'标签

print(tree.xpath('//div[@class="col-sm-4 external-link"]//p')) 

#[<Element p at 0x38dc350>, <Element p at 0x38dc800>, <Element p at 0x38dc828>, <Element p at 0x38dc850>, <Element p at 0x38c6e18>, <Element p at 0x38c6dc8>] 

#取文本

print(tree.xpath('//div[@class="col-sm-4 external-link"]//p/text()'))

#['手机', '笔记本', '平板', '穿戴 ', '配件', '智能家居']

print(tree.xpath('//div[@class="col-sm-4 external-link"][1]//p/text()'))

#['手机']

#取属性

print(tree.xpath('//div[@class="col-sm-4 external-link"]/a/@href'))

#多重限定条件

print(tree.xpath('//a[@href="javascript:;" and @class = "navbar-toggle "] /text()'))

#

['\r\n                                            手机、笔记本&平板...\r\n                                            ', '\r\n                                            解决方案&服务\r\n                                            ']

#模糊匹配

print(tree.xpath('//div[starts-with(@id,"hw1_g")] //span//text()'))

#['前往 ', 'consumer.huawei.com', ' 查看全部产品', '访问 ', '技术支持中心', '前往 ', 'e.huawei.com', ' 查看全部企业业务', '前往', '技术支持中心', '前往 ', 'carrier.huawei.com', ' 查看全部运营商业务', '前往', '技术支持中心', '查看全部华为云服务', 'www.huaweicloud.com', '前往 ', '帮助中心']

# |

url = 'https://www.coolapk.com/'

response = requests.get(url = url)

ht = response.text

tree = etree.HTML(ht)

print(tree.xpath("//img[@class= 'icon-image']/@alt |  //img[@class= 'icon-image']/@src"))

['/static/images/app_icon.png', '应用游戏', '/static/images/huati_icon.png', '话题', '/static/images/kutu_icon.png', '酷图', '/static/images/wode_icon.png', '我的', '/static/images/zhibo_icon.png', '应用吧', '/static/images/shoujiba_icon.png', '手机吧', '/static/images/kankanhao_icon.png', '看看号', '/static/images/shoucangjia_icon.png', '收藏单', '/static/images/yingyongji_icon.png', '应用集', '/static/images/shiyanshi_icon.png', '实验室', '/static/images/zidingyi_icon.png', '自定义设置', '/static/images/houtaichunjing_icon.png', '后台纯净', '/static/images/kaifazhe_icon.png', '开发者平台', '/static/images/shipinbofang_icon.png', '微发现', '/static/images/android_white.png', '安卓下载', '/static/images/iphone_white.png', 'iPhone下载', '/static/images/android_white.png', 'Android下载', '/static/images/iphone_white.png', 'iPhone下载']

Xpath解析的更多相关文章

JAVA通过XPath解析XML性能比较（原创）
(转载请标明原文地址) 最近在做一个小项目,使用到XML文件解析技术,通过对该技术的了解和使用,总结了以下内容. 1 XML文件解析的4种方法通常解析XML文件有四种经典的方法.基本的解析方式有两种 ...
利用XPath解析带有xmlns的XML文件
在.net中,编写读取xml 的程序中提示"未将对象引用设置到对象的实例",当时一看觉得有点奇怪.为什么在读取xml数据的时候也要实例化一个对象.google了才知道,xml文件中 ...
爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
python开发遇到的坑(1)xpath解析ValueError: Unicode strings with encoding declaration are not supported
Traceback (most recent call last): File "/Users/*******.py", line 37, in <module> Bt ...
xpath解析数据
xpath解析数据 """ xpath 也是一种用于解析xml文档数据的方式 xml path w3c xpath搜索用法在 XPath 中,有七种类型的节点:元素.属 ...
xpath 解析及案例
xpath解析编码流程: 1.实例化一个etree对象,且将页面源码加载到该对象中 2.使用xpath函数,且在函数中必须作用一个xpath表达式进行标签的定位 3.使用xpath进行属性和文本的提 ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
@1-4使用Xpath解析豆瓣短评
使用Xpath解析豆瓣短评 Python爬虫(入门+进阶) DC学院本节课程主要介绍解析神器Xpath是什么.Xpath如何安装及使用,以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页 ...
JAVA通过XPath解析XML性能比较
转自[http://www.cnblogs.com/mouse-coder/p/3451243.html] 最近在做一个小项目,使用到XML文件解析技术,通过对该技术的了解和使用,总结了以下内容. 1 ...
BeautifulSoup与Xpath解析库总结
一.BeautifulSoup解析库 1.快速开始 html_doc = """ <html><head><title>The Dor ...

随机推荐

mysqlslap压力测试时出现"Can't connect to MySQL server"
mysqlslap -utest -h 192.168.1.12 -p'test' --concurrency=100 --iterations=500 --create-schema='my_db' ...
树莓派安装配置Nginx+PHP7+MariaDB
原文地址:http://blog.sina.com.cn/s/blog_150f554f50102yhra.html 一.安装 Nginx 和 PHP7 1.安装Nginx sudo apt inst ...
[Linux] pwm设备驱动调试
转载请注明出处:https://www.cnblogs.com/lialong1st/p/11436190.html CPU:RK3288 系统:Linux 客户需求是通过 pwm 控制激光的强弱,写 ...
JavaScript中获取html元素常用手法和区分
对于许多前端开发项目来说,获取元素进行操作是必不可少的,例如tab标签,全屏切换,自动滚播等效果都需要通过获取节点元素来实现.下面我来总结下JavaScript最常用的4个Document对象中获取元 ...
Mininet系列实验（六）：Mininet动态改变转发规则实验
一. 实验目的熟悉Mininet自定义拓扑脚本的编写:熟悉编写POX脚本动态改变转发规则二.实验原理在SDN环境中,控制器可以通过对交换机下发流表操作来控制交换机的转发行为.在本实验中,基于Mi ...
4.弹性网络（ Elastic Net）
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/qq_21904665/article/details/52315642 ElasticNet 是一种 ...
Restful API 架构与设计参考原则
1. 什么是RESTREST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移. 它首次出现在2000年Roy Fielding的博 ...
matlab fspecial 用法解释
Matlab 的fspecial函数用法 fspecial函数用于建立预定义的滤波算子,其语法格式为:h = fspecial(type)h = fspecial(type,para)其中type指定 ...
linux nand flash常用命令
使用命令前用cat /proc/mtd 查看一下mtdchar字符设备:或者用ls -l /dev/mtd*#cat /proc/mtddev: size erasesize namemt ...
Docs-.NET-C#-指南-语言参考-预处理器指令：C# 预处理器指令
ylbtech-Docs-.NET-C#-指南-语言参考-预处理器指令:C# 预处理器指令 1.返回顶部 1. C# 预处理器指令 2015/07/20 本节介绍了以下 C# 预处理器指令: #if ...

Xpath解析

Xpath解析的更多相关文章

随机推荐

热门专题