Xpath素材

from lxml import etree

text = """

<div>

    <ul>

        <li class="item-0"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

    </ul>

</div>

"""

html = etree.HTML(text)

result = etree.tostring(html,pretty_print=True).decode('utf-8')

print(result)

from lxml import etree

text = """

<div>

    <ul>

        <li class="item-0"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span>></a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a></li>

    </ul>

</div>

"""

# 初始化一个Xpath解析对象

html = etree.HTML(text)

# 解析对象输出代码 是一个bytes类型

result = etree.tostring(html,encoding='utf-8')

print(type(html))  # <class 'lxml.etree._Element'>

print(type(result))  # <class 'bytes'>

print(result.decode('utf-8'))

Xpath素材的更多相关文章

index.html（xpath素材）
<bookstore> <title>新华书店</title> <book href="http://www.langlang2017.com/&q ...
数据解析之xpath
一.环境安装下载lxml pip install lxml 二.使用 XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取 ...
爬虫 xpath 获取方式
回顾 bs4 实例化bs对象,将页面源码数据加载到该对象中定位标签:find('name',class_='xxx') findall() select() 将标签中的文本内容获取 string t ...
xpath库学习
xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式. 环境安装 pip install lxml 解析原理使用通用爬虫爬取网页数据实例化etree对象,且将页面数据加载到该对象中使用 ...
xpath提取多个标签下的text
title: xpath提取多个标签下的text author: 青南 date: 2015-01-17 16:01:07 categories: [Python] tags: [xpath,Pyth ...
C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel, ...
C#开发微信门户及应用(26)-公众号微信素材管理
微信公众号最新修改了素材的管理模式,提供了两类素材的管理:临时素材和永久素材的管理,原先的素材管理就是临时素材管理,永久素材可以永久保留在微信服务器上,微信素材可以在上传后,进行图片文件或者图文消息的 ...
在Java中使用xpath对xml解析
xpath是一门在xml文档中查找信息的语言.xpath用于在XML文档中通过元素和属性进行导航.它的返回值可能是节点,节点集合,文本,以及节点和文本的混合等.在学习本文档之前应该对XML的节点,元素 ...
XPath 学习二：语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 下面列出了最有用的路径表达式: 表达式描述 nodename 选 ...

随机推荐

Spring Boot JPA - Querydsl
https://lufficc.com/blog/spring-boot-jpa-querydsl
IDEA 2018.1可用License服务（持续更新）
1. http://idea.congm.in 2.http://idea.toocruel.net
app自动化的执行
appium --address 127.0.0.1 --port 10000 --bootstrap-port 10100 --webdriveragent-port 10110 在指定的目录下执行 ...
python-魔法属性和反射
python魔法属性和反射 #!/usr/bin/python3 # coding:utf-8 # Auther:AlphaPanda # Description:与类相关的魔法属性 # Versio ...
Redis实战（十四）Redis实现Session共享
序言登录的处理流程: 1.登录页面提交用户名密码. 2.登录成功后生成token.Token相当于原来的jsessionid,字符串,可以使用uuid. 3.把用户信息保存到redis.Key就是t ...
mysql 创建用户和授权
https://www.cnblogs.com/sos-blue/p/6852945.html
Luogu P4550 收集邮票
题目链接:Click here Solution: 本题直接推价格似乎很难,考虑先从购买次数入手设购买次数\(g(i)\)为当前有\(i\)种不同的邮票,要买到\(n\)种的期望购买次数可以由期望 ...
sh_01_重复执行
sh_01_重复执行 # 打印 500 遍 Hello Python(复制粘贴的方法,手动复制500次) print("Hello Python") print("Hel ...
（56）Linux驱动开发之二
内核基础 1.li ...
Spark 2.1.1 源码编译
Spark 2.1.1 源码编译标签(空格分隔): Spark Spark 源码编译环境准备与起因由于线上Spark On Yarn Spark Streaming程序在消费kafka 写入HD ...

Xpath素材

Xpath素材的更多相关文章

随机推荐

热门专题