lxml的使用

from urllib import request

from lxml import etree

# url = '''http://bangumi.tv/anime/browser?sort=rank'''

# response = request.urlopen(url)

# html = response.read()

html = '''

 id="item_1728" class="item even clearit">

    <a href="/subject/1728" class="subjectCover cover ll">

            <span class="image">

            <img src="//lain.bgm.tv/pic/cover/s/71/37/1728_HLsCr.jpg" class="cover">

        </span>

        <span class="overlay"></span>

        </a>

    <div class="inner">

                                <h3>

                    <a href="/subject/1728" class="l">浪客剑心 追忆篇</a> <small class="grey">るろうに剣心 -明治剣客浪漫譚- 追憶編</small>

                </h3>

        <span class="rank"><small>Rank </small>12</span>

        <p class="info tip">

                         4话 /  1999年2月20日                    </p>

                <p class="rateInfo">

                        <span class="sstars9 starsinfo"></span> <small class="fade">8.8</small> <span class="tip_j">(2165人评分)</span>

                    </p>

    </div>

</li>

'''

html = etree.HTML(html)

result = etree.tostring(html)

print(result)

li_all = html.xpath('//a')

print(li_all)#[<Element a at 0x2ebe198>, <Element a at 0x2ebe170>]

# li_all = html.xpath('//a/@href')['/subject/1728', '/subject/1728']

# print(li_all)

li_all = html.xpath('//a/@class')#['subjectCover cover ll', 'l']

print(li_all)

li_all = html.xpath('//a[@href="/subject/1728"]')#获取所有href等于这个的标签

print(li_all)

li_all = html.xpath('//div/a')#获取a标签下所有的子span标签

print(li_all)

li_all = html.xpath('//div//a')#获取a标签下所有的子孙span标签

print(li_all)

li_all = html.xpath('//div//a//@class')#获取a标签下所有的子孙span标签

print(li_all)

li_all = html.xpath('//div//p[last()]/span')#获取最后一个p元素的所有span标签

print(li_all)

li_all = html.xpath('//div//p[last()-1]')#获取倒数第二个个p元素的所有span标签

print(li_all[0].text)

li_all = html.xpath('string()')#过滤标签，返回所有文本

print(li_all)

li_all = html.xpath('//text()')#过滤标签，将每个文本存放于列表中

print(li_all)

li_all = html.xpath('//text()')

print(li_all[0].getparent().tag)#根据文本返回它的标签名

print(li_all[1].is_tail)

print(li_all[1].is_tail)#判断是普通文本还是tail文本

lxml的使用的更多相关文章

requests的content与text导致lxml的解析问题
title: requests的content与text导致lxml的解析问题 date: 2015-04-29 22:49:31 categories: 经验 tags: [Python,lxml, ...
python3安装lxml（windows）
爬虫时通常要安装LXML,对于通过一下命令行 1 pip install lxml 出现如下错误的解决方法 1 lxml Unable to find vcvarsall.bat 1. 安装wheel ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...
python笔记：windows 下安装 python lxml
原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...
python lxml install
之前记得安装libxslt和libxml yum install libxml* -yyum install libxslt* -y wget http://lxml.de/files/lxml-3. ...
windows下使用pip安装python的第三方lxml库
lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库.lxml库的安装和python其他第三方库的安装方法是一样的,只是可能由于一些细节上的失误导致安装失败. 工具 Pyt ...
Python: Win7下使用 pip install lxml 无法安装lxml?
1.在网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下,搜索lxml,下载Python对应的lxml版本.如下图: 2.打开cmd,进入到lxm ...
【python】安装python第三方库lxml时，遇到问题：[ERROR: 'xslt-config' 不是内部或外部命令，也不是可运行的程序]
一.概述 lxml介绍http://lxml.de/ 二.问题 ERROR: 'xslt-config' 不是内部或外部命令,也不是可运行的程序三.解决方法 Scrapy在Windows上的安装笔记 ...
Windows下安装Python lxml库（无废话版）
python官网:python-2.7.12.amd64.msihttps://pypi.python.org/pypi/setuptools:setuptools-28.6.0.zipsetupto ...

随机推荐

shell 脚本加密
日常编写shell脚本时会写一些账号和密码写入脚本内,但是不希望泄露账号密码,所以对shell脚本进行加密变成可执行文件. 主要使用 shc 对 Linux shell 脚本加密,shc是一个专业的加 ...
ORA-27157 ORA-27300 ORA-27301
目录: 问题现象原因分析解决方案问题现象: 收到同事反馈,数据库无法连接.于是登录服务器发现,数据库莫名挂掉.实例crash,日志中记录截取一段如下: Errors in file /u01/a ...
JAVA二分搜索树
二叉树: 和链表一样,动态数据结构. 二叉树具有唯一根节点二叉树具有天然的递归结构二分搜索树是二叉树二分搜索树的每个节点的值: 1.大于其左子树的所有节点的值 2.小于其右子树的所有节点的值每 ...
C# 属性（Property）和字段（Field）的区别
导读: 近期学习过程中发现了一些问题,我的学习只是学习,敲代码就是敲代码,没有加入思考,也不问为什么就直接去敲人家写好的例子去敲,把知识都学死了,逐渐散失了思考能力,所以学习的兴趣大打折扣,正如那句话 ...
html5和html的区别
最近看群里聊天聊得最火热的莫过于手机网站和html5这两个词.可能有人会问,这两者有什么关系呢?随着这移动互联网快速发展的时代,尤其是4G时代已经来临的时刻,加上微软对“XP系统”不提供更新补丁.维护 ...
Entity Framework介绍
1.Entity Framework介绍下图显示EF整体架构.现在我们来看看架构的各个组件: EDM(Entity Data Model): EDM由三个主要部分组成:概念模型,映射和存储模型.映射 ...
JS高级程序设计3
PS:有一小部分写在了 JS 2017了 JSON <!DOCTYPE html> <html lang="en"> <head> <me ...
python全栈开发day65-templates：tags、母版和继承、组件、静态文件相关、simple_tag和inclusion_tag
一.昨日内容回顾 1.MVC和MTV框架 MVC: model 模型存写数据 view 视图给用户展示页面 control 控制器负责调度传递指令 MTV: M:model 模型 OR ...
Coolpy网络部署说明(宽带互联网)
本文将介绍Coolpy第二种方案的网络部署方法.以方便大家学习如何让coolpy设备部署到相应的应用场景中.本例将以水星MW310R无线路由器作为演示路由器. 1.硬件连接部分: coolpy设备=& ...
JAVA连接MYSQL,查询 ,添加,删除,语句
package com; import Java.sql.*;/** *//** * @author Administrator */public class ggg { private ...

lxml的使用

lxml的使用的更多相关文章

随机推荐

热门专题