一、xml是什么

  1、定义:可扩展标记性语言
  2、特点:xml的是具有自描述结构的半结构化数据。
  3、作用:xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。

二、xml和html的区别

  1、语法要求不同:xml的语法要求更严格。

    (1)html不区分大小写的,xml区分。
    (2)html有时可以省却尾标签。xml不能省略任何标签,严格按照嵌套首位结构。
    (3)只有xml中有自闭标签(没有内容的标签,只有属性。)<a class='abc'/>
    (4)在html中属性名可以不带属性值。xml必须带属性值。  
    (5)在xml中属性必须用引号括起来,html中可以不加引号。

  2、作用不同

    html主要设计用来显示数据以及更好的显示数据。
    xml主要设计宗旨就是用传输数据

  3、标记不同:xml没有固定标记,html的标记都是固定的,不能自定义。

三、xpath

  1、什么是xpath?

    xpath是一种筛选html或者xml页面元素的【语法】

  2、xml和html的一些名词

    元素、标签、属性、内容

  3、xml的两种解析方法

    dom和sax

  4、xpath语法

    (1)选取节点

        nodename --- 选取此标签及其所有字标签。
        /----从根节点开始选取。
        // ----从任意节点开始,不考虑他们的位置。
        //book---不管book位置,在xml中取出所有的book标签。
        .----当前节点开始找
        ..----从父节点
        @ ---选取属性
        text()---选取内容

    (2)谓语:起限定的作用,限定他前面的内容。

        []写在谁的后面,就限定谁,一般用于限定元素或者标签。

        //book[@class='abc']

        常见的谓语:
          [@class] ----选取有class
          [@class='abc'] ---选取class属性为abc的节点。
          [contains(@href,'baidu')] ---选取href属性包含baidu的标签
          [1] ---选取第一个
          [last()]---选取最后一个
          [last()-1]---选取倒数第二
          [position()>2]---跳过前两个。
          book[price>30]

    (3)通配符

        * ---匹配任意节点
        @* ---匹配任意属性

    (4)选取若干路径

      | ---左边和右边的xpath选的内容都要---and

  5、lxml模块----python处理xml和html的模块。

    (1)解析字符创类型xml

 from lxml import etree
text='''
html页面内容
'''
tree = etree.HTML(text)---返回值就是一个element对象
#element对象有xpath方法,可以通过xpath表达式来筛选内容。
#选取class属性为item-1的li下面的a标签的内容
a_contents = tree.xpath('//li[@class="item-1"]/a/text()') 将element对象变成字符串的方法
# html_str = etree.tostring(tree,pretty_print=True).decode('utf-8')
# print(type(html_str))

      #elment对象xpath放来筛选,返回值都是一个list。
      #xpath表达式最后一个是一个元素(标签),list中都是elment元素
      #xpath表达式最后一个是属性,list都是属性字符串
      #xpath表达式最后一个是内容,list都是内容字符串

    (2)解析xml或者html文件      

from lxml import etree

#parse方法是按照xml的方式来解析,如果语法出问题,就会报错。
html = etree.parse('demo.html') # print(html)#_ElementTree
li_texts = html.xpath('//li/a/text()') print(li_texts)

【python爬虫】Xpath的更多相关文章

  1. python爬虫xpath的语法

    有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的 简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...

  2. python爬虫xpath

    又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...

  3. Python爬虫 XPath语法和lxml模块

    XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...

  4. python爬虫----XPath

    1.知道本节点元素,如何定位到兄弟元素 详情见博客 XML代码见下 bt1在文档中只出现一次,所以很容易获取到bt1中内容,那怎么根据<td class='bt1'>来获取bt2中的内容 ...

  5. Python爬虫 | xpath的安装

    错误信息:程序包无效.详细信息:“Cannot load extension with file or directory name . Filenames starting with "& ...

  6. python爬虫前提技术

    1.BeautifulSoup 解析html如何使用 转自:http://blog.csdn.net/u013372487/article/details/51734047 #!/usr/bin/py ...

  7. Python爬虫与数据分析之爬虫技能:urlib库、xpath选择器、正则表达式

    专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

  8. python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)

    一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...

  9. Python爬虫教程-22-lxml-etree和xpath配合使用

    Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器 官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...

  10. 小白学 Python 爬虫(19):Xpath 基操

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

  1. iSensor APP 之 摄像头调试 OV9655

    iSensor APP 之 摄像头调试  OV9655 iSensor app 非常适合调试各种摄像头,已测试通过的sensor有: l  OV7670.OV7725.OV9650.OV9655.OV ...

  2. 了解web漏洞-sql注入

    1:为什么要学web漏洞? 作为一个运维人员,日常工作就是保障服务器和网站的业务正常运行,平时也需要对服务器的安全工作加固,说到防护攻击问题,那么久必须去了解攻击者是怎么对服务器发动的一个流程,这样才 ...

  3. PythonI/O进阶学习笔记_8.python的可迭代对象和迭代器、迭代设计模式

     content: 1.什么是迭代协议 2. 什么是迭代器(Iterator)和可迭代对象(Iterable) 3. 使用迭代器和可迭代对象 4. 创建迭代器和可迭代对象 5. 迭代器设计模式   一 ...

  4. C#中提示:当前上下文中不存在名称“ConfigurationManager”

    场景 想要在程序中获取App.config中设置的内容. 想要通过 ConfigurationManager.AppSettings[key]; 来进行获取,已经添加 using System.Con ...

  5. flutter_boot android和flutter源码阅读记录

    版本号0.1.54 看源码之前,我先去看下官方文档,对于其源码的设计说明,文中所说的原生都是指android 看完官方文档的说明,我有以下几个疑问 第一个:容器是怎么设计的? 第二个:native和f ...

  6. 使用git将本地java项目上传到GitHub

    使用git将项目上传到github(最简单方法) 声明:本人是根据上文给的链接的方式,上传到github上的,亲测有效. 首先你需要一个github账号,所有还没有的话先去注册吧! https://g ...

  7. Java面试题_第一阶段(static、final、面向对象、多线程、集合、String、同步、接口、GC、JVM)

    1.1 简述static和final的用法? static:修饰属性,方法,代码块 (1)静态属性:也可叫类变量  类名.属性名  来访问 (共有的类变量与对象无关,只和类有关) 注意:类中的实例变量 ...

  8. Linux 版本控制工具之rabbitvcs

    原文地址:http://www.robotshell.com/2017/11/04/Linux-%E7%89%88%E6%9C%AC%E6%8E%A7%E5%88%B6%E5%B7%A5%E5%85% ...

  9. Aery的UE4 C++游戏开发之旅(3)蓝图

    目录 蓝图 蓝图命名规范 蓝图优化 暴露C++至蓝图 暴露C++类 暴露C++属性 暴露C++函数 暴露C++结构体/枚举 暴露C++接口 蓝图和C++的结合方案 使用继承重写蓝图 使用组合重写蓝图 ...

  10. Spring Boot Request method DELETE not supported

    1: 开启HiddenHttpMethodFilter 最新版本的spring boot 默认不开启 restful 分割api @Bean @ConditionalOnMissingBean({Hi ...