正则表达式(特殊字符)

^                            开头  '^b.*'----以b开头的任意字符

$                            结尾  '^b.*3$'----以b开头,3结尾的任意字符  

*                            任意长度(次数),≥0

?                            非贪婪模式,非贪婪模式尽可能少的匹配所搜索的字符串  '.*?(b.*?b).*'----从左至右第一个b和的二个b之间的内容(包含b)

+                            一次或多次

{2}                          指定出现次数2次

{2,}                         出现次数≥2次

{2,5}                        出现次数2≤x≤5

|                            或   “z|food”----能匹配“z”或“food”(此处请谨慎)。“[z|f]ood”----则匹配“zood”或“food”或"zood"

[]                           括号中任意一个符合即可(中括号里面没有分转义字符)  '[abc]ooby123'----只要开头符合[]中任意一个即可

[^]                          只要不出现[]的即可

[a-Z]                        从小a到大Z

.                            任意字符

\s                           匹配不可见字符 \n \t  '你\s好'----可以匹配‘你 好’

\S                           匹配可见字符,即普通字符

\w                           匹配下划线在内的任何单词字符

\W                           和上一个相反

[\u4E00-\u9FA5]              只能匹配汉字
() 要取出的信息就用括号括起来 \d 数字

Xpath语法

article                      选取所有article元素的所有子节点

/article                     选取根元素article

article/a                    选取所有属于article的子元素的a元素

//div                        选取所有div子元素(不论出现在文档任何地方)

article//div                 选取所有属于article元素的后代的div元素不管它出现在article之下的任何位置

//@class                     选取所有名为class的属性

/article/div[1]              选取属于srticle子元素的第一个div所有子节点

/article/div[last()]         选取属于article子元素的最后一个div所有子节点

/article/div[last()-1]       选取属于article子元素的倒数第二个div所有子节点

//div[@lang]                 选取所有拥有lang属性的div元素

//div[@lang='eng']           选取所有lang属性为eng的div元素

/div/*                       选取属于div元素的所有子节点

//*                          选取所有元素

//div[@*]                    选取所有带属性的div元素

//div/a | //div/p            选取所有div元素的a个p元素

//span | //ul                选取文档中的span和ul元素

article/div/p | //span       选取所有属于article元素的div元素和所有的span元素

CSS选择器

*                            选取所有节点

#container                   选取id为container的节点

.container                   选取所有class包含container的节点

li a                         选取所有li下的所有a节点

ul+p                         选取ul后面的第一个p元素

div#container > ul           选取id为container的div的第一个ul子元素

ul ~ p                       选取与ul相邻的所有p元素

a[title]                     选取所有有title属性的a元素

a[href="http://jobbole.com"] 选取所有href属性为jobbole.com

a[href*="jobole"]            选取所有href属性包含jobbole的a元素

a[href^="http"]              选取所有href属性值以http开头的a元素

a[href$=".jpg"]              选取所有href属性值以.jpg结尾的a元素

input[type=radio]:checked    选取选中的radio的元素

div:not(#container)          选取所有id非container的div元素

li:nth-child(3)              选取第三个li元素

tr:nth-child(2n)             第偶数个tr元素

  

 

正则表达式(特殊字符)/Xpath语法/CSS选择器的更多相关文章

  1. 黄聪:HtmlAgilityPack中SelectSingleNode的XPath和CSS选择器

    XPath和CSS选择器 原文:http://ejohn.org/blog/xpath-css-selectors 最近,我做了很多工作来实现一个同时支持XPath和CSS 3的解析器,令我惊讶的是: ...

  2. xpath和CSS选择器

    .content是二进制 用来处理声音.图片.视频 .text是文本 xpath语法: /一层层查找 //不固定位置 //title/text() @选取属性 [@href]和[@href=''] . ...

  3. xpath和css选择器对比

    基本语法对比 都可以在html中提取内容,但xpath可以提取xml的内容.

  4. XPath、CSS 选择器 -学习地址

    http://www.w3school.com.cn/cssref/css_selectors.asp http://www.w3school.com.cn/xpath/xpath_syntax.as ...

  5. scrapy xpath、正则表达式、css选择器

    scrapy xpath XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. 学习 ...

  6. jQuery语法基础&选择器

    jQuery 语法 jQuery 语法是为 HTML 元素的选取编制的,可以对元素执行某些操作. 基础语法是:$(selector).action() 美元符号定义 jQuery 选择符(select ...

  7. 使用CSS选择器进行元素定位

    在selenium webdriver中,支持使用CSS选择器来进行元素定位,事实在真的投入工作,大量编辑用例和元素定位的时候,使用css 和 xpath才是经常需要用到的. 之前有专门讲过使用xpa ...

  8. css基础,css选择器

    07.29自我总结 css基础 一.什么是CSS CSS是级联样式表 CSS术语标记语言,没有逻辑 CSS作用 完成网页内容的样式与布局 二.CSS的三种引入方式 1. 内联式 书写位置:在 head ...

  9. CSS选择器 + Xpath + 正则表达式整理(有空再整理)

    选择器 例子 例子描述 CSS .class .intro 选择 class="intro" 的所有元素. 1 #id #firstname 选择 id="firstna ...

随机推荐

  1. 详解.NET IL代码(一)

    本文主要介绍IL代码,内容大部分来自网上,进行整理合并的. 一.IL简介 为什么要了解IL代码? 如果想学好.NET,IL是必须的基础,IL代码是.NET运行的基础,当我们对运行结果有异议的时候,可以 ...

  2. Windows CreateFont:创建自己的字体

    原文地址:http://blog.csdn.net/softn/article/details/51718347 前面无论是使用文本输出函数还是 static 控件,字体都是默认的,比较丑陋,我们完全 ...

  3. 读SRE Google运维解密有感(四)-聊聊问题排查

    前言 这是读“SRE Google运维解密”有感第四篇,之前的文章可访问www.addops.cn来查看.今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪 ...

  4. certificate expired

    最近在测试802.1x,测试过程中,radius服务器端一直显示如下错误: (5)   authenticate {(5) eap: Expiring EAP session with state 0 ...

  5. python读取两个csv文件数据,进行查找匹配出现次数

    现有需求 表1 表2 需要拿表1中的编码去表2中的门票编码列匹配,统计出现的次数,由于表2编码列是区域间,而且列不是固定的,代码如下 #encoding:utf-8 ##导入两个CSV进行比对 imp ...

  6. Tomcat启动startup.bat闪退和JRE_HOME错误

    转载:http://blog.csdn.net/xushikuan/article/details/8132317 昨天学习Struts2,下载Tomcat7,太恶心了. 先是报个错,无法启动,基本意 ...

  7. Jquery----属性的利用

    属性操作: 1.属性 属性(如果你的选择器选出了多个对象,那么默认只会返回出第一个属性). attr(属性名|属性值) - 一个参数是获取属性的值,两个参数是设置属性值 - 点击加载图片示例 remo ...

  8. python创建__init.py__文件导入模块仍然报错ModuleNotFoundError: No module named 'name'

    今自定义模块后非相同目录导出提示找不到模块报错信息如下: ModuleNotFoundError: No module named 'name' 各方查找各位大神方法很多 参考链接 1.在需要导入的文 ...

  9. Crack相关

    Microsoft Office 2007专业增强版密钥:KXFDR-7PTMK-YKYHD-C8FWV-BBPVWM7YXX-XJ8YH-WY349-4HPR9-4JBYJCTKXX-M97FT-8 ...

  10. Nginx 响应状态

    ngx.status = ngx.HTTP_CONTINUE (100) (first added in the v0.9.20 release)ngx.status = ngx.HTTP_SWITC ...