正则表达式由字符和操作符构成

. 表示任何单个字符

[]字符集,对单个字符给出取值范围 [abc]或者关系  [a-z]表示

[^abc]表示非这里面的东西 非字符集

* 表示星号之前的字符出现0次或者无限次扩展

+ 表示星号之前的字符出现一次或者无限次扩展

? 表示出现0次或1扩展

| 表示左右表达式人取其一 abc|def

---------------------------------------------------------------------

{m} 扩展前一个字符m次  ab{2}c  abbc

{m,n}扩展前一个字符m-n 次 ab{1,2}c 表示 abc abbc

{:3} 零到三次

^ 匹配字符串开头: ^abc 表示abc且在一个字符串的开头

$ 匹配字符串的结尾 abc$ 表示bac切abc在一个字符串的结尾

()分组标记 内部只能使用 |

\d 等价于[0-9]

\w 等价于字符[A-Za-z0-9]

----------------------------------------------------------------------

经典正则表达式

^[A-Za-z]+$                 由26个字母组成的表达式

^[A-Za-z0-9]+$     由字母与数字构成的字符串

^-?\d+$         匹配任何整数

^[1-9]*[0-9][0-9]*$   表示正整数的字符串

[1-9]\d{5}         6位邮政编码的正则表达式

[\u4e00-\u9fa5]        匹配中文字符

\d{3}-\d{8}|\d{4}-\d{7}  匹配国内电话号码

\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}. 匹配ip地址

re.search()       在一个字符串中搜索匹配正则表达式的第一个位置,返回metch对象

re.match()    在一个字符串的开始位置起匹配正则表达式,返回match对象

re.findall()   搜索字符串,以列表形式返回所有能匹配的字符串

re.split()    将一个字符串按照正则表达式的匹配结果进行分割,返回一个列表

re.finditer()   搜索字符串,返回一个匹配结果的爹地啊类型,每个迭代元素是match象

re.sub()    替换所有匹配的字符串,返回一个字符串

详细使用说明

re.search(pattern,string,flags=0)

findall 函数参数和search 一样

finditer 同上

pattern 正则表达式

string 原始需要被匹配的字符串

flags 控制查找的标记

标记如下

re.I   忽略大小写

re.M  正则表达式的^操作符能够匹配给定字符串每一行的开始部分

re.S re.DOTALL 正则表达式的.匹配所有的字符 //默认匹配除换行符之外的所有字符

re.split(pattern,string,maxsplit=0,flags=0)

maxsplit 最大分割数,剩余部分作为整体显示出来 (匹配的部分去掉)

re.sub(pattern,repl,string,count=0,flags=0)

repl  替换原字符串的字符串 ,count 最大替换词数

re库的等价用法

rst=re.search(...)   一次性用法

re.compile(pattern,flags=0)

pat =re.compile('')

// pat 成为pattern 对象   可以多次使用

pat.search()

Match 对象类型

if match:

attribute:

  .string 待匹配文本

  .re    使用的pattern

  .pos 匹配开始的位置

  .enpos 匹配结束的位置

  .group(0) 获得匹配后的字符串

  group方法的其他用法如下

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m.group(0) # The entire match
'Isaac Newton'
>>> m.group(1) # The first parenthesized subgroup.
'Isaac'
>>> m.group(2) # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2) # Multiple arguments give us a tuple.
('Isaac', 'Newton')

.start() 匹配字符串在原始字符串的开始位置

.end()  匹配字符串在原始字符串的结束位置

.span 返回(.start(),.end())   //tuple

贪婪匹配和最小匹配

match=re.saerch(r'PY.*N','PYANBNCNDN')

match.group(0)

匹配长短不同时

默认采用贪婪匹配的方式,即找到最长的符合条件的最长子串

match=re.saerch(r'PY.*?N','PYANBNCNDN')

match.group(0)

*后面加一个?即匹配符合条件的最小的匹配

最小匹配操作符(有操作符可以匹配不同长度时)

*?

+?

??

{m,n}?

正则表达式还是要反斜杠注释的 \\

r'\"view_price\"\:\"[\d\.]*\"'

.":都要注释

{0:^10}

0是format第0个元素,‘排名’

:是引导符号

^是居中对齐

10是槽的设定输出宽度

其余类似

PYTHON网络爬虫与信息提取[正则表达式的使用](单元七)的更多相关文章

  1. PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

    scrapy 常用命令 startproject  创建一个新的工程 scrapy startproject <name>[dir] genspider    创建一个爬虫         ...

  2. Python网络爬虫与信息提取

    1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

  3. 第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

  4. 第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 第一周 Requests库的爬 ...

  5. 第三次作业-Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 过程. 5.写一篇不少于100 ...

  6. Python网络爬虫与信息提取笔记

    直接复制粘贴笔记发现有问题 文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

  7. 【学习笔记】PYTHON网络爬虫与信息提取(北理工 嵩天)

    学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime    Text集成ide:Pychar ...

  8. Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  9. Python网络爬虫与信息提取(三)—— Re模块

    regular expression / regex / RE 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.Python 自1.5版本起增加了re 模块,它提供 ...

随机推荐

  1. Vuex持久化存储之vuex-persist

    在引入mapMutations时报错,解决方法: 1:npm install --save-dev babel-plugin-transform-object-rest-spread 2:在packa ...

  2. Odoo QWeb

    1.web 模块 注意,OpenERP 模块中 web 部分用到的所有文件必须被放置在模块内的 static 文件夹里.这是强制性的,出于安全考虑. 事实上,我们创建的文件夹 CSS,JS 和 XML ...

  3. fcc筆記

    在 JavaScript 中所有的变量都是大小写敏感的JavaScript提供七种不同的data types(数据类型),它们是undefined(未定义), null(空), boolean(布尔型 ...

  4. 关于jQuery中attr(),prop()的使用

    注意:什么时候使用attr(),什么时候使用prop()?1.添加属性名称该属性就会生效应该使用prop();2.是有true,false两个属性使用prop();3.其他则使用attr(); 以下是 ...

  5. Django项目:CRM(客户关系管理系统)--70--60PerfectCRM实现CRM学生上课记录

    #urls.py """PerfectCRM URL Configuration The `urlpatterns` list routes URLs to views. ...

  6. android 开发环境问题

    一.console出现The connection to adb is down, and a severe error has occured. .先把eclipse关闭. .在管理器转到你的and ...

  7. Spring注解驱动开发(六)-----spring容器创建【源码】

    Spring容器的refresh()[创建刷新] 1.prepareRefresh()刷新前的预处理 1).initPropertySources()初始化一些属性设置;子类自定义个性化的属性设置方法 ...

  8. Cesium 1.51新功能评测

    前言 之前介绍Cesium1.50版本的新功能时,很多人把1.50写成1.5.这两个版本可不一样,之间差了45个小版本号,1.5版本大概是Cesium三年前的版本了. Cesium每月月初的第一个工作 ...

  9. day18 8.jdbc中设置事务隔离级别

    设置数据库事务隔离级别特殊需求才有,后面很少用.因为数据库本身是事务隔离级别的,mysql的事务隔离级别是Repeatable read,可以解决脏读和不可重复读.不用设置,人家数据库是有事务隔离级别 ...

  10. 2018-8-10-WPF-使用不安全代码快速从数组转-WriteableBitmap

    title author date CreateTime categories WPF 使用不安全代码快速从数组转 WriteableBitmap lindexi 2018-08-10 19:16:5 ...