爬虫系列二(数据清洗--->正则表达式)

一正则常识

模式	描述
`\w`	匹配字母数字及下划线
`\W`	匹配非字母数字及下划线
`\s`	匹配任意空白字符，等价于 [\t\n\r\f].
`\S`	匹配任意非空字符
`\d`	匹配任意数字，等价于 [0-9]
`\D`	匹配任意非数字
`\A`	匹配字符串开始
`\Z`	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
`\z`	匹配字符串结束
`\G`	匹配最后匹配完成的位置
`\n`	匹配一个换行符
`\t`	匹配一个制表符
`^`	匹配字符串的开头
`$`	匹配字符串的末尾
`.`	匹配任意字符，除了换行符
`[...]`	用来表示一组字符，单独列出：[amk] 匹配 'a'，'m' 或 'k'
`[^...]`	不在 [] 中的字符：[^abc]匹配除了 a,b,c 之外的字符。
`*`	匹配 0 个或多个的表达式。
`+`	匹配 1 个或多个的表达式。
`?`	匹配 0 个或 1 个由前面的正则表达式定义的片段，非贪婪方式
`{n}`	精确匹配 n 个前面表达式。
`{n, m}`	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
`a \\| b`	匹配 a 或 b
`( )`	匹配括号内的表达式，也表示一个组

二 pythoon正则中的常见方法

函数	描述
`re.match(pattern, string, flags=0)`	尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none
`re.search(pattern, string, flags=0)`	扫描整个字符串并返回第一个成功的匹配
`re.sub(pattern, repl, string, count=0)`	用于替换字符串中的匹配项，repl : 替换的字符串，也可为一个函数
`re.compile(pattern[, flags])`	用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用
`findall(string[, pos[, endpos]])`	在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表
`re.split(pattern, string[, maxsplit=0, flags=0])`	能够匹配的子串将字符串分割后返回列表

三修饰符总结

修饰符	描述
`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响 ^ 和 $
`re.S`	使 . 匹配包括换行在内的所有字符
`re.U`	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

四爬虫正则解析数据实例(源码)

# re 解析,下载嗅事百科图片

import requests

import re

import os

url='https://www.qiushibaike.com/pic/'

headers={

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.20 Safari/537.36'

}

response=requests.get(url=url,headers=headers)

# print(response.text)

'''
#网页中需要的数据格式为:

<div class="thumb">

<a href="/article/121553539" target="_blank">

<img src="//pic.qiushibaike.com/system/pictures/12155/121553539/medium/8FN1C2RZMV2J1FJY.jpg" alt="抖音上的骗子">

</a>

</div>

'''

#利用re获取图片url

ex='<div class="thumb">.*?<img src="(?P<img>.*?)" alt.*?</div>'

img_url_list=re.findall(ex,response.text,re.S)

#持久化保存图片

if not os.path.exists('qiushibaike'):

    os.makedirs('qiushibaike')

for url in img_url_list:

    url='https:'+url

    img_data=requests.get(url=url).content

    img_name=url.split('/')[-1]

    path='qiushibaike/'+img_name

    with open(path,mode='wb') as f:

        f.write(img_data)

        print(img_name+'下载完成')

爬虫系列二(数据清洗--->正则表达式)的更多相关文章

爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
Python爬虫（二）正则表达式
一.介绍 1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来 ...
爬虫系列(十二) selenium的基本使用
一.selenium 简介随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载对于爬取这些网站,一般有两种思路: 分析 Ajax 请 ...
爬虫系列(五) re的基本使用
1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹 ...
爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...

随机推荐

Openssh版本升级修复漏洞
一.由于openssh版本过低当用扫描软件检测时会出现以下漏洞: 二.解决方案是升级高版本,下面是升级的步凑. 1.安装telnet工具,因为升级过程中怕失败或者重启ssh失败.我们直接yun安装即可 ...
Spring Security构建Rest服务-1300-Spring Security OAuth开发APP认证框架之JWT实现单点登录
基于JWT实现SSO 在淘宝( https://www.taobao.com )上点击登录,已经跳到了 https://login.taobao.com,这是又一个服务器.只要在淘宝登录了,就能直接访 ...
.NET Core protobuf-net、MessagePack、Json.NET序列化/反序列化性能测试
测试代码Zonciu/SerializationTest.cs, 源自neuecc/ZeroFormatterBenchmark.cs. NuGet包及其版本 mgravell/protobuf-ne ...
ArrayList循环遍历并删除元素的常见陷阱
在工作和学习中,经常碰到删除ArrayList里面的某个元素,看似一个很简单的问题,却很容易出bug.不妨把这个问题当做一道面试题目,我想一定能难道不少的人.今天就给大家说一下在ArrayList循环 ...
【转载】CentOS 7部署ASP.NET Core应用程序
看了几篇大牛写的关于Linux部署ASP.NET Core程序的文章,今天来实战演练一下.2017年最后一个工作日,提前预祝大家伙元旦快乐.不扯淡,直接进入正题.您有任何问题请在评论区留言. 1.环境 ...
centos系统安装第三方源EPEL
epel没安装呗相当于扩展型软件仓库,EPEL (Extra Packages for Enterprise Linux,企业版Linux的额外软件包) 是Fedora小组维护的一个软件仓库项目,为 ...
SmartSql 更新日志
SmartSql 更新历史记录 3.7.0 support cross SqlMap reference for #30 modifying Statement.Ref for delay depen ...
Oracle学习笔记一
Oracle数据库的体系结构数据库: database Oracle数据库是数据的物理存储.这就包括(数据文件ORA或者DBF.控制文件.联机日志.参数文件).其实 Oracle数据库的概念和其它数 ...
[十]JavaIO之FilterInputStream FilterOutputStream
FilterInputStream FilterOutputStream都是装饰器模式中的Decorator抽象装饰角色他们继承了各自的抽象构建InputStream 和OutputStream ...
Python机器学习笔记异常点检测算法——Isolation Forest
Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法.可能大家都习惯用其英文的名字isolat ...

爬虫系列二(数据清洗--->正则表达式)

爬虫系列二(数据清洗--->正则表达式)的更多相关文章

随机推荐

热门专题