python爬虫数据解析之正则表达式

爬虫的一般分为四步，第二个步骤就是对爬取的数据进行解析。

python爬虫一般使用三种解析方式，一正则表达式，二xpath,三BeautifulSoup。

这篇博客主要记录下正则表达式的使用。

正则表达式

. 匹配除“\n”之外的任何单个字符。

* 匹配前面的子表达式零次或者多次。

+ 匹配前面的子表达式一次或者多次。

？匹配前面的子表达式零次或者一次。

\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。

^ 匹配输入字符串的开始位置。

$ 匹配输入字符结束的位置。

{n} 确定匹配n次。

{n,} 至少匹配n次。

{n,m} 最少匹配n次，最多匹配m次。

？当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。

x|y 匹配x或者y

[xyz] 匹配集合中的任意一个字符。

[^xyz] 匹配未包含的任意字符。

[a-z] 匹配a-z.

[^a-z] 匹配不在a-z的任意字符。

\b 匹配一个单词边界.

\B 匹配一个非单词边界。

\d 匹配任意一个数字字符。

\D 匹配任意一个非数字字符。

\w 匹配数字字母下划线

\W 匹配非数字字母下划线

\s 匹配任意空白字符 \n \r \0 \t ''

\S 匹配任意一个非空白字符

\A 匹配字符串开头 ^
\Z 匹配字符串结尾 $

贪婪模式： .*

非贪婪（惰性）模式： .*?

　　正则表达式的分组()

　　格式（?P<name>regex）其中name就是起的名字
　　e.g. 'hello (?P<cat>kitty)'
　　给kitty正则表达式的子组起了个名字cat
　　调用格式： (?P=name) name是要调用的子组名称

re.I : 忽略大小写

re.M ：多行匹配

re.S ：单行匹配

正则表达式匹配实例

import re

re模块是python的标准库模块，是用来处理正则表达式的

re.findall(regex,string)
功能：使用regex 去匹配string中的内容，如果匹配到则以一个列表的方式进行返回

使用正则爬取猫眼电影top100：

https://www.cnblogs.com/xiaozx/p/10680548.html

抓取糗事百科图片:

https://www.cnblogs.com/xiaozx/p/10717762.html

python爬虫数据解析之正则表达式的更多相关文章

python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
python爬虫之解析库正则表达式
上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里 ...
python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...
爬虫-数据解析-bs4
1.数据解析解析: 根据指定的规则对数据进行提取作用: 实现聚焦爬虫数据解析方式: - 正则表达式 - bs4 - xpath 数据解析的通用原理: 数据解析需要作用在页面源码中(一组html标 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...

随机推荐

swagger出现no response from server错误的解决办法
解决办法:1.启用80端口2.如果不是使用的80端口,是用的nginx做了映射的其他端口的话可以用Springfox swagger-ui 覆盖默认request host,加上这个在spring的应 ...
JMeter通过beanShell脚本生成随机手机号
package xnzx; /** * @author xn088587 * */ public class getTel{ public static int getNum(int start,in ...
P1113 杂务拓扑排序
题目描述 John的农场在给奶牛挤奶前有很多杂务要完成,每一项杂务都需要一定的时间来完成它.比如:他们要将奶牛集合起来,将他们赶进牛棚,为奶牛清洗乳房以及一些其它工作.尽早将所有杂务完成是必要的,因为 ...
redis对键进行的相关操作
redis对键操作的相关命令以及如何在python使用这些命令 redis对键操作的命令: 命令语法概述返回值 Redis DEL 命令 del key [key ...] 该命令用于在 key ...
PCA：利用PCA(四个主成分的贡献率就才达100%)降维提高测试集辛烷值含量预测准确度并《测试集辛烷值含量预测结果对比》—Jason niu
load spectra; temp = randperm(size(NIR, 1)); P_train = NIR(temp(1:50),:); T_train = octane(temp(1:50 ...
Kali安装Docker
---恢复内容开始--- 第一周计划安装好docker 准备审计thinkphp 框架先把docker 安装的笔记补上本来是在unbuntu 安装了一遍并run 了几个镜像和基本操作 ...
python 获取mac地址zz
通过python获取当前mac地址的方法如下:(1)通用方法,借助uuid模块def get_mac_address(): import uuid node = uuid.getnode() ...
margin-top的兼容问题
产生的条件:子元素给了margin-top,并且父元素没有浮也没有其他样式,浏览器解析的结果是父元素下去了. 解决方法:1.给子元素或者父元素添加浮动,缺点:如果不需要浮动,添加浮动也页面布局会乱 2 ...
DWM1000 Blink结构 -- 帧过滤第一节
DWM1000 帧结构分析主要学习DWM1000 帧过滤功能,希望在目前DS-TWR定位系统中增加中断和帧过滤功能,帧过滤功能可以有效减少系统中的各个模块同时收发数据时的干扰问题,从而极大的提供系统稳 ...
我的 FPGA 学习历程（14）—— PWM 脉冲宽度调制
PWM 是一种调节输出功率的技术(俗称调压),其原理在于改变输出方波的占空比,具体输出见下图: 输出信号为电压值,当负载为恒阻时,上图中的输出功率分别为 25%.50%.75%. 实现方法如下: 设置 ...

python爬虫数据解析之正则表达式

python爬虫数据解析之正则表达式的更多相关文章

随机推荐

热门专题