python爬虫笔记之re.match匹配，与search、findall区别

为什么re.match匹配不到？re.match匹配规则怎样？（捕一下seo）

re.match(pattern, string[, flags])

pattern为匹配规则，即输入正则表达式。

string为，待匹配的文本或字符串。

网上的定义【从要匹配的字符串的头部开始，当匹配到string的尾部还没有匹配结束时，返回None;
当匹配过程中出现了无法匹配的字母，返回None。】

但我觉得要强调关键一句【仅从要匹配的字符串头部开始匹配！】

看看例子，你就明白了！！！想用的话，一定要看！

出现<_src.SRE_Match object at .....>表示匹配成功。

出现None表示，匹配失败或未匹配到。

总结：re.match只从待匹配的字符串或文本的开头开始匹配，即如果匹配的字符串不在开头，而是在中间或结尾，则无法匹配！

———————————————————分割线——————————————————

顺便对比下re.match、re.search、re.findall的区别

match()函数只在string的开始位置匹配（例子如上图)。

search()会扫描整个string查找匹配,会扫描整个字符串并返回第一个成功的匹配。

re.findall()将返回一个所匹配的字符串的字符串列表。

———————————————————分割线——————————————————

《用python写网络爬虫》中1.4.4链接爬虫中，下图为有异议代码

这里的输出经测试，根本啥也没有，如下图

查了很久，应该是因为re.match一直匹配不到数据引起的，毕竟他只匹配开头。

我将re.match改为re.search，再测试，可正常下载

分析：可能是由于书编写时，http://example.webscraping.com/页面所带的链接都是：/index/1、/index/2……且输入匹配表达式为【 /(index/view) 】，使用的是re.match匹配，如果匹配上述的url则没问题，而现在该网站页面所带的链接为：/places/default/index/1、/places/default/index/2……所以，上文讲到的re.match的特点，从开头开始匹配，则这时候re.match就会一直匹配不上！我将它换位re.search就可以解决这个问题了。

如有错误，麻烦及时指正，谢谢！

python爬虫笔记之re.match匹配，与search、findall区别的更多相关文章

[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
Python爬虫笔记一（来自MOOC） Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...
Python学习笔记——基础篇【第五周】——正在表达式（re.match与re.search的区别）
目录 1.正在表达式 2.正则表达式常用5种操作 3.正则表达式实例 4.re.match与re.search的区别 5.json 和 pickle 1.正则表达式语法: import re # ...
python爬虫笔记Day01
python爬虫笔记第一天 Requests库的安装先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...
正则表达式中　re.match与re.search的区别
标签: 本文和大家分享的主要是python正则表达式中re.match函数与re.search方法的相关用法及异同点,希望通过本文的分享,能对大家有所帮助. re.match函数 re.match 尝 ...
re.match与re.search的区别
re.match与re.search的区别 re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None:而re.search匹配整个字符串,直到找到一个匹配. 实 ...
PYTHON 爬虫笔记四:正则表达式基础用法
知识点一:正则表达式详解及其基本使用方法什么是正则表达式正则表达式对子符串操作的一种逻辑公式,就是事先定义好的一些特定字符.及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达 ...
Python爬虫笔记安装篇
目录爬虫三步请求库 Requests:阻塞式请求库 Requests是什么 Requests安装 selenium:浏览器自动化测试 selenium安装 PhantomJS:隐藏浏览器窗口 Ph ...
Python爬虫笔记技术篇
目录前言 requests出现中文乱码使用代理 BeautifulSoup的使用 Selenium的使用基础使用 Selenium获取网页动态数据赋值给BeautifulSoup Seleniu ...

随机推荐

WPF 中RichTextBox控件用法细讲
1. 取得已被选中的内容:(1)使用RichTextBox.Document.Selection属性(2)访问RichTextBox.Document.Blocks属性的“blocks”中的Text ...
ML:梯度下降（Gradient Descent）
现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地. 梯度下降算法不断重复以下步骤,直到收敛(repeat ...
Elevate Web Builder for Web Developers（类似于unigui的东西）
推荐一款pascal 语言的web 开发工具这几天仔细研究了一款使用Pascal 语言开发web 的工具具体介绍可以参照这里. 先上几张他开发的页面照.
FMX App的Application的事件（各种手机的全局按键）
直接上代码,还有条经验就是SetApplicationEventHandler可注册多个事件方法. unit Unit6; interface uses System.SysUtils, Syste ...
Webpack Waringing Critical dependencies
报错信息如下: 出错原因先上图: 未注释部分使用了require的同时使用了es6的语法. 官方解释如下: 解决方法就是放开代码中的注释部分,不要使用es6语法
Qt编程中QDiaog的ESC建
最近使用QDialog时,按了下Esc键,导致QDialog被关闭,而后续的数据处理出现了问题.原来在QDialog中按下Esc键会默认调用reject()方法而不是closeEvent(QClose ...
Firemonkey实现Mac OS程序中内嵌浏览器的功能（自己动手翻译，调用苹果提供的webkit框架）
XE系列虽然可以跨平台,但是在跨平台的道路上只是走了一小半的路,很多平台下的接口都没实现彻底,所以为了某些功能,还必须自己去摸索. 想实现程序中可以内嵌浏览器的功能,但是Firemonkey还没有对应 ...
android 写文件到sd卡问题小记
android 写文件到sd卡问题小记事情是这样子的.... 这天我开始编写项目调试工具,高大上不?-----其实就是记录实时网络请求和崩溃日志相关等的小工具(此处一个会心的微笑). 然后我是这样写 ...
在.NET Core 3.0中的WPF中使用IOC图文教程
我们都知道.NET Core 3.0已经发布了第六个预览版,我们也知道.NET Core 3.0现在已经支持创建WPF项目了,刚好今天在写一个代码生成器的客户端的时候用到了WPF,所以就把WPF创建以 ...
03 我的第一个html页面
 <!DOCTYPE html> <html lang="en"> <!--head ...

python爬虫笔记之re.match匹配，与search、findall区别

re.match(pattern, string[, flags])

python爬虫笔记之re.match匹配，与search、findall区别的更多相关文章

随机推荐

热门专题