python基于正则爬虫-小笔记

一、re.match()，从字符串的起始位置开始匹配，比如hello，匹配模式第一个字符必须为 h

1、re.match()，模式'^hello.*Demo$'，匹配字符串符合正则的所有内容

import re

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*Demo$',content)
print(result.group())

2、()、group(1)，匹配字符串中的某个字符串，匹配数字 (\d+)

group()匹配全部，group(1)匹配第一个()

import re
content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello\s(\d+)\s(\d+)\sWorld.*Demo$',content)
print(result.group(2))

3、\s只能匹配一个空格，若有多个空格呢，hello 123，用 \s+ 即可

4、匹配空格、或任意字符串，.*，为贪婪模式，会影响后面的匹配，比如 .*(\d+)，因此用 .*? 代替\s+

4.1 贪婪模式

import re
content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*(\d+)\s(\d+)\sWorld.*Demo$',content)
print(result.group(1))

输出 3

4.2 非贪婪模式

import re
content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*?(\d+).*?(\d+)\sWorld.*Demo$',content)
print(result.group(1))

输出123

5、匹配 123 4567，(.*?)

import re
content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello\s+(.*?)\s+World.*Demo$',content)
print(result.group(1))

输出 123 4567

当匹配特殊字符时，用转义，$5.00，转为后 \$5\.00

二、re.search()，扫描整个字符串，比如hello，匹配模式第一个不一定必须为 h，可以是 e

网上其它文章写的比较混乱，没有写出re.match与re.search之间的区别，只是写了一个re.search使用案例，无法让新手朋友深入理解各个模式之间的区别

1、这里在用前面的案例，匹配 “123 4567”

import re
content= "hello 123 4567 World_This is a regex Demo"
result = re.search('ello\s+(.*?)\s+World.*Demo$',content) #从ello开始，re.match()必须从 h 开始
print(result.group(1))

输出 123 4567

2、匹配任意标签的内容，比如 <li data-view="4" class="active">，.*?active.*?xxxxx

re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S) #当有多个 <li 时，唯有目标才有active，写入action即可指定此标签，.*?active.*?xxxxx

可以指定任意的标签，当active不同时，用正则re会比BeautifulSoup简单。

三、re.findall，列表语法来匹配字符串，不是 group(1)

以列表形式返回匹配的内容，语法与re.search一样

re.search：通过 group(1) 来匹配字符串

re.findall：通过列表语法来匹配字符串，不是 group(1)

re.findall('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)

输出 [('齐秦', '往事随风')]，列表内部是一个元组

print(result)

for x in result:

print(x[0]) #元组('齐秦', '往事随风')，对此元组的切片

四、re.compile

若多次复用某个写好的正则，用 re.compile("正则")

import re
content= """hello 12345 world_this
123 fan
"""

pattern =re.compile("hello.*fan",re.S)

result = re.match(pattern,content)
print(result)
print(result.group())

python基于正则爬虫-小笔记的更多相关文章

Python 基于学习网络小爬虫
<span style="font-size:18px;"># # 百度贴吧图片网络小爬虫 # import re import urllib def getHtml( ...
11.Python使用Scrapy爬虫小Demo（新手入门）
1.前提:已安装好scrapy,且已新建好项目,编写小Demo去获取美剧天堂的电影标题名 2.在项目中创建一个python文件 3.代码如下所示: import scrapy class movies ...
Python 实现网络爬虫小程序
Python很简洁,也很强大,作为兴趣,值得一学! 下面这个程序实现的是从一个网站上下载图片,根据自己需要可以进行修改 import re import urllib def gethtml(ur ...
python requests 正则爬虫
代码: import requests from multiprocessing import Pool from requests.exceptions import RequestExceptio ...
02 Python 函数的一些小笔记
函数的返回值 1.使用return可以返回多个值,如:return a,b 返回的数据类型是元组型2.接收返回的元组可以如:c,d=demo() (假设demo()返回a,b元组),需要注意的是,接收 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...
初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记
零.背景之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...
基于python的pixiv爬虫
基于python的pixiv爬虫 1.目标在和朋友吹逼过程中,聊到qq群机器人,突发奇想动手做一个p站每日推荐色图的色图机,遂学习爬虫. 目标: 批量下载首页推荐色图. 由于对qq机器人不熟,先利用 ...
Python练习，网络小爬虫（初级）
最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 www ...

随机推荐

自动化-Yaml文件写入函数封装
1.文件布局打开文件修改读取方式为w dump函数写入文件写入中文使用allow_unicode=True class ReadConfiYaml: def __init__(self,yaml ...
C/C++ GOTO妙用
目录 GOTO 语句跳出多层循环循环首次部分跳过 GOTO 语句 C/C++ 的 goto 语句用来在一个函数内进行任意跳转,用起来也是很方便.示例如下: int a() { int x = 0, ...
Paimon merge into 实现原理
语法 MERGE INTO target USING source ON source.a = target.a WHEN MATCHED THEN UPDATE SET a = source.a, ...
如何编写正确高效的Dockerfile
Dockerfile是什么 Dockerfile 非常普通,它就是一个纯文本,里面记录了一系列的构建指令,比如选择基础镜像.拷贝文件.运行脚本等等,RUN, COPY, ADD指令都会生成一个 Lay ...
MySQL-排序相关原理分析
全字段排序和rowId排序建表语句如下: CREATE TABLE `t` ( `id` int(11) NOT NULL, `city` varchar(16) NOT NULL, `name` ...
【Web】Servlet基本概念
Servlet(Server Applet)是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,具有独立于平台和协议的特性,主要功能在于交互式地浏览和生成数据, ...
【Docker】简介
Docker 简介某个应用,如果可以提供服务,那么就可以打包成docker供给他人使用是什么我们具体来看看Docker. 大家需要注意,Docker本身并不是容器,它是创建容器的工具,是应用容器 ...
【C语言】转义字符及其对应英文
对于很多人来说,用转义字符都是熟能生巧,而不清楚为什么是那样的转义字符,所以我在这列了一个表,翻译了其对应的英文. 转义字符分为一般转义字符.八进制转义字符.十六进制转义字符. 一般转义字符:\0. ...
Centos系统云主机中nvme盘不可用解决方法
本文分享自天翼云开发者社区<Centos系统云主机中nvme盘不可用解决方法>,作者:P****n 问题描述 Linux系统的云主机使用NVMe盘后,出现非预期的慢IO读写,导致系统或者应 ...
[设计模式/Java/多线程] 设计模式之单例模式【9】
0 序此文系对最常见的设计模式----单例模式的最全总结. 1 概述:单例模式模式定义单例模式: 保证1个类有且仅有1个实例,并提供1个访问它的全局访问点. 1个类有且仅有1个实例,并自行实例化 ...

python基于正则爬虫-小笔记

python基于正则爬虫-小笔记的更多相关文章

随机推荐

热门专题