python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等

1、正则表达式：目的是为了爬虫，是爬虫利器。

正则表达式是用来做字符串匹配的，比如检测是不是电话、是不是email、是不是ip地址之类的

2、JSON：外部数据交流的主流格式。

3、正则表达式的使用

re python 内置的模块，可以进行正则匹配

re.findall(pattern,source)
pattern：正则匹配规则-也叫郑泽表达式
source：需要查找的目标源

import re

a = "C0C++7Java8C#Python6JavaScript"

res = re.findall("Java",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['Java', 'Java']

4、正则表达式的应用

查数字

用概括字符集：\d

import re

a = "C0C++7Java8C#Python6JavaScript"

res = re.findall("\d",a)

print res

# Project/python_ToolCodes/test10.py"

# ['0', '7', '8', '6']

用另外一种匹配模式-字符集：[0-9]

import re

a = "C0C++7Java8C#Python6JavaScript"

res = re.findall("[0-9]",a)

print res

# Project/python_ToolCodes/test10.py"

# ['0', '7', '8', '6']

其中"Java"叫普通字符，"/d" 源字符

查非数字

用概括字符集：\D

import re

a = "C0C++7Java8C#Python6JavaScript"

res = re.findall("\D",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 'S', 'c', 'r', 'i', 'p', 't']

用另外一种匹配模式-字符集：[^0-9]

import re

a = "C0C++7Java8C#Python6JavaScript"

res = re.findall("[^0-9]",a)

print res

# Project/python_ToolCodes/test10.py"

# ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 'S', 'c', 'r', 'i', 'p', 't']

正则表达式的罗列：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin，挨个练习是没有必要的，用到去查即可

4、匹配模式

源字符+普通字符混合模式

[]中的或操作
#coding=utf-8

import re

a = "abc,acc,adc,aec,afc,ahc"

#匹配acc和afc

res = re.findall("a[cf]c",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['acc', 'afc']

取反操作：^
#coding=utf-8

import re

a = "abc,acc,adc,aec,afc,ahc"

#取出非（acc和afc）的字符

res = re.findall("a[^cf]c",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['abc', 'adc', 'aec', 'ahc']

取范围操作：-
#coding=utf-8

import re

a = "abc,acc,adc,aec,afc,ahc"

#取出acc,adc,aec,afc(中间字符是c到f范围的)

res = re.findall("a[c-f]c",a)

print res

#[Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

#['acc', 'adc', 'aec', 'afc']

匹配数字和字母:

概括字符集匹配：\w
import re

a = "abc&cba"

res = re.findall("\w",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['a', 'b', 'c', 'c', 'b', 'a']

使用字符集匹配：[A-Za-Z0-9]
import re

a = "abc123&cba321"

res = re.findall("[A-Za-z0-9]",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['a', 'b', 'c', '1', '2', '3', 'c', 'b', 'a', '3', '2', '1']

显然，是\w是不匹配非字母和数字的，比如“&”符号

匹配非单词非数字字符

概括字符集：\W
import re

a = "abc123&cba321"

res = re.findall("\W",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['&']

使用字符集匹配：^A-Za-z0-9

import re

a = "abc123&cba321"

res = re.findall("[^A-Za-z0-9]",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['&']

空格、制表符、换行符号之类的匹配:\s

import re

a = "python 111\tjava&67p\nh\rp"

res = re.findall("\s",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# [' ', '\t', '\n', '\r']

匹配量词:匹配出python Java php

必须三个一组：

[a-z]{3}

import re

a = "python 1111java678php"

res = re.findall("[a-z]{3}",a)

print res

[Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

['pyt', 'hon', 'jav', 'php']

可以3-6个一组：因为最长python 为6 最短PHP为3：

[a-z]{3,6}

import re

a = "python 1111java678php"

res = re.findall("[a-z]{3,6}",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['python', 'java', 'php']

疑问：为什么3个能匹配 匹配到pyt的时候为什么不终止？
因为正则表达式的数量词分为贪婪和非贪婪模式，默认情况下，python 认为是贪婪模式的。

非贪婪模式怎么使用:加个问号

[a-z]{3,6}?

import re

a = "python 1111java678php"

res = re.findall("[a-z]{3,6}?",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['pyt', 'hon', 'jav', 'php']

* ，对*前面的字符'n',匹配0次或者无限次

import re

a = "pytho0python1pythonn2"

res = re.findall("python*",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['pytho', 'python', 'pythonn']

比如pytho 没有n 则是匹配0次，可匹配出来pytho；比如python 1个n 则是匹配1次，可匹配出来python；pythonn 2个n 则是匹配2次，可匹配出来pythonn

+,对+前面的字符'n' 匹配1次或者无限次

import re

a = "pytho0python1pythonn2"

res = re.findall("python+",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['python', 'pythonn']

?,?前面的字符'n' 匹配0次或者1次
```
import re

a = "pytho0python1pythonn2"

res = re.findall("python?",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['pytho', 'python', 'python']
```
比如pytho 没有n 则是匹配0次，可匹配出来pytho；比如python 1个n 则是匹配1次，可匹配出来python；pythonn 2个n 则是匹配1次，可匹配出来python，因为多出来的n，直接被截断了，不符合匹配模式，所以匹配不出来pythonn 而是匹配出来的是python。也可以理解成?开启了非贪婪模式
如果要开启非贪婪模式，但是又不想用*，+ 去匹配无限次，而是指定匹配次数的范围，那么可以这样
```
python{1,2}
```
这表示，最多匹配2次，最少匹配1次

import re

a = "pytho0python1pythonn2"

res = re.findall("python{1,2}",a)

print res

# [Running] python -u "/Users/anson/Documents/Project/python_ToolCodes/test10.py"

# ['python', 'pythonn']

python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等的更多相关文章

Python的正则表达式与JSON
Python的正则表达式需要导入re模块菜鸟教程:http://www.runoob.com/python/python-reg-expressions.html 官方文档:https://docs ...
Python(八) 正则表达式与JSON
一.初识正则表达式正则表达式是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配快速检索文本.实现替换文本的操作 json(xml) 轻量级 web 数据交换格式 impor ...
python 正则表达式与JSON字符串
目录正则表达式概括单字符集匹配单字符匹配字符集普通字符与元字符元字符和普通的字符的混用数量词{整数|*|+|?} 匹配指规则的字母贪婪模式匹配指定长度的字符串非贪婪模式匹配指定长 ...
python 正则表达式贪婪模式的简介和匹配时的几种模式
看到一篇文章,关于python正则的,http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 贪婪模式与非贪婪模式: 正则表达式通常用于 ...
1.3 正则表达式和Python语言-1.3.5使用 search()在一个字符串中查找模式（搜索与匹配的对比）
1.3.5 使用 search()在一个字符串中查找模式(搜索与匹配的对比) 其实,想要搜索的模式出现在一个字符串中间部分的概率,远大于出现在字符串起始部分的概率.这也就是 search()派上用场的 ...
python正则表达式贪婪与非贪婪模式
之前做程序的时候看到过正则表达式的贪婪与非贪婪模式,今天用的时候就想不起来了,现在这里总结一下,以备自己以后用到注意. 1.什么是正则表达式的贪婪与非贪婪匹配如:String str="a ...
C# 使用正则表达式去掉字符串中的数字，或者去掉字符串中的非数字
/// 去掉字符串中的数字 public static string RemoveNumber(string key) { ...
Python3(七) 正则表达式与JSON
一. 初识正则表达式 1.定义:是一个特殊的字符序列,可以帮助检测一个字符串是否与我们所设定的字符序列相匹配. 2.作用:可以实现快速检索文本.实现替换文本的操作. 3.场景: 1.检测一串数字是否是 ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...

随机推荐

java学习第六天2020/7/11
一. 今天先是对昨天的知识进行了练习: package 数组; import java.util.Random; import java.util.Arrays; public class 随机数排序 ...
python3 读取chrome浏览器cookies
原文链接:https://www.cnblogs.com/gayhub/p/pythongetcookiefromchrome.html 好几年前我在做一些自动化的脚本时,脑子里也闪过这样的想法:能不 ...
java 面向对象（四十二）：反射（六）反射应用三：调用运行时类的指定结构
调用指定的属性: @Test public void testField1() throws Exception { Class clazz = Person.class; //创建运行时类的对象 P ...
数据可视化实例（九）：边缘箱形图（matplotlib，pandas）
https://datawhalechina.github.io/pms50/#/chapter7/chapter7 边缘箱形图 (Marginal Boxplot) 边缘箱图与边缘直方图具有相似的用 ...
hihoCoder 1041 国庆出游最详细的解题报告
题目来源:国庆出游解题思路(下面是大神的写的): 把题目中的序列称作S,树称作T.那么对于S中的任意节点x,x的子孙节点如果在S出现的话,那么这个子孙节点的位置是有一定要求的:x的所有子孙节点在S中 ...
【翻译】.NET 5中的性能改进
[翻译].NET 5中的性能改进在.NET Core之前的版本中,其实已经在博客中介绍了在该版本中发现的重大性能改进. 从.NET Core 2.0到.NET Core 2.1到.NET Core ...
Python Ethical Hacking - TROJANS Analysis(5)
Spoofing File Extention - A trick. Use the Kali Linux Program - Characters 1. Open the program. 2. F ...
.NET Core ResponseCache【缓存篇（一）】
一.前言源码 1.最近一直在看项目性能优化方式,俗话说的好项目优化第一步那当然是添加缓存,我们的项目之所以卡的和鬼一样,要么就是你的代码循环查询数据库(这个之前在我们的项目中经常出现,现在慢慢在 ...
UVA 10653.Prince and Princess
题目 In an n * n chessboard, Prince and Princess plays a game. The squares in the chessboard are numbe ...
TestNg失败重跑—解决使用 dataProvider 参数化用例次数冲突问题
问题背景在使用 testng 执行 UI 自动化用例时,由于 UI自动化的不稳定性,我们在测试的时候,往往会加上失败重跑机制.在不使用 @DataProvider 提供用例参数化时,是不会有什么问题 ...

python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等

python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等的更多相关文章

随机推荐

热门专题