正则提取关键字符-python代码实现

go2coding 2024-11-04 17:02:16 原文

原文地址：http://www.bugingcode.com/blog/python_re_extraction_key.html

关于python的正则使用在以前的文章中 http://www.bugingcode.com/blog/python_regular_expressions.html ，都有介绍，但是这边文章比较大，内容讲的不够细，这里专门讲如何用python正则匹配到自己需要的字符串。

正则提取数据

还是以url字符串来进行匹配：http://www.bugingcode.com/blog/python_regular_expressions.html，url的字符串有明显的一样，bugingcode 为域名，blog 为目录名，python_regular_expressions 为文章的名称。在这里需要把这三个字符串都提取出来。

贪婪和非贪婪匹配

查看正则匹配规则：

. : 匹配任意除换行符"\n"外的字符

+ : 匹配前面字符1次到无限次

在我们可以用/ 来对提取的字符进行限制，也就是卡死头和尾，看看会得到什么样的结果。

import re

str = "http://www.bugingcode.com/blog/python_regular_expressions.html"

print re.findall(r"/(.+)/",str)

会输出什么样的结果呢？

有人猜结果：

['/www.bugingcode.com','blog']

不可能出现这种结果的，因为r"/(.+)/"中已经把/ 用掉了，往下匹配已经找不到/ 号了。

有人猜结果：

['/www.bugingcode.com']

也有人猜：

['/www.bugingcode.com/blog']

这是关于正则表达式的贪婪和非贪婪匹配，简单的记住正则匹配中有出现 ? 才是非贪婪匹配，这里的正则匹配是贪婪的，也就是最大的匹配情况，一般来说我们选用的是非贪婪 模式。

import re

str = "http://www.bugingcode.com/blog/python_regular_expressions.html"

print re.findall(r"//(.+?)/",str)

匹配的结果为：

['www.bugingcode.com']

提取所有需要的字段

刚才说了一个(.+?) 只能匹配到一个字符串，而我们需要提取三个字段：bugingcode 为域名，blog 为目录名，python_regular_expressions 。

import re

str = "http://www.bugingcode.com/blog/python_regular_expressions.html"

print re.findall(r"www.(.+?).com/(.+?)/(.+?).html", str)

输出如下我们需要的结果：

[('bugingcode', 'blog', 'python_regular_expressions')]

再来一个看看是什么结果：

import re

str = "http://www.bugingcode.com/blog/python_regular_expressions.htmlhttp://www.bugingcode.com/blog/python_regular_expressions.html"

print re.findall(r"www.(.+?).com/(.+?)/(.+?).html", str)

有的时候需要提取的字符串比较复杂是，可以通过不断的进行尝试，先把条件放的比较苛刻，后面在慢慢的放开，找到自己需要的字符串。

转载请标明来之：http://www.bugingcode.com/

更多教程：阿猫学编程

正则提取关键字符-python代码实现的更多相关文章

python中的关键字符
from keyword import kwlistprint(kwlist)for i in kwlist: print(i) 可以显示所有的关键字符,开发者不要重新赋予其他值. a = 10000 ...
python+正则提取+ip代理爬取糗事百科文字信息
很多网站都有反爬措施,最常见的就是封ip,请求次数过多服务器会拒绝连接,如图: 在程序中设置一个代理ip,可有效的解决这种问题,代码如下: # 需要的库 import requests import ...
Python正则提取数据单引号内数据,并判断是否是空列表(是否提取到数据)
#coding=utf- import re string1="asdfgh'355'dfsfas" string2="fafafasfasdfasdf" pa ...
字符编码和Python代码操作文件
字符编码和Python代码操作文件读写模式之a模式 # a模式只追加模式 # 路径不存在:自动创建 with open(r'a.txt','a',encoding='utf8') as f: pa ...
员工管理系统+字符编码+Python代码文件操作
员工管理系统+字符编码+Python代码文件操作 1.员工管理系统 1.1 debug 代码调试 1.先使用鼠标左键在需要调试的代码左边点击一下(会出现一个红点)2.之后右键点击debug运行代码 ...
使用Python提取中文字符
#功能:国际化测试,用于提取应用设计包中的中文字符,并输出report#解压---筛选---整理路径---提取中文---输出报告 ################################### ...
Python 代码实现模糊查询
Python 代码实现模糊查询 1.导语: 模糊匹配可以算是现代编辑器(如 Eclipse 等各种 IDE)的一个必备特性了,它所做的就是根据用户输入的部分内容,猜测用户想要的文件名,并提供一个推荐列 ...
Python代码样例列表
扫描左上角二维码,关注公众账号数字货币量化投资,回复“1279”,获取以下600个Python经典例子源码 ├─algorithm│ Python用户推荐系统曼哈顿算法实现.py│ ...
10 行 Python 代码实现模糊查询/智能提示
10 行 Python 代码实现模糊查询/智能提示 1.导语: 模糊匹配可以算是现代编辑器(如 Eclipse 等各种 IDE)的一个必备特性了,它所做的就是根据用户输入的部分内容,猜测用户想要的 ...

随机推荐

Cannot read property 'XXXX' of null/undifined
这个问题可能的原因有很多 1.如果你的js直接写在自执行函数或者head标签内的script里面,那么可以检查一下你的代码有没有用到页面里的节点,因为这样写的代码在页面加载完成之前就会开始执行,如果有 ...
浙江省赛 ZOJ - 4033
题意: 第一行给出T代表有几个测试样例, 第二行给出n代表有几个人, 第三行给出一个由0和1组成的字符串,0代表女生,1代表男生. 并且第i个人有i个宝石. 现在要把这些人分为四组,G1 G2 两组是 ...
typescript--介绍ts
TypeScript 介绍 TypeScript 是什么 TypeScript 是 JavaScript 的强类型版本.然后在编译期去掉类型和特有语法,生成纯粹的 JavaScript 代码.由于最终 ...
PAT甲级——1035 Password (20分)
To prepare for PAT, the judge sometimes has to generate random passwords for the users. The problem ...
直播弹幕抓取逆向分析流程总结 websocket,flash
前端无秘密直播的逆向抓取说到底是前端的调试和逆向技术,加上部分的dpa(深入包分析,个人能力尚作不到深入,只能作简单分析)难度较低目前互联网直播弹幕主要是两种技术实现. 1websocket消息通 ...
893C. Rumor#谣言传播（赋权无向图&搜索）
题目出处:http://codeforces.com/problemset/problem/893/C 题目大意:一个城中有一些关系圈,圈内会传播谣言,求使每个人都知道谣言的最小花费 #include ...
Monkey安装与配置教程
一.JAVA环境的搭建安装jdk1.8.0_221,完成环境变量的配置然后再在系统变量中找到Path,添加%JAVA_HOME%\bin;,确定后,按win+r打开运行,输入cmd 在cmd窗口中 ...
redis day03
模拟缓存 django-admin startproject rmysite3 创建django项目 python3 manage.py startapp user 创建py应用 33 行 ...
django项目班笔记-模板抽取
目录一.将前端静态文件放置到项目文件目录二.模板设置三.将静态文件拖放到项目对应目录四.检查HTML文件中的应用是否自动更改了 4.1 文件引用没有改变的解决方法 4.2 设置static文件 ...
Maven配置阿里云问题
现在我们经常会与Maven打交道,无论是工作还是自己的练笔,因为它真的是太强大了.它可以帮助我们管理版本,jar包等等. 但是由于国内的环境问题,我们需要有一个仓库,有些公司会自己搭建私服,那对个人来 ...