关于Re模块的一些基础知识（另附一段批量抓代理ip的代码）

1.常用匹配规则

. 表示任意字符
[0-9] 用来匹配一个指定的字符类别
[^5]表示除了5之外的其他字符,^不在字符串的开头，则表示它本身。
* 对于前一个字符重复0到无穷次
+ 对于前一个字符重复1到无穷次
？对于前一个字符重复0到1次
{m,n} 对于前一个字符重复次数在为m到n次，其中，{0,} = *,{1,} = , {0,1} = ?
{m} 对于前一个字符重复m次
| 表示"或"
python默认开启了贪婪模式的，.+?，.*?，?? #其中?表示开启非贪婪模式，也就是说只匹配一次

\d 匹配任何十进制数；它相当于类 [0-9]
\D 匹配任何非数字字符；它相当于类 [^0-9]
\s 匹配任何空白字符；它相当于类 [ fv]
\S 匹配任何非空白字符；它相当于类 [^ fv]
\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]
\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]

2.re模块常用方法

re.match(pattern, string, flags=0) match只有当且仅当被匹配的字符串开头就能匹配

re.search(pattern, string, flags=0) 任意位置匹配，返回_sre.SRE_Match对象

re.compile(pattern, flags=0)         编译正则表达式
   prog = re.compile(pattern)
   result = prog.match(string)
   等价于
   result = re.match(pattern, string)

re.split(pattern, string, maxsplit=0) 通过正则表达式将字符串分离
>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']

re.findall(pattern, string, flags=0) 找到 RE 匹配的所有子串，并把它们作为一个列表返回

re.finditer(pattern, string, flags=0) 找到 RE 匹配的所有子串，并把它们作为一个迭代器返回。

re.sub(pattern, repl, string, count=0, flags=0) 找到 RE 匹配的所有子串，并将其用一个不同的字符串替换。

re.subn(pattern, repl, string, count=0, flags=0) 与re.sub方法作用一样，但返回的是包含新字符串和替换执行次数的两元组。

re.escape(string)对字符串中的非字母数字进行转义

re.purge() 清空缓存中的正则表达式

3.正则表达式对象
re.RegexObject
re.compile()返回RegexObject对象

re.MatchObject
group()返回被 RE 匹配的字符串
start()返回匹配开始的位置
end()返回匹配结束的位置
span()返回一个元组包含匹配 (开始,结束) 的位置

>>> import re
>>> a = re.search('a','abc')
>>> a.group()
'a'
>>> b = re.findall('b','abc')
>>> b
['b']

抓代理ip的代码区

import urllib

import urllib2

import re

def url_open(url):

	req = urllib2.Request(url)

	req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0')

	response = urllib2.urlopen(req)

	html = response.readline()

	save_ip_list = []

	while html:

		ip = re.search(r'(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])',html)

		if ip:

			now_ip = ip.group()

			p = re.findall(r'<td>(.+?)</td>',response.readline())

			for port in p:

				list = str(now_ip)+":"+str(port)

				print list

				save_ip_list.append(list)

		html = response.readline()

	return save_ip_list

def save_ip():

	url = "http://www.xicidaili.com/nt/2"

	save_ip_list = url_open(url)

	f = open('test.txt','w')

	for i in save_ip_list:

		f.write(i+'\n')

	f.close

if __name__ == '__main__':

	save_ip()

关于Re模块的一些基础知识（另附一段批量抓代理ip的代码）的更多相关文章

VIM基础知识整理(附思维导图)
这是当时初学VIM后做的一个思维导图,图片稍大,所以从freemind导出了html文本po在下面:图片在最下方,放大可清晰浏览. VIM 普通模式普通编辑命令功能:浏览,普通编辑 x:删除光标所 ...
python基础学习1-网络爬虫程序中的代理IP设置
#!/usr/bin/env python # -*- coding:utf-8 -*-网络爬虫代理 import urllib.request import random url="htt ...
Python基础知识详解从入门到精通（七）类与对象
本篇主要是介绍python,内容可先看目录其他基础知识详解,欢迎查看本人的其他文章Python基础知识详解从入门到精通(一)介绍Python基础知识详解从入门到精通(二)基础Python基础知识详 ...
基础知识javascript--事件
群里有一个小伙伴在处理事件监听函数的时候,遇到了一点问题,正好我比较空闲,于是帮他指出了代码中的问题,顺便整理一下,方便以后遇到类似问题的伙伴们有一个参考. 这是一个很简单的问题,对于基础知识比较杂实 ...
C#网络编程基础知识
C#网络编程基础知识一 1.IPAddress类用于表示一个IP地址.IPAddress默认构造函数 public IPAddress(long address);一般不用其中Parse()方法最 ...
Linux运维笔记（一）网络基础知识
网络基础知识一.基本概念 1.ARPANET & TCP/IP:以“软件”技术将网络硬件整合,使得不同的计算机或者数据可以通过这个软件达成数据沟通(TCP/IP技术也被称为Internet) ...
Java网络编程一：基础知识详解
网络基础知识 1.OSI分层模型和TCP/IP分层模型的对应关系这里对于7层模型不展开来讲,只选择跟这次系列主题相关的知识点介绍. 2.七层模型与协议的对应关系网络层 ------------ ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
ansible学习基础知识和模块（一）
基础知识补充: 常用自动化运维工具 Ansible:使用python来开发的,无需设置Agentless(代理),一般管理几百台.与ssh的方式也不一样,ssh是基于c/s模式(客户端+服务器)来使用 ...

随机推荐

3dContactPointAnnotationTool开发日志（三二）
今天就是看怎么把论文的python源码预测出来的smpl模型的姿势和形状参数弄到unity版本的smpl里,但是python版本的和unity版本的不一样. 先看看他的fit_3d.py: ...
alpha发布评论
飞天小女警我们自己的礼物挑选工具完整度不高,页面简陋,还有很多需要完善和改进的地方,空间比较大,但是本身能力太不足. 个人比较喜欢奋斗吧兄弟做的食物链系统.感觉是可以拿来用的工具吧. 天天向上的游戏连 ...
【beta】Scrum站立会议第6次....11.8
小组名称:nice! 组长:李权成员:于淼刘芳芳韩媛媛宫丽君项目内容:约跑app(约吧) 时间:2016.11.8 12:00——12:30 地点:传媒西楼220室本次对beta阶段 ...
第124天：移动web端-Bootstrap轮播图插件使用
Bootstrap JS插件使用 > 对于Bootstrap的JS插件,我们只需要将文档实例中的代码粘到我们自己的代码中> 然后作出相应的样式调整 Bootstrap中轮播图插件叫作Car ...
【JQuery】使用JQuery 合并两个 json 对象
一,保存object1和2合并后产生新对象,若2中有与1相同的key,默认2将会覆盖1的值 1 var object = $.extend({}, object1, object2); 二,将2的值合 ...
Idea报错Command line is too long
需要在该项目文件夹下.idea/workspace.xml中添加 <component name="PropertiesComponent"> ... <prop ...
BZOJ4916 神犇和蒟蒻（欧拉函数+杜教筛）
第一问是来搞笑的.由欧拉函数的计算公式容易发现φ(i2)=iφ(i).那么可以发现φ(n2)*id(n)(此处为卷积)=Σd*φ(d)*(n/d)=nΣφ(d)=n2 .这样就有了杜教筛所要求的容易算 ...
C++中关于new及动态内存分配的思考
如何实现一个malloc? malloc_tutorial.pdf ———————————————————————————————————— 我们知道,使用malloc/calloc等分配内存的函数时 ...
【刷题】HDU 6184 Counting Stars
Problem Description Little A is an astronomy lover, and he has found that the sky was so beautiful! ...
连接Mysql数据库
JDBC连接数据库创建一个以JDBC连接数据库的程序,包含7个步骤: 1.加载JDBC驱动程序: 在连接数据库之前,首先要加载想要连接的数据库的驱动到JVM(Java虚拟机), 这通过java.la ...

关于Re模块的一些基础知识（另附一段批量抓代理ip的代码）

关于Re模块的一些基础知识（另附一段批量抓代理ip的代码）的更多相关文章

随机推荐

热门专题