python爬虫（5）——正则表达式（二）

　　　　前一篇文章，我们使用re模块来匹配了一个长的字符串其中的部分内容。下面我们接着来作匹配“1305101765@qq.com advantage 314159265358 1892673 3.14 little Girl try_your_best 56 123456789@163.com python3”

　　　　我们的目标是匹配‘56’，其中\d表示匹配数字，{2}表示匹配次数为两次，{M,N}，M,N均为非负整数，M<=N，表示匹配M-N次。在匹配规则前面加个r的意思是表示原生字符串。

　　　　实际上我们在使用正则表达式的时候，通常先将其编译成pattern对象，使用re.compile（）方法来进行编译。下面我们来匹配IP地址如：192.168.1.1。

 import re

 str='192.168.1.1'

 re.search(r'(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])',str)

　　　　可以看出来，正则使用起来并不简单。在上面的规则中，我们是用了三个子组，如果我们在网页上用findall匹配所有IP，它会把结果给分类了，变成（‘192’，‘168’，‘1’，‘1’）。显然这不是我们想要的。这时候，我们需要用（？：...）来表示非捕获组，即该子组匹配的字符串无法从后面获取。

　　　　有了之前的基础，我尝试着写下了如下的代码，从西刺代理网站上爬取IP地址，并用代理访问网站验证其是否可用。当中用到了python的异常处理机制。虽然代码不成熟，但还是分享出来，慢慢改进。

 import urllib.request

 import re

 url="http://www.xicidaili.com/"

 useful_ip=[]

 def loadPage(url):

     headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

     response=urllib.request.Request(url,headers=headers)

     html=urllib.request.urlopen(response).read().decode("utf-8")

     return html

 def getProxy():

     html=loadPage(url)

     pattern=re.compile(r'(<td>\d+</td>)')

     duankou=pattern.findall(html)

     pattern=re.compile(r'(?:(?:[01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}(?:[01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])')

     content_list=pattern.findall(html)

     list_num=[]

     for num in duankou:

         list_num.append(num[4:-5])

     for i in range(len(list_num)):

         ip=content_list[i]+ ":"+list_num[i]

         while True:

             proxy_support=urllib.request.ProxyHandler({'http':ip})

             opener=urllib.request.build_opener(proxy_support)

             opener.add_handler=[("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36")]

             urllib.request.install_opener(opener)

             try:

                 print("正在尝试使用 %s 访问..." % ip)

                 ip_filter="http://www.whatsmyip.org/"

                 ip_response=urllib.request.urlopen(ip_filter)

             except urllib.error.URLError:

                 print("访问出错，这个IP不能用啦")

                 break

             else:

                 print("访问成功！")

                 print("可用IP为： %s " % ip)

                 useful_ip.append(ip)

                 if input("继续爬取？")=="N":

                     print("有效IP如下：")

                     for key in useful_ip:

                         print(key)

                         exit()

                 else:

                     break

 if __name__=="__main__":

     getProxy()

　　　　在处理IP地址对应的端口号时，我用的一个非常笨的方法。实际上有更好的办法解决，大家也可以想一想。在上面这段代码中，使用urllib访问网站、Handler处理器自定义opener、python异常处理、正则匹配ip等一系列的知识点。任何知识，用多了才会熟练。

　　　　可以看到它运行成功，并且找到一个可用IP后会问你是否继续爬取。当然，我们可以手动构建一个IPPOOL即IP池，自定义一个函数，把可以用的IP写入一个文件保存起来，这里就不作赘述了。在github上有成熟的ip池代码，大家可以下载下来阅读，这里只是把前面讲的一些用法做一个简单的试验，因此并没有把这段代码完善。

python爬虫（5）——正则表达式（二）的更多相关文章

Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
玩转python爬虫之正则表达式
玩转python爬虫之正则表达式这篇文章主要介绍了python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴们可以 ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
Python 爬虫实战（二）：使用 requests-html
Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requ ...
python 爬虫之-- 正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. 正则表达式非python独有,python 提供了正则表达式的接口,re模块一.正则匹配字符简介模式描述 \d ...
Python 爬虫入门（二）—— IP代理使用
上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制.比如,IP.JS.验证码等.这节主要讲利用IP代理突破. 1.关于代理简单的说,代理就是换个身份.网络 ...
Python爬虫小白---（二）爬虫基础--Selenium PhantomJS
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
python爬虫入门（二）Opener和Requests
Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener( ...

随机推荐

FTP下载导致Zip解压失败的原因
情形:网关通过FTP下载快钱对账文件时通过Apache下commons-net的commons-net-3.5.jar进行封装,对账文件中有中文和英文的文字,大部分情况下能够下载成功,而且也能解压成功 ...
linux安装navicat全程记录
国庆期间自己在试着用linux(ubuntu),献上navicat安装方法,以及很多教程里没有写的一些小东西 step1: 去navicat官网下载安装包,网址:http://www.navicat. ...
zookeeper命令行操作
创建 #[-s] 顺序 #[-e] 临时节点 #path 节点 #data 该节点存储的数据 #acl 证书 create [-s] [-e] path data acl -s或-e指定节点特性:顺序 ...
分布式文件系统FastDFS动态扩容
当用户量越来越大,则集群中某个group总会到达其极限,这时就得扩展集群的容量了. FastDFS的扩容分为对group纵向扩容和横向扩容纵向扩容指在同一个group组中增加服务器,实现数据冗余, ...
织梦DedeCMS v5.7 实现导航条下拉菜单
首先将下面这段代码贴到templets\default\footer.htm文件里(只要在此文件里就行,位置无所谓) <</span>script type='text/javasc ...
mysql alter总结
mysql alter总结(转载) 1:删除列 ALTER TABLE [表名字] DROP [列名称] 2:增加列 ALTER TABLE [表名字] ADD [列名称] INT NOT NULL ...
更改sql多条数据，更新替换字符串中固定的字符串
需求产生的背景: 数据库里建库时插入了字典数据,可是这个字典数据,有一些是不准确的,所以就需要把一些固定的数据查出来替换掉. 问题解决逻辑: 大体逻辑是,首先把固定需要替换的字符串提取出来,赋值给变量 ...
IOS 设置文件是否使用ARC
全项目设置:Building Settings修改Objective-C Automatic Reference Counting设置是否使用单文件设置:Build Phases-Compile S ...
使用BIOS进行键盘输入和磁盘读写
body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...
【转】WPF 从FlowDocument中找到Hyperlink
原文地址:How can I get a FlowDocument Hyperlink to launch browser and go to URL in a WPF app? #region Ac ...

python爬虫（5）——正则表达式（二）

python爬虫（5）——正则表达式（二）的更多相关文章

随机推荐

热门专题