urllib练习

# coding = utf-8

"""

解析https://www.kuaidaili.com/free/网站里的代理地址，

并测试是否可用

"""

import re

import time

import urllib.request

def downHtml(url, retry=3):

    """

    请求网页地址并下载源代码，如果请求失败，重试三次

    :param url: 请求地址

    :param retry: 重试次数

    :return: 网页源码

    """

    try:

        request = urllib.request.Request(url)

        # 获取网页源码

        html = urllib.request.urlopen(request).read().decode()

    except urllib.error.URLError as e:

        print('请求异常：', e.reason)

        if retry > 0:

            time.sleep(2)  # 两秒后重试

            downHtml(url, retry=retry-1)

        else:

            return None

    else:

        return html

def getProxy(html):

    """

    使用正则表达式，从源码中匹配出所有的代理

    :param html: 网页源码

    :return: 列表，包含匹配的代理

    """

    proxies = re.findall(r'<td data-title="IP">(.*?)</td>.*?<td data-title="PORT">(.*?)</td>', html, re.S)

    return proxies

def isAbleToUse(ips):

    """

    利用ip测试网站，判断获取的代理是否可用

    :param ips: 匹配到的代理ip

    :return:

    """

    # 测试网站

    url = "http://httpbin.org/ip"

    # 构造代理

    proxy = {'http': '{}:{}'.format(ips[0], ips[1]), 'https': '{}:{}'.format(ips[0], ips[1])}

    # 创建代理处理器

    proxies = urllib.request.ProxyHandler(proxy)

    # 创建opener处理对象

    opener = urllib.request.build_opener(proxies, urllib.request.HTTPHandler)

    urllib.request.install_opener(opener)

    try:

        data = opener.open(url).read().decode()  # 请求

        print(data)

    except Exception as e:

        print(e)

    else:

        print('{}：{}'.format(ips[0], ips[1]), '可用！')

if __name__ == '__main__':

    url = "https://www.kuaidaili.com/free/"

    # 获取源码

    html = downHtml(url)

    # 从源码中解析代理

    proxies = getProxy(html)

    # 测试代理是否可用

    for proxy in proxies:

        isAbleToUse(proxy)

urllib练习的更多相关文章

python urllib
在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,d ...
Python3使用urllib访问网页
介绍改教程翻译自python官网的一篇文档. urllib.request是一个用于访问URL(统一资源定位符)的Python模块.它以urlopen函数的形式提供了一个非常简单的接口,可以访问使用 ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
python 3.x urllib学习
urllib.request import urllib.request as ur url='http://ie.icoa.cn' user_agent = 'Mozilla/4.0 (compat ...
Python爬虫学习（1）： urllib的使用
1.urllib.urlopen 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作 In [1]: import urllibIn [2]: file = urllib.urlo ...
python2 与 python3 urllib的互相对应关系
urllib Python2 name Python3 nameurllib.urlopen() Deprecated. See urllib.request.urlopen() which mirr ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
初学python之urllib
urllib.request urlopen()urllib.urlopen(url, data, proxies) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远 ...
urllib.urlretrieve的用法
urllib.urlretrieve(url, local, cbk) urllib.urlretrieve(p,'photo/%s.jpg'%p.split('/')[-4]) url要下载的网站 ...
关于python3.X 报"import urllib.request ImportError: No module named request"错误,解决办法
#encoding:UTF-8 import urllib.request url = "http://www.baidu.com" data = urllib.request.u ...

随机推荐

NetworkManager网络通讯_networkReader/Writer（六）
unet客户端和服务端进行消息发送时可以采用上一节中方法,也可以直接用networkReader/Writer类进行发送 (一)服务端/客户端注册消息 ; m_Server.RegisterHandl ...
如何学好javascript
今天逛论坛时看到有朋友问,是否有专门教Javascript的学校,这里想想把自己的一点建议和自己3年来的前端Javascript开发的经验跟大家分享下,也给出几本个人认为不错的书来做为大家学习的参考资 ...
如何用好redis pipeline
编者注:pipeline是Redis的一个提高吞吐量的机制,适用于多key读写场景,比如同时读取多个key的value,或者更新多个key的value.工作过程中发现挺多小伙伴都对pipeline多少 ...
Python+requests+unittest+excel实现接口自动化测试框架(转
一.框架结构:工程目录二.Case文件设计三.基础包 base 3.1 封装get/post请求(runmethon.py) import requests import json class Ru ...
Java 基本数据类型的取值范围
基本数据类型,字节数,位数,最大值和最小值. 1. 基本类型:short 二进制位数:16 包装类:java.lang.Short 最小值:Short.MIN_VALUE=-32768 (-2的15此 ...
在windows主机中，利用XSHELL生成“密钥”进行虚拟机与物理机的传输
首先你要有虚拟机,其次你要可以互相ping通(主机与虚拟机) 接着你要有xshell 软件没有的话可以点击链接下载 Xshell 6 提取码:cj5t 打开Xshell软件在工具栏中选择“ ...
解决MacOs 下的 matplotlib 中文字体乱码
在使用 matplotlib 时候,如果表中有中文字体,那么可能会出现无法显示的情况,原因是因为缺少中文字体,可以使用以下步骤解决. 查看 matplotlib 的位置 matplotlib.matp ...
Python3 下的输出字符控制
最近在使用 python3 进行爬虫的时候,出现了令人窒息的,只会在 python2 中遇到的,没想到在 python3 还能碰见的输出编码问题,报错如下: UnicodeEncodeError: ' ...
Linux下修改文件权限,所有权
Linux与Unix是多用户操作系统,所以文件的权限与所有权的实现就显得很有必要:每个文件主要与三组权限打交道,分别是用户(user),用户组(group),其他用户(other) 用户(u)是文件的 ...
Blue：贪心，单调队列
考场上什么都没想. 显然在扯淡了,应该说是刚开始想了一些没用的. 有决策单调性,所以二分答案? 好,那就二分答案.想想怎么检查每只蛤能不能都跳到终点? 那么每只蛤都不能掉队啊. 如果你现在遇到了一个石 ...

urllib练习

urllib练习的更多相关文章

随机推荐

热门专题