python爬虫挂代理

以下是GET的方法，使用的代理接口网站是 http://www.xicidaili.com/nn/

#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import requests,chardet,urllib2

ip_list=[]

def get_ip_list(url, headers):

    web_data = requests.get(url, headers=headers)

    soup = BeautifulSoup(web_data.text, 'lxml')

    ips = soup.find_all('tr')

    ip_list = []

    for i in range(1, len(ips)):

        ip_info = ips[i]

        tds = ip_info.find_all('td')

        ip_list.append('http://' + tds[1].text + ':' + tds[2].text)

    return ip_list

def get_random_ip(ip_list):

    proxies = {'http': ip_list[0]}

    return proxies

def getip():

    global ip_list

    url = 'http://www.xicidaili.com/nn/'

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}

    if not ip_list:

        ip_list = get_ip_list(url, headers=headers)

    print ip_list

    proxies = get_random_ip(ip_list)

    return proxies

def deleteip():

    global ip_list

    ip_list.pop(0)

def urllink(link):  # 网页HTML获取以及编码转换

    for i in range(12) :

        try:

            ip = getip()

            print ip

            proxy_support = urllib2.ProxyHandler(ip)

            opener = urllib2.build_opener(proxy_support)

            urllib2.install_opener(opener)

            html_1 = urllib2.urlopen(link, timeout=10).read()

            break

        except Exception,e:

            deleteip()

            print '错误',i,e

            pass

    if i==11:

        return ''

    encoding_dict = chardet.detect(html_1)

    web_encoding = encoding_dict['encoding']

    if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

        html = html_1

    else:

        html = html_1.decode('gbk', 'ignore').encode('utf-8')

    return html

print urllink("http://ccdas.ipmph.com/pc/clinicalExam/getClinicalExamDetail?articleId=8165")

python爬虫挂代理的更多相关文章

Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
设置python爬虫IP代理(urllib/requests模块)
urllib模块设置代理如果我们频繁用一个IP去爬取同一个网站的内容,很可能会被网站封杀IP.其中一种比较常见的方式就是设置代理IP from urllib import request proxy ...
python爬虫redis-ip代理池搭建几十万的ip数据--可以使用
from bs4 import BeautifulSoupimport requests,os,sys,time,random,redisfrom lxml import etreeconn = re ...
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来 ...
Python爬虫代理IP池
目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...
python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）
python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录随机User-Agent 获取代理ip 检测代理ip可用性随机User-Agent fake_usera ...
Python 爬虫入门（二）—— IP代理使用
上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制.比如,IP.JS.验证码等.这节主要讲利用IP代理突破. 1.关于代理简单的说,代理就是换个身份.网络 ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

随机推荐

Idea 全局替换指定字符
最近使用idea开发,刚接触不久,然后碰到需要全局替换的时候,懵逼了.之前使用eclipse 直接Ctrl+F 就可以操作了. 现在使用idea 摁Ctrl+F竟然只能搜,不能替换....尴尬的一匹. ...
IP白名单的实现（PHP）
有些项目可能会用到一个IP地址的白名单黑名单之类的验证. 比如,只有IP地址在白名单中,才可以访问该系统. 那么此时,白名单的维护,一般是一个文件,里边是一些IP地址(每行一个IP),当然也有的可能是 ...
利用jQuery实现用户名片小动画
我爱撸码,撸码使我感到快乐!大家好,我是Counter.下面给大家介绍利用jQuery实现的小动画,非常的简便,如果有原生js操作的话,那么就不止这么多行了.至于CSS,个人觉得,这边CSS布局也蛮重 ...
【C++】10.18日的C++笔记
使用memset初始化一个类会导致类中的指针和虚函数表出现问题.相关链接使用memset(a,1,sizeof(a))初始化a数组不会达到预期的效果,因为memset会把每个字节赋值为1就会变成16 ...
robot framework---时间控件取值
项目中遇到日期控件定位不了,网上各种找,并没有适合我的,目前通过Javascript已解决了,再次做个记录,方便自己日后查找,如有同样问题的同学也可以有个参考! 先说明,不同的定位方式是看开发同学如何 ...
python 警惕 IEEE 754标准
双精度浮点数格式,即IEEE 754标准 >>> 0.1+0.2 0.30000000000000004 >>> (0.1+0.2)==0.3 False > ...
Index.get_indexer 方法的含义
表示,to_match 中的字符,在 unoque_vals 中的位置索引
C# 虹软离线SDK引擎人脸识别
一,背景整体来说虹软的人脸识别SDK还是不错的.我们测试过Face++的,百度的,腾讯的,都是在线联网的,需要把上传数据到它们服务器,不利商业用途:虹软SDK支持离线. 二,下载虹软SDK 1.注册 ...
雷林鹏分享：jQuery EasyUI 数据网格 - 列运算
jQuery EasyUI 数据网格 - 列运算在本教程中,您将学习如何在可编辑的数据网格(datagrid)中包含一个运算的列.一个运算列通常包含一些从一个或多个其他列运算的值. 首先,创建一个可 ...
three.js 第一篇:准备工作
demo展示:https://www.hanjiafushi.com/three/index.html 1:复习向量知识 2:学习矩阵知识 3:推荐先看webGL入门指南,对一些基础性的概念有所了解 ...

python爬虫挂代理

python爬虫挂代理的更多相关文章

随机推荐

热门专题