Python_爬虫_Scrapy设置代理

0、检测IP是否可用

# -*- coding: UTF-8 -*-

from urllib import request

if __name__ == "__main__":

    #访问网址

    #url = 'http://2017.ip138.com/ic.asp'

    url = 'http://www.whatismyip.com.tw'

    #这是代理IP

    proxy = {'https':'218.26.217.77:3128'}

    #创建ProxyHandler

    proxy_support = request.ProxyHandler(proxy)

    #创建Opener

    opener = request.build_opener(proxy_support)

    #添加UserAngent

    opener.addheaders = [

        ('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'),

        ('Host','www.whatismyip.com.tw')

    ]

    #安装OPener

    request.install_opener(opener)

    #使用自己安装好的Opener

    response = request.urlopen(url)

    #读取相应信息并解码

    html = response.read().decode("utf-8")

    #打印信息

    print(html)

检测代理IP是否可用

1、在 middlewares.py 中添加如下代码，找到 IP 后粘贴在对应位置【找不到可以去淘宝买】

# -*- coding: utf-8 -*-

# 导入随机模块

import random

# 导入有关IP池有关的模块

from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware

# 导入有关用户代理有关的模块

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

# IP池

class HTTPPROXY(HttpProxyMiddleware):

    # 初始化 注意一定是 ip=''

    def __init__(self, ip=''):

        self.ip = ip

    def process_request(self, request, spider):

        item = random.choice(IPPOOL)

        try:

            print("当前的IP是："+item["ipaddr"])

            request.meta["proxy"] = "http://"+item["ipaddr"]

        except Exception as e:

            print(e)

            pass

# 设置IP池

IPPOOL = [

    {"ipaddr": "182.117.102.10:8118"},

    {"ipaddr": "121.31.102.215:8123"},

    {"ipaddr": "1222.94.128.49:8118"}

]

# 用户代理

class USERAGENT(UserAgentMiddleware):

    #初始化 注意一定是 user_agent=''

    def __init__(self, user_agent=''):

        self.user_agent = user_agent

    def process_request(self, request, spider):

        item = random.choice(UPPOOL)

        try:

            print("当前的User-Agent是："+item)

            request.headers.setdefault('User-Agent', item)

        except Exception as e:

            print(e)

            pass

# 设置用户代理池

UPPOOL = [

    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

]

2、在 settngs.py 中添加一下代码（注意根据项目名修改指向，如这里的工程名是“demo”）

DOWNLOADER_MIDDLEWARES = {

    # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

    # 'demo3.middlewares.HTTPPROXY' : 125,

    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 2,

    'demo.middlewares.USERAGENT': 1　　#demo是项目名

}

Python_爬虫_Scrapy设置代理的更多相关文章

爬虫平台设置代理ip
首先从国外一个网站爬取了免费的代理ip信息存到mongodb中:接着代码设置: 在爬虫客户端抽象类中添加属性: 设置代理的代码其实就以下几句: firefoxProfile.setPreference ...
nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...
爬虫-设置代理ip
1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
Python爬虫常用小技巧之设置代理IP
设置代理IP的原因我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站.假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问.所以你可以设置一些代理服务器来 ...
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...
urllib，request 设置代理
通常防止爬虫被反主要有以下几个策略: 1.动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 2.使用IP地址池:VPN和代理IP,现在大部分网站都是根据IP来b ...
Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...

随机推荐

xuexi0.2
1.数据结构就是研究数据如何排布和如何加工. 2.数组的目的是为了管理程序中类型相同,意义相关的变量. 3.数组的优势是比较简单,可以通过访问下标来进行随机访问.数组的限制:元素类型必须相同,数组的大 ...
Jmeter创建随机数作为参数使用转
1.选项-函数值手对话框:2.选择适当的函数,比如"__Random()":3.输入参数,比如随机数的最大.最小数:4."Name of variable in whic ...
Python初识和变量基础
Python是面向对象,动态解释型和强类型的语言编译型: 将代码一次性全部编译成二进制,然后再执行优点:执行效率高. 缺点:开发效率低. 代表语言:C 解释型: 逐行解释成二进制,逐行运行优点: ...
vue学习大纲
第一单元 vue基础第二单元 VueU学习
git常见操作和指令
1.指令集 1.1 本地与远程操作创建文件 echo > README.md(文件名) 创建文件时输入信息 echo "(message)" >> README ...
oblivious polynomial evaluation
Oblivious polynomial evaluation is a protocol involving two parties, a sender whose input is a polyn ...
使用Socket通信(一)
使用socket需要一个服务器,我用的是tomcat,好像AS不支持Tomcat了,还有什么好的服务器求推荐,使用Tomcat去官网下载,然后还要安装Java的jdk,然后配置jak环境变量,然后配置 ...
Mybatis初学经验----------------（2）
至于myBatis的配置,上篇文章中有,就不说了.今天谈谈myBatis编写Dao层时的用法. 传统Dao层代码需求 1.在Dao层实现类中,存在大量的模板方法,能否提取模板方法,减少我们的工作量. ...
关于查看本机ssh公钥以及生成公钥
1.查看本机公钥: 打开git bush,执行 cd ~/.ssh 进入.ssh文件夹(C:\Users\Administrator\.ssh) 执行 ls 命令,查看列表执行 cat id ...
Linux 系统编程学习：07-基于socket的网络编程2：基于 UDP 的通信
Linux 系统编程学习:07-基于socket的网络编程2:基于 UDP 的通信背景上一讲我们介绍了网络编程的一些概念.socket的网络编程的有关概念这一讲我们来看UDP 通信. 知识 U ...

Python_爬虫_Scrapy设置代理

Python_爬虫_Scrapy设置代理的更多相关文章

随机推荐

热门专题