Scrapy中间件user-agent和ip代理使用

一、定义实现随机User-Agent的下载中间件

1.在middlewares.py中完善代码

 import random

 from Tencent.settings import USER_AGENTS_LIST # 注意导入路径,请忽视pycharm的错误提示

 class UserAgentMiddleware(object):

     def process_request(self, request, spider):

         user_agent = random.choice(USER_AGENTS_LIST)

         request.headers['User-Agent'] = user_agent

         # 不写return

 class CheckUA:

     def process_response(self,request,response,spider):

         print(request.headers['User-Agent'])

         return response # 不能少！

2.在settings中设置开启自定义的下载中间件，设置方法同管道

 DOWNLOADER_MIDDLEWARES = {

    'Tencent.middlewares.UserAgentMiddleware': 543, # 543是权重值

    'Tencent.middlewares.CheckUA': 600, # 先执行543权重的中间件，再执行600的中间件

 }

3.在settings中添加UA的列表

 USER_AGENTS_LIST = [

     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

     "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",

     "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",

     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",

     "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"

 ]

二、代理ip的使用

1.在middlewares.py中完善代码

 class RandomProxy(object):

     def process_request(self, request, spider):

         proxy = random.choice(PROXY_LIST)

         print(proxy)

         if 'user_passwd' in proxy:

             # 对账号密码进行编码，基础认证,python3中需要是bytes类型的数据才能编码

             b64_up = base64.b64encode(proxy['user_passwd'].encode())

             # 进行代理认证

             request.headers['Proxy-Authorization'] = 'Basic ' + b64_up.decode()

             # 设置代理

             request.meta['proxy'] = proxy['ip_port']

         else:

             #设置代理

             request.meta['proxy'] = proxy['ip_port']

2.检测代理ip是否可用

在使用了代理ip的情况下可以在下载中间件的process_response()方法中处理代理ip的使用情况，如果该代理ip不能使用可以替换其他代理ip

 class ProxyMiddleware(object):

     ......

     def process_response(self, request, response, spider):

         if response.status != '':

             request.dont_filter = True # 重新发送的请求对象能够再次进入队列

             return requst

3.在settings中添加代理ip的列表

 PROXY_LIST = [

     {"ip_port": "139.199.121.163:16818", "user_passwd": "user:password"},#收费代理

     # {"ip_port": "114.234.81.72:9000"} # 免费代理

 ]

三. 在中间件中使用selenium

以github登陆为例

1. 完成爬虫代码

 import scrapy

 class Login4Spider(scrapy.Spider):

     name = 'login4'

     allowed_domains = ['github.com']

     start_urls = ['https://github.com/returnes'] # 直接对验证的url发送请求

     def parse(self, response):

         with open('check.html', 'w') as f:

             f.write(response.body.decode())

2.在middlewares.py中使用selenium获取cookie信息

 import time

 from selenium import webdriver

 def getCookies():

     # 使用selenium模拟登陆，获取并返回cookie

     username = input('输入github账号:')

     password = input('输入github密码:')

     options = webdriver.ChromeOptions()

     options.add_argument('--headless')

     options.add_argument('--disable-gpu')

     driver = webdriver.Chrome('/home/worker/Desktop/driver/chromedriver',

                               chrome_options=options)

     driver.get('https://github.com/login')

     time.sleep(1)

     driver.find_element_by_xpath('//*[@id="login_field"]').send_keys(username)

     time.sleep(1)

     driver.find_element_by_xpath('//*[@id="password"]').send_keys(password)

     time.sleep(1)

     driver.find_element_by_xpath('//*[@id="login"]/form/div[3]/input[3]').click()

     time.sleep(2)

     cookies_dict = {cookie['name']: cookie['value'] for cookie in driver.get_cookies()}

     driver.quit()

     return cookies_dict

 class LoginDownloaderMiddleware(object):

     def process_request(self, request, spider):

         cookies_dict = getCookies()

         print(cookies_dict)

         request.cookies = cookies_dict # 对请求对象的cookies属性进行替换

3.在middlewares.py中使用selenium获取指定页面渲染后的html源码

 class SelMiddleWare(object):

     def process_request(self, request, spider):

         url = request.url

         # 过滤需要渲染的请求对象

         if 'daydata' in url:

             driver = webdriver.Chrome()

             driver.get(url)

             time.sleep(3)

             data = driver.page_source

             driver.close()

             res = HtmlResponse(

                 url=url,

                 body=data,

                 encoding='utf-8',

                 request=request

             )

             return res

Scrapy中间件user-agent和ip代理使用的更多相关文章

scrapy实战9动态设置ip代理从数据库中随机获取一个可用的ip：
在目录下创建tools(python package) 在tools中创建crawl_xici_ip.py文件写入代码如下: #coding=utf-8 import requests from sc ...
Scrapy加Redis加IP代理池实现音乐爬虫
音乐爬虫关注公众号"轻松学编程"了解更多. 目的:爬取歌名,歌手,歌词,歌曲url. 一.创建爬虫项目创建一个文件夹,进入文件夹,打开cmd窗口,输入: scrapy star ...
写一个scrapy中间件--ip代理池
middleware文件 # -*- coding: utf-8 -*- # Define here the models for your spider middleware # See docum ...
下载中间件--随机IP代理以及随机User_Agent
下载中间件随机IP代理以及随机User_Agent 1.在settings.py中设置开启代理功能 # 设置下载中间件 DOWNLOADER_MIDDLEWARES = { # 随机的 User-Ag ...
Scrapy学习篇（十二）之设置随机IP代理（IPProxy）
当我们需要大量的爬取网站信息时,除了切换User-Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy. 设置随机IPPr ...
scrapy中使用 IP 代理
在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 , } 然后编写中间件,拦截请求设置代理 class ProxyMid ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...
Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换
设置IP代理池及IP变换方案方案一: 使用国内免费的IP代理 http://www.xicidaili.com # 创建一个tools文件夹,新建一个py文件,用于获取代理IP和PORT from ...
scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
scrapy中间件之下载中间件使用（网易新闻爬取）
scrapy项目中的middlewarse.py中间件爬虫中间件:目前先不介绍下载中间件(需要在settings.py中开启) (1)请求处理函数:process_request(self, re ...

随机推荐

（转）AutoML for Data Augmentation
AutoML for Data Augmentation 2019-04-01 09:26:19 This blog is copied from: https://blog.insightdatas ...
Vue-admin工作整理（八）： BUS | | 组件通信
一.父子组件之间通信思路:定义一个个人组件,个人组件通常需要在前缀统一命名一下,如:AInput,该组件的作用是将编辑框中的内容获取并通过事件提交出去,然后在目标组件(store)中通过双向交互模式 ...
Codeforces 396 E. Valera and Queries
题目链接:http://codeforces.com/problemset/problem/369/E 考虑将问题转化为有多少条线段没有覆盖这些点,如果一个询问的点集是${[x1,x2,...,xn] ...
leecode第二百九十二题（Nim游戏）
class Solution { public: bool canWinNim(int n) { )==)//用与的时候,要注意优先级问题 //用n%4==0的时候,其耗时比用&短,但是空间消 ...
[转]C# winform与Javascript的相互调用
C# winform与Javascript的相互调用 <html> <head> <meta http-equiv="Content-Language" ...
extract method
函数简短,命名良好函数名描述的是做什么而不是怎么做行数过高的代码中将一大段做一个事的代码提取到独立的method 中高层函数直接引用. 创建新函数将提炼的代码平移到目标函数中检查是否引 ...
软件安装(ubuntu) --Linux基础编程
Ubuntu:一个以桌面应用为主的开源GNU/Linux操作系统 1.在线安装(Ubuntu Example) [安装]:sudo apt-get install 安装包的名字,或者:sudo apt ...
蓝鲸DevOps深度解析系列（2）：蓝盾流水线初体验
关注嘉为科技,获取运维新知前面一篇文章<蓝鲸DevOps深度解析系列(1):蓝盾平台总览>,我们总览了蓝鲸DevOps平台的背景.应用场景.特点和能力: 接下来我们继续解析蓝盾平台的 ...
oracle drop 表后恢复
1.查看回收站中表 select object_name,original_name,partition_name,type,ts_name,createtime,droptime from recy ...
iOS调试踩过的坑以及instruments使用指南
1. 低版本的XCode工程中包含的lib,在高版本的XCode中会编译错误,提示找不到库,故需要恢复libC++库到原位置上,参考 https://github.com/devdawei/libst ...

Scrapy中间件user-agent和ip代理使用

一、定义实现随机User-Agent的下载中间件

1.在middlewares.py中完善代码

2.在settings中设置开启自定义的下载中间件，设置方法同管道

3.在settings中添加UA的列表

二、代理ip的使用

1.在middlewares.py中完善代码

2.检测代理ip是否可用

3.在settings中添加代理ip的列表

三. 在中间件中使用selenium

1. 完成爬虫代码

2.在middlewares.py中使用selenium获取cookie信息

3.在middlewares.py中使用selenium获取指定页面渲染后的html源码

Scrapy中间件user-agent和ip代理使用的更多相关文章

随机推荐

热门专题