Python3爬虫（十五）代理

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、设置代理

1.urllib

#HTTP代理类型

from urllib.error import URLError

from urllib.requests import ProxyHandler,build_opener

proxy='127.0.0.1:9743'

# proxy='username:password@127.0.0.1:9743'  用户名密码放在开头

proxy_handler=ProxyHandler({

	'http':'http://'+proxy,

	'https':'https://'+proxy

})

opener=build_opener(proxy_handler)

try:

    res = opener.open('http://httpbin.org/get')

	print(res.read().decode('uft-8'))

except URLError as e:

	print(e.reason)

#SOCK5代理类型

import socks	# pip3 install PySocks

import socket

from urllib import request

from urllib.error import URLError

socks.set_default_proxy(socks.SOCKS5,'127.0.0.1',9742)

socket.socket=socks.socksocket

try:

    res = request.urlopen('http://httpbin.org/get')

	print(res.read().decode('utf-8'))

except URLError as e:

	print(e.reason)

2.requests
比urllib简单

# HTTP代理类型

improt requests

proxy='127.0.0.1:9743'

proxies = {

	'http':'http://'+proxy,

	'https':'https://'+proxy,

}

try:

    res = requests.get('http://httpbin.org/get',proxies=proxies)

	print(res.text)

except requests.exceptions.ConnectionError as e:

    print('Error',e.args)

# SOCK5代理类型(1)

import requests    # pip3 install 'requests[socks]'

proxy='127.0.0.1:9742'

proxies={

	'http':'socks5://'+proxy,

	'https':'socks5://'+proxy,

}

try:

    res = requests.get('http://httpbin.org/get',proxies=proxies)

	print(res.text)

except requests.exceptions.ConnectionError as e:

    print('Error',e.args)

# SOCK5代理类型(2)

import requests,socks,socket

socks.set_default_proxy(socks.SOCKS5,'127.0.0.1',9742)

socket.socket=socks.socksocket

try:

    res = requests.get('http://httpbin.org/get',proxies=proxies)

	print(res.text)

except requests.exceptions.ConnectionError as e:

    print('Error',e.args)

3.Selenium
设置浏览器代理

from selenium import webdriver

proxy='127.0.0.1:9743'

chrome_options=webdriver.ChromeOptions()	# 使用此方法传参数

chrome_options.add_argument('--proxy-server=http://'+proxy)

browser=webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://httpbin.org/get')

设置认证代理

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

import zipfile

ip='127.0.0.1'

port=9743

username='test'

password='test'

manifest_json="""

{

	"version":"1.0.0",

	"manifest_version":2,

	"name":"Chrome Proxy",

	"permissions":[

	"proxy",

	"tabs",

	"unlimitedStorage",

	"storage",

	"<all_urls>",

	"webRequest",

	"webRequestBlocking"

	],

	"background":{"scripts":["background.js"]}

}

"""

background_js="""

var config={

	mode:"fixed_servers",

	rules:{

		singleProxy:{

			scheme:"http",

			host:"%(ip)s",

			port:"%(port)s"

		}

	}

}

chrome.proxy.settings.set({value:config,scope:"regular"},function(){});

function callbackFn(details){

	return{

		authCredentials:{

			username:"%(username)s",

			password:"%(password)s"

		}

	}

}

chrome.webRequest.onAuthRequired.addListener(

	callbackFn,

	{urls:["<all_urls>"]},

	['blocking']

)

"""%{'ip':ip,'port':port,'username':username,'port':port}

plugin_file='proxy_auth_plugin.zip'

with zipfile.ZipFile(plugin_file,'w') as zp:

    zp.writestr("manifest_json",manifest_json)

	zp.writestr("background.js",background_js)

chrome_options=Options()

chrome_options.add_argument('--start-maximized')

chrome_options.add_extension(plugin_file)

browser=webdriver.Chrome(chrome_options=chrome_options)

browser.get('http://httpbin.org/get')

二、代理池维护
单一代理并不能完成我们的代理任务，所以需要更多数量的代理为我们服务。
我们将对代理进行筛选，并高效的为我们提供服务。
1.准备
需要使用redis数据库，aiohttp、requests、redis-py、pyquery、flask库
2.代理池的目标：存储模块、获取模块、检测模块、接口模块
3.各模块的实现：

https://github.com/Infi-chu/proxypool

三、利用代理爬取微信文章

https://github.com/Infi-chu/weixinspider

Python3爬虫（十五）代理的更多相关文章

爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python爬虫(十五)_案例：使用bs4的爬虫
本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南案例:使用BeautifulSoup的爬虫我们已腾讯社招页面来做演示:http://hr.ten ...
【Python3 爬虫】12_代理IP的使用
我们在爬取页面的时候,如果长时间使用一个网址去爬取某个网站,就会受爬去限制,此时,我们引用了代理IP,IP随时在变化,也就不会被限制了一下是国内提供免费代理IP的地址:http://www.xici ...
python3笔记十五：python函数
一:学习内容函数概述函数的参数与返回值参数值传递和引用传递关键字参数默认参数不定长参数二:函数概述 1.本质:函数就是对功能的封装 2.优点: 简化代码结构,增加了代码的复用度(重复使用 ...
python3 第十五章 - 数据类型之Sets（集合）
python的官网里对集合的描述是: Python also includes a data type for sets. A set is an unordered collection with ...
python3 第二十五章 - comprehensions（推导式）
推导式(又称解析式),是Python的一种独有特性.推导式是可以从一个数据序列构建另一个新的数据序列的结构体. 共有三种推导,在Python2和3中都有支持: 列表(list)推导式字典(dict) ...
Python3爬虫（五）解析库的使用之XPath
Infi-chu: http://www.cnblogs.com/Infi-chu/ XPath: 全称是 XML Path Language,XML路径语言,它是一门在XML文档中和HTML文档中查 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
WCF技术剖析之十五：数据契约代理（DataContractSurrogate）在序列化中的作用
原文:WCF技术剖析之十五:数据契约代理(DataContractSurrogate)在序列化中的作用 [爱心链接:拯救一个25岁身患急性白血病的女孩[内有苏州电视台经济频道<天天山海经> ...

随机推荐

Linux中redis的安装与配置
redis官网地址:http://www.redis.io/ redis安装在Linux下安装Redis非常简单,这里以2.8.3版本为例,具体步骤如下: 1.下载源码,解压缩后编译源码. $ mk ...
JS获取URL中参数值的4种方法
方法一:正则法 function getQueryString(name) { var reg = new RegExp('(^|&)' + name + '=([^&]*)(& ...
The categories of Reinforcement Learning 强化学习分类
RL分为三大类: (1)通过行为的价值来选取特定行为的方法,具体包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network: (2)直接输出行为的 p ...
MVC 接收参数时会自动解码
MVC在接收传递过来的参数时,会自动对参数进行解码,无需手动解码例: public ActionResult SendMsg2(string name) { return Content(name) ...
mvc 从客户端中检测到有潜在危险的 Request 值
往MVC中加入了一个富文本编辑框,在提交信息的时候报了如下的错误: 从客户端(Content="<EM ><STRONG ><U >这是测试这...&qu ...
some language grammars
ANSI C grammar Python grammar 怎么识别LL(1) LR(0) SLR(1) 等文法,一个不错的解答. http://stackoverflow.com/questions ...
MongoDB插入文档
db.collection.insertOne() 插入单个文档.db.collection.insertMany() 插入多个文档.db.collection.insert() 插入单/多个文档. ...
记一种c++字符串格式化方法
std::string str_fmt(const char * _Format, ...) { std::string _str; va_list marker = NULL; va_start(m ...
Mysql分表和分区的区别、分库分表介绍与区别(转)
分表和分区的区别: 一,什么是mysql分表,分区什么是分表,从表面意思上看呢,就是把一张表分成N多个小表,具体请看:mysql分表的3种方法什么是分区,分区呢就是把一张表的数据分成N多个区块,这 ...
java动态代理的实现以及原理
1.前言之前对动态代理的技术只是表面上理解,没有形成一个体系,这里总结一下,整个动态代理的实现以及实现原理,以表述的更清楚一些. 2.动态代理的实现应用到的技术 1.动态编译技术,可以使用Java自 ...

Python3爬虫（十五） 代理

Python3爬虫（十五） 代理的更多相关文章

随机推荐

热门专题

Python3爬虫（十五）代理

Python3爬虫（十五）代理的更多相关文章