爬虫前奏——代理ip的使用

如果同一个IP短时间内多次访问统一网页，可能会被系统识别出是爬虫，因此使用代理IP可以很大程度上解决这一问题

常用的代理有：

　　西刺免费代理：www.xicidaili.com

　　快代理：www.kuaidaili.com

　　代理云：www.dailiyun.com

那么我们如何知道自己的代理IP是否已经成功使用了呢？

　　很简单www.httpbin.org为我们提供了这个功能。www.http.org上可以看到我们访问网站所有提交的信息，在www.httpbin.org/ip上可以看到我们所需要的IP信息，如图

那么我们开始

我们使用以下免费代理

编写代码如下

from urllib import request

#没有使用代理

url='http://www.httpbin.org/ip'

resp = request.urlopen(url)

print(resp.read())

#使用代理的

url='http://www.httpbin.org/ip'

# 1.使用ProxyHandler,传入代理构建一个handler

headler = request.ProxyHandler({'http':'223.244.45.134:65309'})

# 2. 使用上面构建的handler构建一个opner

opner = request.build_opener(headler)

# 3. 使用opener去发送一个请求

resp = opner.open(url)

print(resp.read())

　需要导入urllib下的request库这是python自带的

headler = request.ProxyHandler({'http':'223.244.45.134:65309'})
需要注意的是ProxyHandler（）参数由字典组成：http 与 ip地址均由上面的服务商提供，“65309”为开放的端口号。
运行得到以下结果

b'{\n  "origin": "124.160.219.5"\n}\n'

b'{\n  "origin": "36.6.92.28"\n}\n'

说明我的代理ip使用成功了 注意：有可能因为免费的代理ip不稳定而导致错误的发生，毕竟免费的总是要出问题的。

以上内容有本人编写，如有转载请标明出处

爬虫前奏——代理ip的使用的更多相关文章

Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
爬虫-设置代理ip
1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
node.js 爬虫动态代理ip
参考文章: https://andyliwr.github.io/2017/12/05/nodejs_spider_ip/ https://segmentfault.com/q/10100000081 ...
Python实现爬虫设置代理IP和伪装成浏览器的方法(转载)
https://www.jb51.net/article/139587.htm chrome_options = webdriver.ChromeOptions() chrome_options.ad ...
实用爬虫-02-爬虫真正使用代理 ip
实用爬虫-02-爬虫真正使用代理 ip 因为这里呢,是实用爬虫,想要仔细学习一些基础的,可以去查看: Python 爬虫教程:https://www.cnblogs.com/xpwi/category ...
python爬虫成长之路（二）：抓取代理IP并多线程验证
上回说到,突破反爬虫限制的方法之一就是多用几个代理IP,但前提是我们得拥有有效的代理IP,下面我们来介绍抓取代理IP并多线程快速验证其有效性的过程. 一.抓取代理IP 提供免费代理IP的网站还挺多的, ...
python爬虫实战（一）——实时获取代理ip
在爬虫学习的过程中,维护一个自己的代理池是非常重要的. 详情看代码: 1.运行环境 python3.x,需求库:bs4,requests 2.实时抓取西刺-国内高匿代理中前3页的代理ip(可根据需求自 ...
通过爬虫代理IP快速增加博客阅读量——亲测CSDN有效！
写在前面题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少. 了解网站的反爬机制一般网站从以下几个方面反爬虫: 1. 通过Headers反 ...

随机推荐

generate的使用verilog
根据项目设计的需要,要实例化多个类似的模块,这些类似的模块包括方波波形发生器,这几个模块基本相同,除了参数传递值不同,其他他部分都是相同的具体实现代码如下: 此外有计数模块的例化,这个模块例化多个的 ...
Qt 信号阻塞和断开
Qt程序中有时候不希望信号槽的触发,在某段流程结束之后,又需要继续回复信号槽状态,这时候可以用阻塞或者断开信号槽的方法来处理. 1. 阻塞方法:bool QObject::blockSignals(b ...
revit安装未完成，某些产品无法安装的解决方法
revit提示安装未完成,某些产品无法安装该怎样解决呢?,一些朋友在win7或者win10系统下安装revit失败提示revit安装未完成,某些产品无法安装,也有时候想重新安装revit的时候会出现本 ...
python多线程交替打印abc以及线程池进程池的相关概念
import threading import sys import time def showa(): while True: lockc.acquire() #获取对方的锁,释放自己的锁 prin ...
python心得二（编码问题）
内容编码字码发展1.ascii(只识别英文)8位就可以表示所有英文,字符数字,1个字节就可以 2.unicode(万国码)最少两个字节中文三个字节 3.utf-8万国码存在空间浪费英文8位中文24位 ...
Java IO: PipedOutputStream
原文链接作者: Jakob Jenkov 译者: 李璟(jlee381344197@gmail.com) PipedOutputStream可以往管道里写入读取字节流数据,代码如下: 01 Outp ...
吴裕雄--天生自然python学习笔记：Python3 SMTP发送邮件
SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式. python的smtplib提供了一 ...
vue-cli多页面应用常遇到的问题
1.TypeError: webpack.optimize.OccurenceOrderPlugin is not a constructor 此问题出现在webpack 3中,解决办法很简单,将oc ...
Memcached笔记——（四）应对高并发攻击
近半个月过得很痛苦,主要是产品上线后,引来无数机器用户恶意攻击,不停的刷新产品各个服务入口,制造垃圾数据,消耗资源.他们的最好成绩,1秒钟可以并发6次,赶在Database入库前,Cache进行Mis ...
windows应用程序单实例
前言这才第几天博客就跟不上了,看来一天一篇博客的目标还是有点大,写博客还是挺费时间的,写了不满意删,删完再写...直到自己没了耐心.今天先写个前言,实质性的内容明天再补吧.今天一天的收获还是挺多的, ...

爬虫前奏——代理ip的使用

爬虫前奏——代理ip的使用的更多相关文章

随机推荐

热门专题