【Python爬虫实战】使用代理服务器

代理服务器：是一个处于我们与互联网中间的服务器，如果使用代理服务器，
我们浏览信息的时候，先向代理服务器发出请求，然后又代理服务向互联网获取信息，再返回给我们
使用代理服务器进行信息爬取，可以很好的解决IP限制的问题

就像爬取微信的时候，如果使用自己的IP地址去爬取的话，你会发现你的IP将被微信给封了（亲测）
所以需要使用代理IP和伪装浏览器去爬取，这儿只先说怎么使用代理服务器
先上一个网址，包含许多免费的代理IP服务器，当然也能够购买。
http://www.xicidaili.com/
毕竟使用免费的当然会出现无法使用500等错误，怎么解决？ 换一个IP地址和端口号呗~ ~ 或者进行购买（一般到公司会去购买）~ ~

然后 直接上代码

import urllib.request

import urllib.error

def use_proxy(url,proxy_addr):

    proxy = urllib.request.ProxyHandler({"http":proxy_addr})

    opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)  #第二个参数默认为urllib.request.HTTPHandler

    urllib.request.install_opener(opener)

    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")

    return data

proxy_addr = "219.138.58.235:3128"#这个IP是当时测试时候用的，自己更换就行

url = "http://www.baidu.com"

data = use_proxy(url,proxy_addr)

print(len(data))

以后写代码需要使用代理服务器的时候完全就可以直接使用这个自定义函数或者使用其中的语句

【Python爬虫实战】使用代理服务器的更多相关文章

《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...

随机推荐

ecstore-ftp设置，不能上传文件
某些主机居然不能上传,ftp改成127.0.0.1即可 ftp地址改成127.0.0.1即可...
flume 架构设计优化
对于企业中常用的flume type 概括如下:ource(获取数据源): exec (文件) spoolingdir (文件夹) taildir(文件夹及文件的变动) kafka syslog ht ...
mysql_test
------------------ #/bin/sh binlogfile=$1 if [ ! -n $binlogfile ]thenecho "pls input your mysql ...
内存共享【Delphi版】
一.原理通过使用“内存映射文件”,实现内存共享二.主要操作共享内存结构: PShareMem = ^TShareMem; TShareMem = Record id:string ...
python调用tcpdump抓包过滤
之前在linux用python脚本写一个抓包分析小工具,实在不想用什么libpcap.pypcap所以,简单来了个tcpdump加grep搞定.基本思路是分别起tcpdump和grep两个进程,进程直 ...
DataGridView之编码列重绘
实现方式如下: private void dgvRelation_RowPostPaint(object sender, DataGridViewRowPostPaintEventArgs e) { ...
git 对比两个分支差异
比如我们有 2 个分支:master, dev,现在想查看这两个 branch 的区别,有以下几种方式: 1.查看 dev 有,而 master 中没有的: git log dev ^master 同 ...
基于Kafka消息驱动最终一致事务（一）
基本可用软状态最终一致事务本用例分两个数据库分别是用户库和交易库,不使用分布式事务,使用基于消息驱动实现基本可用软状态最终一致事务(BASE).现在说明下事务逻辑演化步骤,尊从CAP原则,即分布式系 ...
java设计模式-State模式
1.背景: MM的状态是非常不固定的,说不定刚才还非常高兴,没准一会就生气了.就跟六月的天似的,说变就变. 封装一下MM的状态:smile,cry,say:MM的状态决定了这些方法该怎么执行. 2 ...
Java学习——包及可见性
1.在同一个类中:创建的对象,不管成员的可见修饰符可以直接调用. package studentpackage; public class Student { public long id; prot ...

【Python爬虫实战】 使用代理服务器

【Python爬虫实战】 使用代理服务器的更多相关文章

随机推荐

热门专题

【Python爬虫实战】使用代理服务器

【Python爬虫实战】使用代理服务器的更多相关文章