Scrapy爬虫框架补充内容三(代理及其基本原理介绍)

前言：（本文参考维基百科及百度百科所写）

当我们使用爬虫抓取数据时，有时会产生错误比如：突然跳出来了403 Forbidden 或者网页上出现以下提示：您的ip访问频率太高或者时不时跳出一个验证码需要你输入，这是由于网站采取了反爬虫措施：服务器会检查某个固定的ip在单位时间内请求的次数，如果发现请求过于频繁就会封掉你的ip，就像你一直找人办事，突然有一天帮你办事的人不乐意了，就对你说滚！（即我们的ip被封了！），这里我们引入一个全新的概念：代理

1、What is 代理？

答：代理也叫代理服务器（Proxy server），它的作用是代表用户去获取网络信息（这里给小伙伴们做个类别：比如说你要去买房子，但是你没路子，这是怎么办呢？我们一般都会去找房产中介，让中介去帮我们到开发商处获取第一手房屋交易信息，而这里的中介就相当于代理服务器，我们就是客户端了，而开发商就相当于存有大量数据的远程服务器了！）-----小伙伴们明白了吗？

2、代理工作原理图解：（这里我们只介绍正向代理服务器）

3、为什么要使用代理？

答：伪装我们自己的ip

（1）突破自带ip限制，访问一些平时不能访问的网站，这里我们以google推出中国为例，你的计算机是无法访问google的但一旦设置代理，就可以突破限制

（2）访问特定单位或群体的内部资源

（3）提高访问的速度

（4）隐藏我们自身真时的ip,一个ip永久了会很容易被封，特别是你使用爬虫大量爬取网站时，后期我们专门介绍爬虫代理的使用

4、代理分类

（1）根据代理的协议划分：

FTP代理服务器：主要用于访问FTP服务器，一般有上传、下载以及缓存功能，端口一般为21、2121等

HTTP代理服务器：主要用于访问网页，一般有内容过滤和缓存功能，端口一般为80、8080、3128等

SSL/TLS代理：主要用于访问加密网站，一般有SSL或TLS加密功能（最高支持128位加密强度），端口一般为443

RTSP代理：主要用于访问Real流媒体服务器，一般有缓存功能，端口一般为554

Telnet代理：主要用于telnet远程控制（黑客入侵计算机时常用于隐藏身份），端口一般为23

POP3/SMTP代理：主要用于POP3/SMTP方式收发邮件，一般有缓存功能，端口一般为110/25

SOCKS代理：只是单纯传递数据包，不关心具体协议和用法，所以速度快很多，一般有缓存功能，端口一般为108

SOCKS代理协议又分为SOCKS4和SOCKS5，前者只支持TCP，而后者支持TCP和UDP，还支持各种身份验证机制、服务器端域名解析等（简单理解：后者是前者的升级版）

（2）根据匿名程度划分：

高度匿名代理：会将数据包原封不动地转发，在服务端看来就好像真的是一个普通客户端在访问，而记录的IP是代理服务器的IP

普通匿名代理：会在数据包上做一些改动，服务端上有可能发现这是个代理服务器，也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR

透明代理：不但改动了数据包，还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度，能用内容过滤提高安全性之外，并无其他显著作用，最常见的例子是内网中的硬件防火墙

间谍代理：指组织或个人创建的用于记录用户传输的数据，然后进行研究、监控等目的的代理服务器

（3）是否付费：

免费代理：比如你可以上西刺（http://www.xicidaili.com）上找到大量的随机代理，但这些代理的使用率相当低，你需要随时跟换代理

付费代理：毕竟出钱了吧，稳定性肯定优于免费的

5、总结

代理顾名思义就是代表你去访问远程的服务器并获取你想要的信息，这里对于下面我们写的小爬虫我们可以使用免费代理，毕竟谁也不是富二代或管二代，但对于大型爬虫项目，如需使用代理，还是推荐各位小伙伴，花钱得花在刀口上吧！

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)的更多相关文章

Scrapy爬虫框架补充内容一(Linux环境)
Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下: 组件分析: ENGINE:(核心):处理整个框架的数据流,各个组件在其控制下协同工作 SCHEDULER(调度器):负责接收引 ...
Python-S9-Day126——Scrapy爬虫框架
01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
手把手教你如何新建scrapy爬虫框架的第一个项目（上）
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...
安装scrapy 爬虫框架
安装scrapy 爬虫框架个人根据学习需要,在Windows搭建scrapy爬虫框架,搭建过程种遇到个别问题,共享出来作为记录. 1.安装python 2.7 1.1下载下载地址 1.2配置环境变 ...

随机推荐

【Android 应用开发】Ubuntu 下 Android Studio 开发工具使用详解 (旧版本 | 仅作参考)
. 基本上可以导入项目开始使用了 ... . 作者 : 万境绝尘转载请注明出处 : http://blog.csdn.net/shulianghan/article/details/21035637 ...
总账追朔各模块SQL
SELECT gjh.set_of_books_id, gjl.je_line_num, mta.organization_id, ood.organization_code, ood.organiz ...
谈谈java中的线程(初级概念)
定义关于进程与线程的定义可参看一下这个介绍 http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html 在不细抠定义的情况下 ...
RedHat系列软件管理(第二版) --脚本安装
RedHat系列软件管理 --脚本安装一.解压缩 tar -zxvf webmin-1.700.tar.gz 二.进入相关目录 cd webmin-1.700 三.如果此时执行./configure ...
销售订单-修改量-高级定价关联sql
修改量消耗明细 --修改量消耗明细 SELECT t.name, t.comments, t.version_no, cux_rebate_pub.get_hou_name(p_organizatio ...
关于Maven中打包命令(项目中打补丁的时候用到)
打jar包的方式 mvn package -Dmaven.test.skip=true mvn install -Dmaven.test.skip=true ...
Android进阶(十九)AndroidAPP开发问题汇总(三)
Android进阶(十九)AndroidAPP开发问题汇总(三) Java解析XML的几种方式: http://inotgaoshou.iteye.com/blog/1012188 从线程返回数据的两 ...
Linux文件系统的简单操作 - df， du， ln
现在我们知道磁盘的整体数据是在 superblock 区块中,但是每个各别文件的容量则在 inode 当中记载的. 那在文字接口底下该如何叫出这几个数据呢?底下就让我们来谈一谈这两个命令: df:列出 ...
web报表工具FineReport的公式编辑框的语法简介
FINEREPORT用到公式的地方非常多,单元格(以=开头的便被解析为公式),条件显示,数据字典,报表填报属性值定义,图表标题,轴定义,页眉页脚,甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式, ...
ionic1 打包过程常用命令行
ionic start myapp myapp是项目名字 ionic start myapp --v2 ...

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)的更多相关文章

随机推荐

热门专题