爬虫必备的web知识

爬虫定义、分类和流程

爬虫的定义：

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为，越像越好，越像就越不容易被发现。原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

爬虫的分类

通用爬虫：通常指搜索引擎的爬虫

聚焦爬虫：针对特定网站的爬虫

爬虫的用途

今日头条
网易云音乐
12306抢票
网站自动投票
短信轰炸
等等

4.爬虫的流程

**

Robots 协议：

网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是道德层面上的约束例如：淘宝的 robots 协议

总结

爬虫概念：

模拟浏览器发送网络请求，接收请求响应。只要是浏览器(客户端)能做的事情，爬虫都能够做。

爬虫的分类：聚焦爬虫、通用爬虫

爬虫的流程：

1、向起始 url 发送请求，并获取响应

2、对响应进行提取

3、如果提取 url，则继续发送请求获取响应

4、如果提取数据，则将数据进行保存

HTTP 与 HTTPS 的概念

HTTP（超文本传输协议）

是应用层上的一种客户端/服务端模型的通信协议,它由请求和响应构成，且是无状态的。协议：协议规定了通信双方必须遵守的数据传输格式，这样通信双方按照约定的格式才能准确的通信。无状态：无状态是指两次谅解通信之间是没有任何联系的，每次都是一个新的连接，服务端不会记录前后的请求信息

1、浏览器通过域名解析服务器（DNS）获取IP地址

2、浏览器先向 IP 发起请求，并获取相应

3、在返回的响应内容（html）中，会带有

css、js、图片等 url 地址，以及 ajax 代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应

4、浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css 等内容会修改页面的内容，js也可以重新发送请求，获取响应

5、从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

网络模型对应关系

1、HTTP、RTSP、FTP -------> 应用层

2、TCP、UDP -------> 传输层

3、IP -------> 网络层

4、数据链路 -------> 数据链路层

5、物理介质 -------> 物理层

1、scheme：协议（例如：http, https, ftp）

2、host：服务器的 IP 地址或者域名

3、port：服务器的端口（如果是走协议默认端口，缺省端口80）

4、path：访问资源的路径

5、query-string：参数，发送给 http 服务器的数据

6、anchor：锚（跳转到网页的指定锚点位置）

请求方式：

根据 HTTP 标准，HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法： GET, POST 和 HEAD 方法。HTTP1.1 新增了五种请求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

请求方式描述：

GET请求指定的页面信息，并返回实体主体。

HEAD类似于 get 请求，只不过返回的响应中没有具体的内容，用于获取报头POST向指定资源提交数据进行处理请求（例如提交表单或者上传文件）。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。

PUT从客户端向服务器传送的数据取代指定的文档的内容

DELETE请求服务器删除指定的页面。

CONNECTHTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。OPTIONS允许客户端查看服务器的性能。

TRACE回显服务器收到的请求，主要用于测试或诊断。

常见请求头：

请求头作用

Cookie：Cookie

User-Agent：浏览器名称

Referer：页面跳转处

Host：主机和端口号

Connection：链接类型

Upgrade-Insecure-Requests：升级为 HTTPS 请求

Accept：传输文件类型

Accept-Encoding：文件编解码格式

x-requested-with : XMLHttpRequestajax 请求

HTTP响应：

响应格式：

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行（回车符 + 换行符）和响应正文。

响应头：

响应头作用Location这个头配合 302 状态码使用，告诉用户端找谁。Set-Cookie设置和页面关联的 CookieContent-Type服务器通过这个头，回送数据的类型Server服务器通过这个头，告诉浏览器服务器的类型Content-Length服务器通过这个头，告诉浏览器回送数据的长度Connection服务器通过这个头，响应完是保持链接还是关闭链接

http状态码：

当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含 HTTP 状态码的信息头（server header）用以响应浏览器的请求。HTTP 状态码的英文为 HTTP Status Code。HTTP 状态码由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。HTTP 状态码共分为 5 种类型

1xx信息，服务器收到请求，需要请求者继续执行操作

2xx成功，操作被成功接收并处理

3xx重定向，需要进一步的操作以完成请求

4xx客户端错误，请求包含语法错误或无法完成请求

5xx服务器错误，服务器在处理请求的过程中发生了错误

常见的 HTTP 状态码：

200 - 请求成功
301 - 资源（网页等）被永久转移到其它 URL
404 -请求的资源（网页等）不存在

500 - 内部服务器错误

HTTPS：

1、 HTTP + SSL (安全套接字层)，即带有安全套接字层的超本文传输协议

2、默认端口号：443

https作用:

在传输过程中对数据进行加密，防止中间路由器、交换机等中间的路由设备对数据进行篡改

HTTP 与 HTTPS 优缺点

HTTP 因为不需要对数据进行加密所以性能更高，但是安全性差。HTTPS 虽然安全性高，但是因为浏览器和服务器端需要对数据进行加解密，所以占用服务器资源。

当前形势

注意：目前 HTTPS 是未来主流，微信小程序，iOS 客户端，android 客户端的接口提供都需要 HTTPS 接口支持

爬虫必备的web知识的更多相关文章

网络爬虫必备知识之requests库
就库的范围,个人认为网络爬虫必备库知识包括urllib.requests.re.BeautifulSoup.concurrent.futures,接下来将结对requests库的使用方法进行总结 1. ...
网络爬虫必备知识之urllib库
就库的范围,个人认为网络爬虫必备库知识包括urllib.requests.re.BeautifulSoup.concurrent.futures,接下来将结合爬虫示例分别对urllib库的使用方法进行 ...
网络爬虫必备知识之concurrent.futures库
就库的范围,个人认为网络爬虫必备库知识包括urllib.requests.re.BeautifulSoup.concurrent.futures,接下来将结对concurrent.futures库的使 ...
爬虫概要及web微信请求分析
一.爬虫概要 1.网络爬虫是什么百度百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常 ...
前端开发者必备的Nginx知识
摘要: 最常用的Web服务器 -- Nginx 原文:前端开发者必备的Nginx知识作者:ConardLi Fundebug经授权转载,版权归原作者所有. Nginx在应用程序中的作用解决跨域请 ...
[转帖]java必备的开发知识和技能
java必备的开发知识和技能 https://blog.csdn.net/qq_34405062/article/details/89389646 学习一下java 其实上学那会儿学的早就过时加落伍 ...
如何学习FPGA？FPGA学习必备的基础知识
如何学习FPGA?FPGA学习必备的基础知识时间:2013-08-12 来源:eepw 作者: 关键字:FPGA 基础知识 FPGA已成为现今的技术热点之一,无论学生还是工程师都希望 ...
Android开发学习必备的java知识
Android开发学习必备的java知识本讲内容:对象.标识符.关键字.变量.常量.字面值.基本数据类型.整数.浮点数.布尔型.字符型.赋值.注释 Java作为一门语言,必然有他的语法规则.学习编程语 ...
六个前端开发工程师必备的Web设计模式/模块资源
Yahoo的设计模式库 Yahoo的设计模式库包含了很多可以帮助开发设计人员解决遇到的问题的资源,包括开发中常常需要处理的导航,互动效果及其布局网格等大家常用的组件和模块响应式设计模式库这个响应式 ...

随机推荐

【Leetcode_easy】1103. Distribute Candies to People
problem 1103. Distribute Candies to People solution:没看明白代码... class Solution { public: vector<int ...
localStorage 存储数组
let str = JSON.stringify(data.list); localStorage.setItem("options",str); let optionss=loc ...
iOS-iphone网络编程总结
iphone网络编程总结一:确认网络环境3G/WIFI 1. 添加源文件和framework 开发Web等网络应用程序的时候,需要确认网络环境,连接情况等信息.如果没有处理它们,是不会 ...
Blender模型导入进Unity，旋转缩放的调整
Blender跟Unity的XYZ轴不同的原因,导致Blender模型导入Unity之后会发生模型朝向不对. 请先看看下边这个情况: 首先,Blender物体模式下,对模型进行旋转缩放,将会在右边 ...
Vue双向数据绑定简易实现
一.vue中的双向数据绑定主要使用到了Object.defineProperty(新版的使用Proxy实现的)对Model层的数据进行getter和setter进行劫持,修改Model层数据的时候,在 ...
MacOS这idea快捷键
Control + Space 基本的代码补全(补全任何类.方法.变量) Control + Shift + Space 智能代码补全(过滤器方法列表和变量的预期类型) Command + Shift ...
C语言各数据类型大小和取值范围
[转帖]Nginx服务器的六种负载均衡策略详解
Nginx服务器的六种负载均衡策略详解咔咔侃技术 2019-09-11 17:40:12 一.关于Nginx的负载均衡在服务器集群中,Nginx起到一个代理服务器的角色(即反向代理),为了避免单独 ...
[转帖]Chrome中默认非安全端口
Chrome,你这坑人的默认非安全端口 https://www.cnblogs.com/soyxiaobi/p/9507798.html 之前遇到过这个总结的比之前那篇要好呢. 今天用chrome打 ...
centos 7.2安装git2.x版本
前言今天在我的centos7.2开发环境安装git2.x时候遇到了各种问题,还好一一解决,为方便大家,这里列出遇到的问题和解决办法,yum默认安装的git1.8版本的,公司git服务器在window ...

爬虫必备的web知识

爬虫必备的web知识的更多相关文章

随机推荐

热门专题