HTTP——https、http缓存、get与post、web安全、跨域

HTTP诞生

1989年为知识共享而诞生的Web，提出了3项WWW构建技术：

标准通用标记语言设为HTML（HyperText Markup Language，超文本标记语言）
文档传输协议HTTP（HyperText Transfer Protocol，超文本传输协议）
文档定位URL（Uniform Resource Locator，统一资源定位符）

HTTP特点

无状态协议（不对请求和响应之间的通信状态进行保存，无法实现状态管理），所以后面引入Cookie和LocalStorage等技术。
请求方法有：GET（获取资源）、POST（传输实体主体）、PUT（传输文件）、HEAD（获得报文首部）、DELETE（删除文件）、OPTIONS（询问支持的方法）、TRACE（追踪路径）、CONNECT（要求用隧道协议连接代理）
HTTP/1.1中，所有连接默认都是持久连接（keep-alive），即建立一次TCP连接后可以进行多次HTTP请求和响应
管线化，即可并行发送多个请求。

Cookie：

1）客户端发送请求报文；
2）服务器生成包含Cookie信息的响应报文（Set-Cookie字段包含sid）；
3）客户端发送带Cookie信息的请求报文（Cookie字段的sid）；

http1.0/1.1/2.0的区别

HTTP/1.1相较于 HTTP/1.0 协议的区别主要体现在：

1）持久链接，即一次TCP链接可支持多次HTTP请求；
2）管线化，即客户端不用等到之前的http请求结果返回，就可发送下一次请求；
3）缓存处理，http1.0采用expires字段，有时钟同步问题，http1.1采用Cache-Control；
4）断点续传，优化带宽，增加range字段，返回码是206（Partial Content）；
5）Host头域，支持一台物理主机可存在多个虚拟主机，一个IP地址，多个域名；

HTTP/2.0相较于 HTTP/1.1 协议的区别主要体现在：

1）采用WebSocket，支持服务端推送；
2）多路复用，连接共享，允许同时通过单一的HTTP2连接发起多重的请求-响应消息；
3）在tcp与http层间增加了二进制分帧层，HTTP/2通信都在一个连接上完成，这个连接可以承载任意数量的双向数据流；
4）首部压缩，HTTP/1.1并不支持 HTTP 首部压缩，为此 SPDY 和 HTTP/2 应运而生，SPDY使用的是通用的DEFLATE算法，HTTP/2则使用了专门为首部压缩而设计的 HPACK 算法；
简书详解
 csdn博客
 知乎讲解

HTTP报文

HTTP报文本身是由多行数据构成的字符串文本。
请求报文与相应报文的结构

请求行：请求的方法、请求URI、HTTP版本
状态行：表明响应结果的状态码、原因短语、HTTP版本

压缩传输的内容编码（gzip、compress、deflate、identity）、分割发送的分块传输编码
MIME（Multipurpose Internet Mail Extensions，多用途因特网邮件扩展）

HTTP状态码

1） 200 OK ；请求正常处理
2） 204 No Content ；请求处理成功，但没有资源可返回
3） 206 Partial Content ；客户端进行了范围请求，服务器成功处理
4） 301 Moved Permanently ；永久性重定向，即请求的资源已经被分配了新的URI
5） 302 Found ；临时重定向，即请求的资源临时被分配了新的URI
6） 303 See Other ；表示请求对应的资源存在着另一个URI，应使用GET方法定向获取
7） 304 Not Modified ；服务器资源未改变，可直接使用客户端未过期的缓存（与重定向无关）
8） 307 Temporary Redirect ；临时重定向（会强制浏览器不能将POST改为GET方法）
9） 400 Bad Request ；表示请求报文中存在语法错误
10） 401 Unauthorized ；表明请求需要通过HTTP认证，若之前已请求过一次，则表示用户认证失败
11） 403 Forbidden ；服务器拒绝该资源的访问
12） 404 Not Found ；服务器无法找到请求的资源
13） 500 Internal Server Error ；服务器发生内部错误
14） 503 Service Unavailable ；服务器超负荷，无法处理请求
有些时候，状态码和状况会不一致

说明：301和302状态码都是重定向，但区别是301是永久重定向，302为临时重定向。若客户端将URL保存为书签，那么301就会去更新书签，而302不会去更新书签。
重定向：服务器告诉客户端，需要重新发送请求到新的URL。服务器返回302状态码时，设置响应头的Location字段。

HTTPS（HTTP over SSL，包括加密、认证、完整性保护）

HTTP的缺点

1）通信使用明文（不加密），内容可能会被窃听；—>加密
2）不验证通信方的身份，可能遭遇伪装；—>验证身份
例子：伪装的web服务器；伪装的客户端；无访问权限的通信方；无法判定无意义请求，可能遭受DoS攻击；
3）无法证明报文的完整性，内容可能遭遇篡改；

加密
- 通信的加密、内容的加密
- 加密方式：对称密钥加密（共享密钥加密）、非对称密钥加密（公开密钥加密）

对称加密：加密和解密使用相同的密钥；问题：密钥如何安全到达对方；
非对称加密：一对密钥（公开密钥+私有密钥）；
方式：服务器拥有一对密钥，当需要加密传输时，服务器将公开密钥分发给客户端，客户端利用公开密钥加密发送密文给服务器，服务器利用私有密钥解密；
报文+公开密钥=密文；密文+公开密钥!=报文（技术上异常困难，离散对数求值）；
非对称加密相比对称加密速度慢；

HTTPS采用混合加密机制（非对称加密+对称加密）

利用非对称加密传输对称加密时所需的密钥，然后采用对称加密传输主体；

如何判断服务器发来的公开密钥的真实性？

借用第三方数字认证机构（CA，Certificate Authority）
1）服务器将自己的公开密钥登录至CA，申请公钥证书
2）CA颁发公钥证书（公开密钥+CA数字签名）
3）服务器向客户端发送公钥证书
4）客户端利用浏览器内置的CA公钥验证该公钥证书的有效性
5）客户端使用公开密钥对报文加密后发送

MAC（Message Authentication Code）报文摘要检测报文的完整性
用以确认客户端的客户端证书

用户得自行安装客户端证书，一般用于网上银行

补充：抓包工具：wireshark，tcpdump

HTTP缓存

HTTP缓存分为强制缓存和对比缓存，两类缓存规则可以同时存在，强制缓存优先级高于对比缓存。

强制缓存（Expires/Cache-Control）

HTTP 1.0中Expires的值为服务端返回的资源到期时间，所以要求时钟同步
HTTP1.1中使用Cache-Control

对比缓存（Etag / If-None-Match 或者Last-Modified / If-Modified-Since ）

对比缓存生效时，状态码为304，只返回header

Etag / If-None-Match（优先级高）

第一次请求时，服务器通过Etag告诉客户端资源的唯一标识符
再次请求时，客户端通过If-None-Match告诉服务器该资源缓存数据库中的资源标识符，服务器将其进行校验比对，若资源发生变化（资源标识符变化），则返回修改过的资源，200；若资源未被修改过，则返回304。

Last-Modified / If-Modified-Since

第一次请求时，服务器在响应请求时，通过Last-Modified告诉浏览器资源的最后修改时间。
再次请求时，客户端通过If-Modified-Since发送资源的最后修改时间，服务器接收到后进行校验对比，若资源在该时间之后被修改过，则返回修改过的资源，200；若资源未被修改过，则返回304。
cnblog讲解
个人理解：客户端缓存数据库中的资源带有Expires的时间、Cache-Control的时间间隔、If-None-Match的资源标识符或者 If-Modified-Since的标识时间。浏览器在请求相应资源时，分别判断资源的各个标识符，采用缓存资源或者发送相应的http头部信息给服务器端进行校验。

http如何断点续传

HTTP1.1 开始支持获取文件的部分内容，通过字段Range 和 Content-Range来实现。
Range用于请求头中，指定第一个字节和最后一个字节的位置。
服务器会在 Content-Range 头部返回当前发送数据的范围和文件总大小。
但有可能在断点续传的过程中，资源发生了修改，就需要判断，资源有无变化。这个通过Etag资源标识符来做，每个资源Etag的值通过MD5来计算。
此外，还可以通过MD5校验报文的完整性。服务器预先提供一个MD5校验和，用户下载完所有文件以后，用MD5算法计算下载文件的MD5校验和，然后通过检查这两个校验和是否一致，就能判断下载的文件是否出错。

get与post区别

W3school

get可被缓存
get请求保留在浏览器历史纪录中
get请求可被收藏为书签
get请求不应在处理敏感数据时使用，get请求在url中发送，post请求在http消息主体中发送。
get请求长度有限制(url的限制),post请求对数据长度没有要求
get只能是url编码
get参数会显示在url中
后退和刷新，post会被重新提交
get是幂等的，意味着对同一URL的多个请求应该返回同样的结果。
对资源的增，删，改，查操作，其实都可以通过GET/POST完成，不需要用到PUT和DELETE

web安全

主动攻击：

1） SQL注入攻击
方式：把SQL命令插入到表单中提交或URL中的查询字符串中，以欺骗服务器执行恶意的SQL命令；
解决方法：对用户的输入进行校验、不使用管理员权限的数据库连接、机密信息加密存放；
2） OS命令注入攻击（利用web应用的漏洞）；

被动攻击：

1）跨站脚本攻击XSS
方式：在正规网站的URL查询字段中加入script标签，使客户端在浏览正规网站的同时，运行JS代码；
解决办法：对用户的输入进行校验、写到页面的内容先进行编码、用适当的方法对 HTML，JS 进行转义、将Set-Cookie设置为HttpOnly，则通过JS脚本无法读取到cookie信息；
2）跨站点请求伪造（CSRF）
方式：用户点击了正规网站和黑客网站，黑客网站向往正规网站服务器发送了请求，这个请求会携带用户本地浏览器的cookie，所以得以成功跨站点请求伪造。
解决办法：1）设置验证HTTP Referer字段，以确保请求的来源网站的合法性。2）设置token。
CSDN博客
3）HTTP首部注入（攻击者在响应首部字段内插入换行，添加任意响应首部或主体）、
4）邮件首部注入攻击
其他攻击：DoS攻击（拒绝服务攻击，向服务器发送大量请求，造成服务器资源过载）
DDoS（分布式拒绝服务攻击，常利用感染病毒的计算机作为攻击者的攻击跳板）
CSDN博客

跨域

跨域解决方案：

CORS（Cross-Origin Resource Sharing，跨域源资源共享），IE8通过XDomainRequest对象支持CORS，其他浏览器通过XHR对象原生支持CORS。

CORS跨域源资源共享需要客户端和服务器共同支持，原理是通过自定义的HTTP头部让客户端与服务器沟通，而目前各大浏览器都实现了对CORS的原生支持。即，当跨域请求时，浏览器会自动在HTTP头部加上自定义字段，比如Origin头部。也就是说要实现CORS，需要在服务器端进行设置。服务器端返回Access-Control-Allow-Origin字段。CORS请求分为简单请求、非简单请求（多一次http请求），默认CORS跨源请求都不带cookie，如果需要带cookie，则需要设置Access-Control-Allow-Cendentials:true。
优点：支持所有HTTP请求。缺点：不能兼容老浏览器。
阮一峰CORS

JSONP（JSON with padding）

原理：利用script标签没有跨域限制的特点，客户端将script脚本的src设置为服务器的请求地址。服务器会返回一段js代码，并在本地执行，形如：callback({"name":"Nicholas"});，一个带参数的函数，这个参数就是需要请求的json数据。这个函数名是服务器端根据客户端发过去的数据动态设置的（原理是字符串拼接）。而这个函数会事先在本地声明如何处理json数据。
优点：简单易用，支持浏览器与服务器双向通信，无浏览器兼容性问题；
缺点：不安全，由于JSONP是从其他域中加载代码执行；难以确定请求是否失败；只支持GET请求；传输格式是字符串，不是json格式；
网络上的解释

其他方法：如html5中postMessage方法，window.name，document.domain

更多博客：https://github.com/Lmagic16/b...