爬虫技术基础 HTTP/HTTPS(7层):应用层,浏览器 SSL:加密层,传输层.应用层之间 TCP/IP(4层):传输层 数据在传输过程中是加密的,浏览器显示的是解密后的数据,对爬虫没有影响 中间人攻击:在传输过程中对数据包进行解析,抓包抓的是IP包,数据是加密的 网页类型 静态网页:HTML,或PHP+JSP后台写HTML 动态网页(前后分离):前端HTML+JavaScript,后端提供数据接口,js请求数据 APP内嵌HTML(WebView引擎) 云端下发完整HTML(今日头条) 本…