HTTP请求

1.首先需要了解一下http请求，当用户在地址栏中输入网址，发送网络请求的过程是什么？

2.还需要了解一下http的请求方式

有兴趣的同学可以去查一下http的八种请求方法，这里呢主要说下get请求和post请求，这两种在以后学习中会用到的比较多。

get请求：GET方法用于使用给定的URI从给定服务器中检索信息，即从指定资源中请求数据。我们输入网址访问网站一般就是get请求。[做运维的小年轻]使用GET方法的请求应该只是检索数据，并且不应对数据产生其他影响。
优点：比较便捷
缺点：由于是明文传输，所以安全性比较低，另外参数长度有限制。

post请求：POST请求通常是使用来提交HTML的表单，表单中的数据传输到服务器，由服务器对这些数据处理。我们平常执行登录操作的那一下基本上都是post请求。
关于get请求和post请求区别优缺点这里推荐一篇博文：http GET 和 POST 请求的优缺点、区别以及误区

下面说一下Headers中的Request Headers（请求头信息）,

Accept：指定客户端能够接收的内容类型，图中text/html表示要请求返回文本格式的数据

Accept-Encoding：指定浏览器可以支持的web服务器返回内容压缩编码类型，图中gzip表示支持gzip格式的压缩文件

Accept-Language：浏览器可接受的语言图中 zh-CN表示接受中文

Connection：表示是否需要持久连接。（HTTP 1.1默认进行持久连接）图中keep-alive意为保持长链接

Cookie：是服务器发送到浏览器并保存在本地的一小块数据,存储在header中，它会在浏览器下次向同一服务器再发起请求时被携带并发送到服务器上，通常，它用于告知服务端两个请求是否来自同一浏览器，如保持用户的登录状态。

Host：指定请求的服务器的域名和端口号，图中是www.baidu.com也就是我在地址栏中请求的网址

User-Agent：包含的是发出请求的用户信息，客户机的软件环境浏览器类型等

Response Header 和Request Headers对应，如下图

了解完这些呢，就来看下爬虫吧

关于爬虫

爬虫通俗来说，就是使用代码模拟用户，批量发送网络请求，批量的获取数据

爬虫的的分类

1.通用爬虫：搜索引擎的爬虫

优势：开放性很好，速度比较快

劣势：目标不明确，举个例子哈，例如我在百度搜索图片，搜索结果如下图，我想要的是图片，但是看下图红色方框所圈的内容并不是我们所要找的图片资源，这就是我所说[做运维的小年轻]的目标不明确，导致的结果呢就是返回的很多内容并不是用户所需要的。

2.聚焦爬虫：全称聚焦网络爬虫，又称为主题网络爬虫
优点：目标明确，对用户的需求非常精准，返回内容很固定，比如我就请求一张图片，那么就返回一张图片。

关于爬虫的分类其实在以后越来越深入的学习中，会自然而然的理解，现在只需有个大概了解就行了关于网络爬虫分类日百度百科中讲的比较详细，点击传送门去了解。

python爬虫之『入门基础』的更多相关文章

0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫的简单入门(一)
Python爬虫的简单入门(一) 简介这一系列教学是基于Python的爬虫教学在此之前请确保你的电脑已经成功安装了Python(本教程使用的是Python3).爬虫想要学的精通是有点难度的,尤其是遇 ...

随机推荐

yii2.0中使用jquery
我们都知道 yii 框架是组件式开发的,使用 jquery 也是非常简单的.只需要注册一下就可以使用非常简单的 jquery 代码了! <?php $this->beginBlock('s ...
d3碰撞源码分析
技术 d3. d3.force.d3.geom.quadtree. d3.geom.quadtree 四叉树的应用:图像处理.空间数据索引.2D中的快速碰撞检测.存储稀疏数据等,游戏编程. 上图中的数 ...
Unity Shader （二）Cg语言
一.Cg基本数据类型 float 32位浮点数 half 16位浮点数 int 32位整型 fixed 12位定点数 bool 布尔数据 simpler* 纹理对象的句柄( the handle to ...
使用commons-email发邮件
这里我用到了两个包: commons-email-1.3.2.jar mail-1.4.1.jar 如果不加mail.jar,就可能会抛出NoClassDefFoundError异常之后代码引用ht ...
OpenGL之抗锯齿以及线宽的设置
转自原文 OpenGL之抗锯齿以及线宽的设置抗锯齿 1.线的抗锯齿 glEnable(GL_LINE_SMOOTH); //启用 glHint(GL_LINE_SMOOTH,GL_NICEST) ...
网络流 HDU 3549 Flow Problem
网络流 HDU 3549 Flow Problem 题目:pid=3549">http://acm.hdu.edu.cn/showproblem.php?pid=3549 用增广路算法 ...
荣耀A55高调上市仅仅为孤独求败？
坦白说.华为近年来在手机市场上确实取得了一些成绩.比方之前P6的出现就凭借超薄的设计.突出的性价比让大家看到了国产手机的新希望.按理说.在手机市场上尝到甜头的华为应该继续坚持低价.亲民的路线, ...
nyoj 1104 just for you
just for you 时间限制:1000 ms | 内存限制:65535 KB 难度:0 描写叙述今天tlp和ly想去看电影了到了电影院才发现买票的人特别多 .ly不想让tlp等着急了,就先 ...
DDR3内存技术原理
随着AMD AM2平台CPU的上市,目前两大处理器巨头均提供了对DDR2内存的支持.不过,DDR2远不是内存技术发展的终点,CPU和内存厂商已经在着手进行DDR3内存的相应准备.DDR2内存的好日子还 ...
重大漏洞：Bitlocker成摆设，多款固态硬盘硬件加密均可被绕过
荷兰拉德堡德大学的两名研究人员日前发表论文,描述了固态硬盘流行加密软件Bitlocker中的关键漏洞.固态硬盘需要口令来加密和解密其上存储的内容,但该口令可以被绕过. 荷兰拉德堡德大学的两名研究人员日 ...

python爬虫之『入门基础』

HTTP请求

关于爬虫

爬虫的的分类

python爬虫之『入门基础』的更多相关文章

随机推荐

热门专题