Python爬虫：学爬虫前得了解的事儿

这是关于Python的第14篇文章，主要介绍下爬虫的原理。

提到爬虫，我们就不得不说起网页，因为我们编写的爬虫实际上是针对网页进行设计的。解析网页和抓取这些数据是爬虫所做的事情。

对于大部分网页来讲，它的代码构成主要包括三种语言：HTML、CSS、JavaScript，我们在爬取数据的时候大部分是从HTML和CSS中爬取。

那么，接下来在学爬虫前我们得了解点下面这些事儿。

首先，需要了解客户端与服务器的交换机制。

我们每次在访问页面时，实际上都是在向服务器发起请求，我们称之为request；服务器接到请求后，会给我们一个回应，称为response；这两种行为结合起来，即HTTP协议。

也就是说，HTTP协议是我们的客户端（网页）与服务器会话的一种方式。

在向服务器请求时，request主要包含了8种方法，get、post、head、put、options、connect、trace和delete，我们大多数时候使用到get方法即可，后续在实战操作中会详细展开。

Response是服务器回应给我们的信息。当我们以request向服务器发出请求时，服务器会返回给我们所要的信息。

其次，认识网页的基本构成

一个网页主要由三个部分构成，头部（header）、主体内容（content）和底部（footer）。

我们可以随便打开一个网页，比如PMCAFF的精选页：http://www.pmcaff.com/site/selection，用Google浏览器打开，仔细观察，它是由顶部的导航栏、logo等构成header，中间的文章为content，下面的合作伙伴等构成footer。

然后，我们单击右键选择【检查】，可以看到该页面的源代码，仔细观察下，常用的标签至少包含下面这几个：

<div>...</div> 分区
<li>...</li> 列表
<p>...</p> 段落
<h1>...</h1> 标题
<img src = " "> 图片
<a href = " ">...</a> 链接

最后，在爬虫前，我们需要学会解析网页。

那么，关于如何去解析网页，我们需要学会使用beautifulsoap。

具体内容将在下一篇的实战中详细讲解，用request+beautifulsoap来爬取真实网页的数据。

操作环境：Python版本，3.6；PyCharm版本，2016.2；电脑：Mac

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

Python爬虫：学爬虫前得了解的事儿的更多相关文章

学爬虫，需要掌握哪些Python基础？
入手爬虫确实不要求你精通Python编程,但基础知识还是不能忽视的,那么我们需要哪些Python基础呢? 首先我们先来看看一个最简单的爬虫流程: 第一步要确定爬取页面的链接,由于我们通常爬取的内容 ...
[Python]新手写爬虫全过程（转）
今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x.数据存放?这个是一个练手的玩具,就写在tx ...
第14章 web前端开发小白学爬虫结束语
老猿学爬虫应该是2019年7月初开始的,到现在2个多月了,有段时间了,这部分一直是老猿期待能给大家带来收获的,因为老猿爬虫实战应用的场景与网上老猿已知的场景基本都不一样,是从复用网站登录会话信息来开发 ...
第十四章 web前端开发小白学爬虫
老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构.html标签.js脚本.css样式.xml解析.cookies.http ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
dota玩家与英雄契合度的计算器，python语言scrapy爬虫的使用
首发:个人博客,更新&纠错&回复演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是pag ...
Python实战：爬虫的基础
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...

随机推荐

Docker实战(二)之操作Docker容器
容器是Docker的另外一个核心概念.简单来说,容器是镜像的一个运行实例.所不同的是,镜像是静态的只读文件,而容器带有运行时需要的可写文件层.如果认为虚拟机是模拟运行的一整套操作系统系统(包括内核,应 ...
java.util.zip.ZipException: duplicate entry(重复依赖多版本的类库)
同步SVN仓库中的代码,更新后,运行项目,出现如下错误: com.android.build.api.transform.TransformException: java.util.zip.ZipEx ...
CentOS7下安装NVIDIA独立显卡驱动出现X service error问题解决方法
问题症状: 最近在CentOS7下安装NVIDIA独立显卡驱动的过程中出现X service error问题,如下图所示: 解决方法: 0.到NVIDIA 官网上下载驱动文件(.run 格式) : N ...
jmeter数据库查询与接口返回进行对比
今天在群里又看到了一个小伙伴问类似的问题,[jmeter如何实现数据库查询出来的结果与接口返回的结果进行对比判断,或者数据库两字段的相加减与接口返回进行对比].其实都一样,因为你把运算放在查询那里就行 ...
Android 配置从GitHub上下载下来的不太规则的源代码库，并保证程序正常运行
用过github的朋友一定会发现,我们在github上下载下来的源代码(例子和库),放到eclipse中并不是总能正常运行的,它有可能会出现这样或者那样的错误,例如:找不到jar包,配置文件错误,R文 ...
jqgrid 设置冻结列
有时,jqgrid表格的列非常多,而表格的宽度值是固定的,我们需要在表格底部出现滚动条,并且固定前面几个列作为数据参照项,如何实现? 需要用的jqgrid冻结列,步骤如下: 1)设置需要冻结的列属性, ...
opencv---JPEG图像质量检测代码
参考:http://blog.csdn.net/trent1985/article/details/50904173 根据国外一篇大牛的文章:No-Reference Perceptual Quali ...
Linux SSH远程文件/文件夹传输命令scp
相信各位VPSer在使用VPS时会常常在不同VPS间互相备份数据或者转移数据,大部分情况下VPS上都已经安装了Nginx或者类似的web server,直接将要传输的文件放到web server的文件 ...
20155217《网络对抗》Exp07 网络欺诈防范
20155217<网络对抗>Exp07 网络欺诈防范实践内容简单应用SET工具建立冒名网站 ettercap DNS spoof 结合应用两种技术,用DNS spoof引导特定访问到冒 ...
《网络对抗》Exp7 网络欺诈防范
20155336<网络对抗>Exp7 网络欺诈防范实验内容本实践的目标理解常用网络欺诈背后的原理,以提高防范意识,并提出具体防范方法.具体实践有简单应用SET工具建立冒名网站 (1分 ...

Python爬虫：学爬虫前得了解的事儿

Python爬虫：学爬虫前得了解的事儿的更多相关文章

随机推荐

热门专题