爬虫四大金刚：requests，selenium，BeautifulSoup，Scrapy

一、简介爬虫

1.什么是爬虫

#1、什么是互联网？

    互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。

#2、互联网建立的目的？

    互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿U盘去别人的计算机上拷贝数据了。

#3、什么是上网？爬虫要做的是什么？

    我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。

    #3.1 只不过，用户获取网络数据的方式是：

      浏览器提交请求->下载网页代码->解析/渲染成页面。

    #3.2 而爬虫程序要做的就是：

      模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中

　

    #3.1与3.2的区别在于:

      我们的爬虫程序只提取网页代码中对我们有用的数据

#4、总结爬虫

    #4.1 爬虫的比喻：

      如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的猎物/数据

    #4.2 爬虫的定义：

      向网站发起请求，获取资源后分析并提取有用数据的程序 

    #4.3 爬虫的价值：

      互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

2.爬虫的基本原理

#1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

#2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

#3、解析内容

解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以b的方式写入文件

#4、保存数据

数据库

文件

3.Request

#1、请求方式：

    常用的请求方式：GET，POST

    其他请求方式：HEAD，PUT，DELETE，OPTHONS

    ps：用浏览器演示get与post的区别，（用登录演示post）

    post与get请求最终都会拼接成这种形式：k1=xxx&k2=yyy&k3=zzz

    post请求的参数放在请求体内：

        可用浏览器查看，存放于form data内

    get请求的参数直接放在url后

#2、请求url

    url全称统一资源定位符，如一个网页文档，一张图片

    一个视频等都可以用url唯一来确定

    url编码

    https://www.baidu.com/s?wd=图片

    图片会被编码（看示例代码）

    网页的加载过程是：

    加载一个网页，通常都是先加载document文档，

    在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

#3、请求头

    User-agent：请求头中如果没有user-agent客户端配置，

    服务端可能将你当做一个非法用户

    host

    cookies：cookie用来保存登录信息

    一般做爬虫都会加上请求头

#4、请求体

    如果是get方式，请求体没有内容

    如果是post方式，请求体是format data

    ps：

    1、登录窗口，文件上传等，信息都会被附加到请求体内

    2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post

4.Response

#1、响应状态

    200：代表成功

    301：代表跳转

    404：文件不存在

    403：权限

    502：服务器错误

#2、Respone header

    set-cookie：可能有多个，是来告诉浏览器，把cookie保存下来

#3、preview就是网页源代码

    最主要的部分，包含了请求资源的内容

    如网页html，图片

    二进制数据等

二、requests库

三、selenium库

四、BeautifulSoup库

五、Scrapy框架

爬虫四大金刚：requests，selenium，BeautifulSoup，Scrapy的更多相关文章

python爬虫之requests+selenium+BeautifulSoup
前言: 环境配置:windows64.python3.4 requests库基本操作: 1.安装:pip install requests 2.功能:使用 requests 发送网络请求,可以实现跟浏 ...
爬虫开发12.selenium在scrapy中的应用
selenium在scrapy中的应用阅读量: 370 1 引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...
网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况
说在前面: 本文主要介绍如何抓取页面加载后需要通过JS加载的数据和图片本文是通过python中的selenium(pyhton包) + chrome(谷歌浏览器) + chromedrive(谷歌 ...
爬虫 1 requests 、beautifulsoup
1.requests 1.method 提交方式:post.get.put.delete.options.head.patch 2.url 访问地址 3.params 在url中传递的参数,GET p ...
005 爬虫（requests与beautifulSoup库的使用）
一:知识点 1.安装requests库 2.Brautiful soup 可以提供一些简单的,python式的函数来处理导航,搜索,修改分析树等功能. 她是一个工具箱,通过解析文档为用户提供需要抓去的 ...
python3 爬虫相关-requests和BeautifulSoup
前言时间的关系,这篇文章只记录了相关库的使用,没有进行深入分析,各位看官请见谅(还是因为懒.....) requests使用发送无参数的get请求 r = requests.get('http:/ ...
scrapy爬虫框架和selenium的配合使用
scrapy框架的请求流程 scrapy框架? Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Scrapy使用了一种非阻塞(又名异步)的 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python爬虫系列（2）—— requests和BeautifulSoup
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫
[网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫广东职业技术学院欧浩源 2017-10-14 1.引言在数据量爆发式增长的大数据时代,网络与用户的沟 ...

随机推荐

Android为TV端助力电影栏目移动到底部或者顶部时抖动动画
1 移动到底部上下抖动ObjectAnimator animatorX = ObjectAnimator.ofFloat(holder.itemView,"translationX" ...
仿微信未读RecyclerView平滑滚动定位效果
效果图有红点的地方表示有未读消息,依次双击首页图标定位,然后定位到某个未读在手动下滑一点距离在次点击定位效果用过 RecyclerView 的人都知道,自带有几个滚动到item下标的方法,但是不靠谱 ...
Java中的守护线程
守护线程的概念在java中有两种线程,守护线程和非守护线程,其两者并没有本质的区别,唯一的区别就是当前的用户线程退出的时候,若只存在唯一的A线程,若A线程为守护线程,那么JVM将会直接退出,否则JV ...
网络基础外网IP，内网IP，虚拟机的网络设置
外网IP,内网IP的关系在这三类地址中,绝大多数的IP地址都是公有地址,需要向国际互联网信息中心申请注册.但是在IPv4地址协议中预留了3个IP地址段,作为私有地址,供组织机构内部使用. 这三个地址 ...
.net解析csv(C#导表工具)
前言解析Excel有知名的NPOI库,(Java语言是POI),但是NPOI是不支持解析csv的. csv本质上也是文本文件,可以进行差异对比,更利于解决冲突. 本文对解析csv的几个.net的开源 ...
linux杀毒软件ClamAV的安装使用
1.安装依赖环境 yum install -y zlib openssl-devel yum groupinstall -y "Development Tools" apt ins ...
[RHEL 7]ISCSI服务端及客户端连接配置
环境RHEL7.4 1.搭建服务器端主机环境网络配置网卡eth0 10.0.0.1 网卡eth1 10.1.0.1 网卡eth2 10.2.0.1 网卡eth3 10.3.0.1 硬盘配置添加一 ...
js深浅拷贝
作为一枚前段,我们知道对象类型在赋值的过程中其实是复制了地址,从而会导致改变了一方其他也都被改变的情况.通常在开发中我们不希望出现这样的问题,我们可以使用浅拷贝来解决这个情况. 浅拷贝首先可以通过O ...
如何通过Git将写好的项目发布到github上
1.在GitHub上创建新的项目文件 2.创建之后会进入新的页面,看到如下图的内容,将地址记下来 3.打开Git 4.进入项目本地所在目录 5.输入:git init 这个意思是在当前项目的目录中生成 ...
WinForms 快速开发的工具类。
下面是我本人在 WinForms 开发中积累的一些心得. 1. 在父窗体中打开子窗体直接贴代码: private void btnCompare_Click(object sender, Event ...

爬虫四大金刚：requests，selenium，BeautifulSoup，Scrapy

一、简介爬虫

二、requests库

三、selenium库

四、BeautifulSoup库

五、Scrapy框架

爬虫四大金刚：requests，selenium，BeautifulSoup，Scrapy的更多相关文章

随机推荐

热门专题