小白学 Python 爬虫(1):开篇
人生苦短,我用 Python
引言
各位同学大家好,好久不见(可能只有一两天没见:囧)~~~
先讲一件事情,昨天为啥没更新。
emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的更新频率会有下降,请各位海涵。
废话不多说,开始今天的正题,从题目大家应该已经猜到了,小编要开始更新一个新的系列《小白学 Python 爬虫》,介于大家水平参差不齐,建议没有 Python 基础第一次接触的同学先看下小编之前更新的《小白学 Python 系列》,大致了解下 Python 的语法规则以及一些基础用法。
先自己吹一波水,这个系列小编计划做成长期更新系列,目前 Python 爬虫涉及到的第三方的类库有些多,还会有很多有关 web 编程方面的基础知识,因面向的群体主要是小白,这些内容都需要一一介绍,这会是一个大的系列。额,远超之前的 Python 基础。
额,忘了件事儿,再加一句题外话,最近公众号后台留言有点略多,很多同学的问题来不及回复就被留言冲的看不到了,这里请大家有问题可以添加小编的个人微信:allen_6174(放心加,这个是小编的个人生活微信号,和工作号是分开的)。
算了,顺便再打个广告吧:本爬虫系列文章后续将于公众号首发,个人博客站次日同步,第三方博客平台不定期同步,泥萌要不要关注我一下呢?
什么是爬虫?
不管是作为程序员还是小白,对爬虫这个词应该都不陌生,毕竟最近也发生了很多事情,很多人因为某些事情都进去了,具体情况我就不提了,容易被和谐。有想知道的同学可以翻一翻我之前公众号转的一篇文章《只因写了一段爬虫,公司200多人被抓!》。最近的网络报道此类的新闻还有很多。
在正式内容开始之前,提醒各位读者敬畏法律,热爱生活。
老规矩,先百度一波看看百度释义:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
讲点接地气的就是我们把平时使用的网络看成是一张大蜘蛛网,每个站点看做是这张网上面的一个一个的节点,爬虫好比是一只蜘蛛,在这张网上面按照一定的或者已经设计好的路线,找到目标节点获取所需资源。
为什么使用爬虫
平时我们在上网的时候,看到一些感兴趣的网络资源,可以使用复制黏贴的方式将这些资源下载回来,比如看知乎的时候,一些回答很精彩的高赞回答,数据量小的时候,我们动动鼠标右键也就搞定了,但是如果这种数据量非常大,有时候可以大到超出你的想像,再用鼠标右键复制黏贴就有些捉襟见肘了。
上图是博主在用的鼠标,非广告,型号我就不贴了。
这时,我们就需要勤劳的爬虫出马了,爬虫这种“生物”,可以全天候24小时候不间断工作,只需提供必要的网络和电力,就可以一直勤劳的工作下去,让你解放双手,再也无需人工使用 CV 大法了。
可以看出,爬虫非常适合帮我们做两类事情:
- 大量数据的提取,在一定规则条件下。
- 完全自动化,无需人工过多干预。
想像一下,当老板让你搜索某类信息时,写一只勤劳的小爬虫,自己在旁边泡上一杯清茶,拿起手机开始愉快的玩耍,时不时的看这只爬虫有没有完成工作,这场景一下让我想起了万恶的资本家压榨劳动力。
小结
本篇文章为各位同学介绍了爬虫的基本概念,让大家对爬虫有一个大致的了解,以便后续章节的学习。开胃菜吃完了,下一节我们就要开始吃大餐了哟,你准备好了吗?
小白学 Python 爬虫(1):开篇的更多相关文章
- 小白学 Python 爬虫(2):前置准备(一)基本类库的安装
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 本篇内容较长,各位同学可以先收藏后再看~~ 在开始讲爬虫之前,还是先把环境搞搞好,工欲善其事必先利其器嘛~~~ 本篇 ...
- 小白学 Python 爬虫(3):前置准备(二)Linux基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 Linux 基础 CentOS 官网: https: ...
- 小白学 Python 爬虫(4):前置准备(三)Docker基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(5):前置准备(四)数据库基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(7):HTTP 基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(8):网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(9):爬虫基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(10):Session 和 Cookies
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
随机推荐
- PMP 项目管理第六版- 组织治理与项目治理之间的关系
组织治理: 1.组织治理通过制定政策和流程,用结构化方式指明工作方向并进行控制,以便实现战略和运营目标. 2,组织治理通常由董事会执行,以确保对相关方的最终责任得以落实,并保持公平和透明. 项目治理: ...
- std::tuple
tuple,元组类型.头文件<tuple>,tuple是一个固定大小的不同类型(异质,heterogeneous)值的集合(这一点是tuple与其他常规STL容器的最大不同,即它可以同时存 ...
- VoodooPad Mac笔记本
VoodooPad Mac笔记本 VoodooPad是记录您的笔记和想法的地方.想法,图片,列表,密码和妈妈的苹果派食谱.包括您需要跟踪和组织的所有内容,VoodooPad会与您一起成长而不会妨碍您. ...
- Python中文件路径名的操作
1 文件路径名操作 对于文件路径名的操作在编程中是必不可少的,比如说,有时候要列举一个路径下的文件,那么首先就要获取一个路径,再就是路径名的一个拼接问题,通过字符串的拼接就可以得到一个路径名.Pyth ...
- Just 5分钟!使用k3s部署轻量Kubernetes集群快速教程
大小仅有40MB的k3s为想要节省开销进行开发和测试的企业提供了一个很好的选择.本文将用一种极为简洁的方式,教你在5分钟之内使用k3s部署轻量Kubernetes集群. Kubernetes已经改变了 ...
- numpy+pandas+ matplotlib模块(day18)
目录 numpy模块 二维数组 numpy数组的属性 T 数组的装置 dtype 数组元素的数据类型 size 数组元素的个数 ndim 数组的维数 shape数组的维度大小 astype 类型转换 ...
- redis入门(二)
目录 redis入门(二) 前言 持久化 RDB AOF 持久化文件加载 高可用 哨兵 流程 安装部署 配置技巧 集群 原理 集群搭建 参考文档 redis入门(二) 前言 在redis入门(一)简单 ...
- 设计模式(十八)Memento模式
在使用面向对象编程的方式实现撤销功能时,需要事先保存实例的相关状态信息.然后,在撤销时,还需要根据所保存的信息将实例恢复至原来的状态. 要想恢复实例,需要一个可以自由访问实例内部结构的权限.但是,如果 ...
- Display(显示) 与 Visibility(可见性)
display属性设置一个元素应如何显示,visibility属性指定一个元素应可见还是隐藏. 隐藏元素 - display:none或visibility:hidden 隐藏一个元素可以通过把dis ...
- MongoDB分页查询优化方法
在网上看到很多关于MongoDB分页查询优化的文章,如出一辙.笔者自己实际生产中也遇到此问题,所以看了很多篇文章,这里分享一篇简明扼要的文章分享给大家,希望对大家在使用MongoDB时有所帮助. 凡事 ...