人生苦短,我用 Python

引言

各位同学大家好,好久不见(可能只有一两天没见:囧)~~~

先讲一件事情,昨天为啥没更新。

emmmmmmmmm,当然是因为加班啦,快到年底了,公司项目比较忙,最近的更新频率会有下降,请各位海涵。

废话不多说,开始今天的正题,从题目大家应该已经猜到了,小编要开始更新一个新的系列《小白学 Python 爬虫》,介于大家水平参差不齐,建议没有 Python 基础第一次接触的同学先看下小编之前更新的《小白学 Python 系列》,大致了解下 Python 的语法规则以及一些基础用法。

先自己吹一波水,这个系列小编计划做成长期更新系列,目前 Python 爬虫涉及到的第三方的类库有些多,还会有很多有关 web 编程方面的基础知识,因面向的群体主要是小白,这些内容都需要一一介绍,这会是一个大的系列。额,远超之前的 Python 基础。

额,忘了件事儿,再加一句题外话,最近公众号后台留言有点略多,很多同学的问题来不及回复就被留言冲的看不到了,这里请大家有问题可以添加小编的个人微信:allen_6174(放心加,这个是小编的个人生活微信号,和工作号是分开的)。

算了,顺便再打个广告吧:本爬虫系列文章后续将于公众号首发,个人博客站次日同步,第三方博客平台不定期同步,泥萌要不要关注我一下呢?

什么是爬虫?

不管是作为程序员还是小白,对爬虫这个词应该都不陌生,毕竟最近也发生了很多事情,很多人因为某些事情都进去了,具体情况我就不提了,容易被和谐。有想知道的同学可以翻一翻我之前公众号转的一篇文章《只因写了一段爬虫,公司200多人被抓!》。最近的网络报道此类的新闻还有很多。

在正式内容开始之前,提醒各位读者敬畏法律,热爱生活。

老规矩,先百度一波看看百度释义:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

讲点接地气的就是我们把平时使用的网络看成是一张大蜘蛛网,每个站点看做是这张网上面的一个一个的节点,爬虫好比是一只蜘蛛,在这张网上面按照一定的或者已经设计好的路线,找到目标节点获取所需资源。

为什么使用爬虫

平时我们在上网的时候,看到一些感兴趣的网络资源,可以使用复制黏贴的方式将这些资源下载回来,比如看知乎的时候,一些回答很精彩的高赞回答,数据量小的时候,我们动动鼠标右键也就搞定了,但是如果这种数据量非常大,有时候可以大到超出你的想像,再用鼠标右键复制黏贴就有些捉襟见肘了。

上图是博主在用的鼠标,非广告,型号我就不贴了。

这时,我们就需要勤劳的爬虫出马了,爬虫这种“生物”,可以全天候24小时候不间断工作,只需提供必要的网络和电力,就可以一直勤劳的工作下去,让你解放双手,再也无需人工使用 CV 大法了。

可以看出,爬虫非常适合帮我们做两类事情:

  • 大量数据的提取,在一定规则条件下。
  • 完全自动化,无需人工过多干预。

想像一下,当老板让你搜索某类信息时,写一只勤劳的小爬虫,自己在旁边泡上一杯清茶,拿起手机开始愉快的玩耍,时不时的看这只爬虫有没有完成工作,这场景一下让我想起了万恶的资本家压榨劳动力。

小结

本篇文章为各位同学介绍了爬虫的基本概念,让大家对爬虫有一个大致的了解,以便后续章节的学习。开胃菜吃完了,下一节我们就要开始吃大餐了哟,你准备好了吗?

小白学 Python 爬虫(1):开篇的更多相关文章

  1. 小白学 Python 爬虫(2):前置准备(一)基本类库的安装

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 本篇内容较长,各位同学可以先收藏后再看~~ 在开始讲爬虫之前,还是先把环境搞搞好,工欲善其事必先利其器嘛~~~ 本篇 ...

  2. 小白学 Python 爬虫(3):前置准备(二)Linux基础入门

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 Linux 基础 CentOS 官网: https: ...

  3. 小白学 Python 爬虫(4):前置准备(三)Docker基础入门

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  4. 小白学 Python 爬虫(5):前置准备(四)数据库基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  5. 小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  6. 小白学 Python 爬虫(7):HTTP 基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(8):网页基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(9):爬虫基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. 小白学 Python 爬虫(10):Session 和 Cookies

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

  1. [LUOGU3413] SAC#1 - 萌数

    题目背景 本题由世界上最蒟蒻最辣鸡最撒比的SOL提供. 寂月城网站是完美信息教室的官网.地址:http://191.101.11.174/mgzd . 题目描述 辣鸡蒟蒻SOL是一个傻逼,他居然觉得数 ...

  2. Vulnhub靶场渗透练习(三) bulldog

    拿到靶场后先对ip进行扫描 获取ip  和端口 针对项目路径爆破 获取两个有用文件 http://192.168.18.144/dev/ dev,admin 更具dev 发现他们用到框架和语言 找到一 ...

  3. 前端路由hash、history原理及简单的实践下

    阅读目录 一:什么是路由?前端有哪些路由?他们有哪些特性? 二:如何实现简单的hash路由? 三:如何实现简单的history路由? 四:hash和history路由一起实现 回到顶部 一:什么是路由 ...

  4. 百万年薪python之路 -- 运算符及while的练习

    1.判断下列逻辑语句的结果,一定要自己先分析 1)1 > 1 or 3 < 4 or 4 > 5 and 2 > 1 and 9 > 8 or 7 < 6 1 &g ...

  5. mp-vue拖拽组件的实现

    作为一个效率还不错的小前端,自己的任务做完之后真的好闲啊,千盼万盼终于盼来了业务的新需求,他要我多加一个排序题,然后用户通过拖拽来排序,项目经理看我是个实习生,说有点复杂做不出来就算了,我这么闲的一个 ...

  6. linux端口查询

    常用端口 下面的表格中列举了包括在红帽企业 Linux 中的服务.守护进程.和程序所使用的最常见的通信端口.该列表还可以在 /etc/services 文件中找到.要查看由互联网号码分派局(IANA) ...

  7. NetworkManager网络通讯_Example(一)

    ---恢复内容开始--- 用户手册,范例精讲. 用户手册上给出了一个简单的范例,并指出可以以此为基础进行相开发,再次对范例进行精讲.(NetworkManager对使用unity的轻量级游戏开发有很大 ...

  8. 写出float x 与“零值”比较的if语句——一道面试题分析

    写出float  x 与“零值”比较的if语句 请写出 float  x 与“零值”比较的 if 语句: const float EPSINON = 0.00001; if ((x >= - E ...

  9. Nginx专题(1):Nginx之反向代理及配置

    摘要:本文从Nginx的概念出发,分别从反向代理的概念.优势.配置代码3个方面介绍了Nginx的特性之一反向代理. 文章来源:宜信技术学院 & 宜信支付结算团队技术分享第一期-宜信支付结算八方 ...

  10. 通过Value获取Map中的键值Key的四种方法

    1 简介 我们都知道Map是存放键值对<Key,Value>的容器,知道了Key值,使用方法Map.get(key)能快速获取Value值.然而,有的时候我们需要反过来获取,知道Value ...