Python 网络爬虫 001 (科普) 网络爬虫简介

1. 网络爬虫是干什么的

我举几个生活中的例子:

例子一:

我平时会将 学到的知识积累的经验 写成博客发送到CSDN博客网站上,那么对于我写的Blender 3D 建模方面的博文,里面有很多的图片。如果我要发布一篇 Blender 3D 建模的博文的话,图片要一张一张的上传,上传的速度有时也是很慢,整个发表一遍这样的博文,我光 上传图片 就要操作半个多小时,这样效率太低了。

我能不能写一个程序,让它自动在后台帮我上传图片?

例子二:

我这个人比较懒,懒到什么程度呢:我不愿意出去吃饭,基本上 一日三餐 都是网上订外卖。其实我每次定的外卖都是那几道菜。(因为好吃的外卖太少了。)那我就是很懒,定外卖我都不愿意自己定,我就希望一到吃饭时间,就有人主动过来给我送饭。因为我有选择障碍,每次饿的时候,定外卖我都要选很久,最后还是定了经常吃的菜,不但浪费时间,而且重点是:我现在肚子是饿的,外卖最快的都要半个小时之后才送到。

我能不能写一个程序,它自动帮我订一日三餐的外卖?

例子三:

如果你开了一家淘宝网店,你想及时了解竞争对手们的商品价钱,好做相应的对策。我每天都要访问他们的淘宝网店,再与我自家的网店商品价钱做对比,如果发现竞争对手的商品的价钱有改动,我自家的网店里同样的商品的 价钱也要跟着进行相应的改动。这是要发费大量的时间的。一个大写的 “烦” 字表达了我现在的心情。我都开网店了,大大小小也是个老板啊,老板的时间多宝贵啊,我要是每天都做这样的事情,那我一天都得损失好几个亿啊!

我能不能写一个程序,让它来实时监视竞争对手网店里面商品的价钱,并且自动对自家网店里的商品的价钱做相应的修改呢?

这些现实生活中的问题,最终的答案都是:是的,你可以写这样的程序,来帮助你提高工作效率。

通过本博客专栏的教程,你可以用网络爬虫技术实现这些重复性任务的自动化处理。

2. 网络爬虫是否合法

是的,对于像我这种懒人来说,网络爬虫真的是偶的救星啊!我不但可以帮助你提高工作效率,而且可以帮你爬取到任何一个网站上的所有信息。那么问题来了:网络爬虫是否合法?

怎么说呢,现在(2016-9-2 21:34:06)中国还没有相关的法律规定。

不过万事万物都要有一个度,如果你肆无忌惮的进行自己的抓取行为,你可能会犯法。

3. 网络爬虫 官方介绍

最后,还是要贴出官方对网络爬虫的介绍:

网络爬虫(Web crawler)也叫网络蜘蛛(Web spider),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。


总结:

这一节,我了解了什么是网络爬虫。下一节,我们来介绍:在爬取一个网站前,首先要对目标站点的规模和结果进行一定程度的了解。

Python 网络爬虫 001 (科普) 网络爬虫简介的更多相关文章

  1. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

  2. 【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用

    [网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用   1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...

  3. iOS开发——网络实用技术OC篇&网络爬虫-使用青花瓷抓取网络数据

    网络爬虫-使用青花瓷抓取网络数据 由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...

  4. python3编写网络爬虫23-分布式爬虫

    一.分布式爬虫 前面我们了解Scrapy爬虫框架的基本用法 这些框架都是在同一台主机运行的 爬取效率有限 如果多台主机协同爬取 爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...

  5. Python爬虫与数据分析之爬虫技能:urlib库、xpath选择器、正则表达式

    专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

  6. python 全栈开发,Day137(爬虫系列之第4章-scrapy框架)

    一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...

  7. Python爬虫合集:花6k学习爬虫,终于知道爬虫能干嘛了

    爬虫Ⅰ:爬虫的基础知识 爬虫的基础知识使用实例.应用技巧.基本知识点总结和需要注意事项 爬虫初始: 爬虫: + Request + Scrapy 数据分析+机器学习 + numpy,pandas,ma ...

  8. Python 爬虫3——第一个爬虫脚本的创建

    在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页, ...

  9. 2.Python爬虫入门二之爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

随机推荐

  1. this license has been cancelled

    是因为IDEA注册码的问题, 解决方案: 修改此路径的hosts文件:C:\Windows\System32\drivers\etc\hosts 在其最后一行加入:“0.0.0.0 account.j ...

  2. LeetCode OJ:Largest Number(最大数字)

    Given a list of non negative integers, arrange them such that they form the largest number. For exam ...

  3. 马拉车——Manacher一篇看上去很靠谱的理解(代码显然易懂)

    由于回文分为偶回文(比如 bccb)和奇回文(比如 bcacb),而在处理奇偶问题上会比较繁琐,所以这里我们使用一个技巧,在字符间插入一个字符(前提这个字符未出现在串里).举个例子:s="a ...

  4. python导入图片

    一.导入图片资源 方法1:直接从源图片中导(图片位于images文件夹内) self.label1=QLabel(self)self.label1.setPixmap(QPixmap(r"i ...

  5. grep---Linux下文本处理五大神器之五

    转自:http://www.cnblogs.com/dong008259/archive/2011/12/12/2285264.html grep是linux中很常用的一个命令,主要功能就是进行字符串 ...

  6. C#面向对象(四):其他面向对象知识

    前文链接: C#面向对象(一):明确几个简单的概念作为开胃菜 C#面向对象(二):封装和继承 C#面向对象(三):多态 今天是这个系列的收尾文章了,来谈谈其他面向对象知识. 1.嵌套类 1.1概念 在 ...

  7. Too Rich(贪心加搜索)

    个人心得:10月份月赛题目,很low,就过了一道水题而且是把所有猜测都提交才过的.这段时间不知道忙什么去了, 也没怎么刷题感觉自己越来越差,还不如新来的大一学弟呢,别人起码天天刷代码到半夜,比起刚在区 ...

  8. 设置nodepad++的编码问题

  9. 月薪3万Java程序员要达到的技术层次

    要达到月薪3万,一般要在北上广深杭知名的互联网公司,同时要在某一个知识领域达到专家级别,而不是简单的掌握SSH那么简单.虽然对部分人有点难,但目标还是要有的,万一实现呢? 首先三万的月薪在BAT实在太 ...

  10. vue.js初学(三)模板语法

    1:介绍 vue.js允许开发者声明式地将Dom元素绑定至Vue实例的底层,所有的模板都是合法的html,所以能够被遵循规范的浏览器和html解析器解析 在底层的实现上,vue将模板编译成虚拟Dom渲 ...