Python 网络爬虫 001 (科普) 网络爬虫简介

1. 网络爬虫是干什么的

我举几个生活中的例子:

例子一:

我平时会将 学到的知识积累的经验 写成博客发送到CSDN博客网站上,那么对于我写的Blender 3D 建模方面的博文,里面有很多的图片。如果我要发布一篇 Blender 3D 建模的博文的话,图片要一张一张的上传,上传的速度有时也是很慢,整个发表一遍这样的博文,我光 上传图片 就要操作半个多小时,这样效率太低了。

我能不能写一个程序,让它自动在后台帮我上传图片?

例子二:

我这个人比较懒,懒到什么程度呢:我不愿意出去吃饭,基本上 一日三餐 都是网上订外卖。其实我每次定的外卖都是那几道菜。(因为好吃的外卖太少了。)那我就是很懒,定外卖我都不愿意自己定,我就希望一到吃饭时间,就有人主动过来给我送饭。因为我有选择障碍,每次饿的时候,定外卖我都要选很久,最后还是定了经常吃的菜,不但浪费时间,而且重点是:我现在肚子是饿的,外卖最快的都要半个小时之后才送到。

我能不能写一个程序,它自动帮我订一日三餐的外卖?

例子三:

如果你开了一家淘宝网店,你想及时了解竞争对手们的商品价钱,好做相应的对策。我每天都要访问他们的淘宝网店,再与我自家的网店商品价钱做对比,如果发现竞争对手的商品的价钱有改动,我自家的网店里同样的商品的 价钱也要跟着进行相应的改动。这是要发费大量的时间的。一个大写的 “烦” 字表达了我现在的心情。我都开网店了,大大小小也是个老板啊,老板的时间多宝贵啊,我要是每天都做这样的事情,那我一天都得损失好几个亿啊!

我能不能写一个程序,让它来实时监视竞争对手网店里面商品的价钱,并且自动对自家网店里的商品的价钱做相应的修改呢?

这些现实生活中的问题,最终的答案都是:是的,你可以写这样的程序,来帮助你提高工作效率。

通过本博客专栏的教程,你可以用网络爬虫技术实现这些重复性任务的自动化处理。

2. 网络爬虫是否合法

是的,对于像我这种懒人来说,网络爬虫真的是偶的救星啊!我不但可以帮助你提高工作效率,而且可以帮你爬取到任何一个网站上的所有信息。那么问题来了:网络爬虫是否合法?

怎么说呢,现在(2016-9-2 21:34:06)中国还没有相关的法律规定。

不过万事万物都要有一个度,如果你肆无忌惮的进行自己的抓取行为,你可能会犯法。

3. 网络爬虫 官方介绍

最后,还是要贴出官方对网络爬虫的介绍:

网络爬虫(Web crawler)也叫网络蜘蛛(Web spider),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。


总结:

这一节,我了解了什么是网络爬虫。下一节,我们来介绍:在爬取一个网站前,首先要对目标站点的规模和结果进行一定程度的了解。

Python 网络爬虫 001 (科普) 网络爬虫简介的更多相关文章

  1. 使用Python爬虫爬取网络美女图片

    代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...

  2. 【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用

    [网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用   1.引言 网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...

  3. iOS开发——网络实用技术OC篇&网络爬虫-使用青花瓷抓取网络数据

    网络爬虫-使用青花瓷抓取网络数据 由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...

  4. python3编写网络爬虫23-分布式爬虫

    一.分布式爬虫 前面我们了解Scrapy爬虫框架的基本用法 这些框架都是在同一台主机运行的 爬取效率有限 如果多台主机协同爬取 爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...

  5. Python爬虫与数据分析之爬虫技能:urlib库、xpath选择器、正则表达式

    专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

  6. python 全栈开发,Day137(爬虫系列之第4章-scrapy框架)

    一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...

  7. Python爬虫合集:花6k学习爬虫,终于知道爬虫能干嘛了

    爬虫Ⅰ:爬虫的基础知识 爬虫的基础知识使用实例.应用技巧.基本知识点总结和需要注意事项 爬虫初始: 爬虫: + Request + Scrapy 数据分析+机器学习 + numpy,pandas,ma ...

  8. Python 爬虫3——第一个爬虫脚本的创建

    在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页, ...

  9. 2.Python爬虫入门二之爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

随机推荐

  1. Node.js 常用工具 (util.inherits)

    util 是一个Node.js 核心模块,提供常用函数的集合,用于弥补核心JavaScript 的功能 过于精简的不足. util.inherits util.inherits(constructor ...

  2. jspm

    1.简介 JavaScript 模块的写法有几种,比如 AMD,CommonJS .. 还有标准化的 ES6 的写法 .. jspm 支持加载所有的用这些方法写的 JavaScript 模块 在你的应 ...

  3. 1 Python 环境搭建

    Python可应用于多平台包括 Linux 和 Mac OS X. 你可以通过终端窗口输入 "python" 命令来查看本地是否已经安装Python以及Python的安装版本. U ...

  4. ElasticSearch_学习_00_资源帖

    一.官方资料 1.Elasticsearch 权威指南(中文版) 二.精选资料 1. 全文搜索引擎 Elasticsearch 入门教程-阮一峰 2. 三.参考资料

  5. Ajax与后台的交互

    Ajax Java 交互 jsp代码 <%@ page language="java" import="java.util.*" pageEncoding ...

  6. winform中的状态栏,以及在状态栏目上显示时间

    1:在winform上添加状态栏,并且在状态栏目上多添加几个label. step1:拖一个StatusStrip到winform上,名字默认为statusStrip1.找到statusStrip1的 ...

  7. 剑指offer--9.字符串的排列

    next_permutation(),还是那个feel ------------------------------------------------------------------------ ...

  8. C++中string的常见用法

    在ACM中主要用到string的这几个功能:赋值,添加,删除,替换,查找,比较,反向排序. 1.赋值 直接来就行: string ss; ss="aaa"; 或者 string s ...

  9. [leetcode]_Flatten Binary Tree to Linked List

    题目:将一棵二叉树履平成一个类似Linked-list的东西. 思路:该过程类似于二叉树的前序遍历,但是遍历代码,我处理不来参数的变化.没AC. -------->写的很好的解题博客 参考上述博 ...

  10. Unity物体上下反复漂浮效果

    using UnityEngine;using System.Collections;// 主界面的开始按钮使用该脚本,控制上下来回浮动public class Floating : MonoBeha ...