python爬虫如何入门

学爬虫是循序渐进的过程，作为零基础小白，大体上可分为三个阶段，第一阶段是入门，掌握必备的基础知识，第二阶段是模仿，跟着别人的爬虫代码学，弄懂每一行代码，第三阶段是自己动手，这个阶段你开始有自己的解题思路了，可以独立设计爬虫系统。

爬虫涉及的技术包括但不限于熟练一门编程语言（这里以 Python 为例） HTML 知识、HTTP/HTTPS 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。爬虫只是为了获取数据，分析、挖掘这些数据才是价值，因此它还可以延伸到数据分析、数据挖掘等领域，给企业做决策，所以作为一名爬虫工程师，是大有可为的。

那么是不是一定要把上面的知识全学完了才可以开始写爬虫吗？当然不是，学习是一辈子的事，只要你会写 Python 代码了，就直接上手爬虫，好比学车，只要能开动了就上路吧，当然写代码可比开车安全多了。

用 Python 写爬虫，首先需要会 Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如 list、dict 中的常用方法就算基本入门。接着你需要了解 HTML，HTML 就是一个文档树结构，网上有个 HTML 30分钟入门教程够用了。然后是关于 HTTP 的知识，爬虫基本原理就是通过网络请求从远程服务器下载数据的过程，而这个网络请求背后的技术就是基于 HTTP 协议。作为入门爬虫来说，你需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合。

网络请求框架都是对 HTTP 协议的实现，比如著名的网络请求库 Requests 就是一个模拟浏览器发送 HTTP 请求的网络库。了解 HTTP 协议之后，你就可以专门有针对性的学习和网络相关的模块了，比如 Python 自带有 urllib、urllib2（Python3中的urllib），httplib，Cookie等内容，当然你可以直接跳过这些，直接学习 Requests 怎么用，前提是你熟悉了 HTTP协议的基本内容。这里不得不推荐的一本书是《图解HTTP》。数据爬下来，大部分情况是 HTML 文本，也有少数是基于 XML 格式或者 Json 格式的数据，要想正确处理这些数据，你要熟悉每种数据类型的解决方案，比如JSON数据可以直接使用 Python自带的模块 json，对于 HTML 数据，可以使用 BeautifulSoup、lxml 等库去处理，对于 xml 数据，除了可以使用 untangle、xmltodict等第三方库。

入门爬虫，学习正则表达式并不是必须的，你可以在你真正需要的时候再去学，比如你把数据爬取回来后，需要对数据进行清洗，当你发现使用常规的字符串操作方法根本没法处理时，这时你可以尝试了解一下正则表达式，往往它能起到事半功倍的效果。Python 的 re 模块可用来处理正则表达式。这里也推荐几个教程：正则表达式30分钟入门教程 Python正则表达式指南正则表达式完全指南

数据清洗完最终要进行持久化存储，你可以用文件存储，比如CSV文件，也可以用数据库存储，简单的用 sqlite，专业点用 MySQL，或者是分布式的文档数据库 MongoDB，这些数据库对Python都非常友好，有现成的库支持。 Python操作MySQL数据库通过Python连接数据库

从数据的抓取到清洗再到存储的基本流程都走完了，也算是基本入门了，接下来就是考验内功的时候了，很多网站都设有反爬虫策略，他们想方设法阻止你用非正常手段获取数据，比如会有各种奇奇怪怪的验证码限制你的请求操作、对请求速度做限制，对IP做限制、甚至对数据进行加密操作，总之，就是为了提高获取数据的成本。这时你需要掌握的知识就要更多了，你需要深入理解 HTTP 协议，你需要理解常见的加解密算法，你要理解 HTTP 中的 cookie，HTTP 代理，HTTP中的各种HEADER。爬虫与反爬虫就是相爱相杀的一对，道高一次魔高一丈。如何应对反爬虫没有既定的统一的解决方案，靠的是你的经验以及你所掌握的知识体系。这不是仅凭21天入门教程就能达到的高度。

数据结构和算法

进行大规模爬虫，通常都是从一个URL开始爬，然后把页面中解析的URL链接加入待爬的URL集合中，我们需要用到队列或者优先队列来区别对待有些网站优先爬，有些网站后面爬。每爬去一个页面，是使用深度优先还是广度优先算法爬取下一个链接。每次发起网络请求的时候，会涉及到一个DNS的解析过程（将网址转换成IP）为了避免重复地 DNS 解析，我们需要把解析好的 IP 缓存下来。URL那么多，如何判断哪些网址已经爬过，哪些没有爬过，简单点就是是使用字典结构来存储已经爬过的的URL，但是如果碰过海量的URL时，字典占用的内存空间非常大，此时你需要考虑使用 Bloom Filter（布隆过滤器），用一个线程逐个地爬取数据，效率低得可怜，如果提高爬虫效率，是使用多线程，多进程还是协程，还是分布式操作。

关于实践

网上的爬虫教程多如牛毛，原理大体相同，只不过是换个不同的网站进行爬取，你可以跟着网上的教程学习模拟登录一个网站，模拟打卡之类的，爬个豆瓣的电影、书籍之类的。通过不断地练习，从遇到问题到解决问题，这样的收获看书没法比拟的。

爬虫常用库

urllib、urlib2（Python中的urllib）python内建的网络请求库

urllib3：线程安全的HTTP网络请求库

requests：使用最广泛的网络请求库，兼容py2和py3

grequests：异步的requests

BeautifulSoup：HTML、XML操作解析库

lxml：另一种处理 HTML、XML的方式

tornado：异步网络框架

Gevent：异步网络框架

Scrapy：最流行的爬虫框架

pyspider：爬虫框架

xmltodict：xml转换成字典

pyquery：像jQuery一样操作HTML

Jieba ：分词

SQLAlchemy：ORM框架

celery ：消息队列

rq：简单消息队列

python-goose ：从HTML中提取文本

书籍

《图解HTTP》

《HTTP权威指南》

《计算机网络：自顶向下方法》

《用Python写网络爬虫》

《Python网络数据采集》

《精通正则表达式》

《Python入门到实践》

《自己动手写网络爬虫》

《Crypto101》

《图解密码技术》

教程

Python爬虫学习系列教程

Python入门网络爬虫之精华版

Python网络爬虫

爬虫入门系列

python爬虫如何入门的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
python爬虫从入门到放弃前奏之学习方法
首谈方法最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通 ...
Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...

随机推荐

Axios源码阅读笔记#1 默认配置项
Promise based HTTP client for the browser and node.js 这是 Axios 的定义,Axios 是基于 Promise,用于HTTP客户端--浏览器和 ...
[解读REST] 4.基于网络应用的架构风格
上篇文章介绍了一组自洽的术语来描述和解释软件架构:如何利用架构属性评估一个架构风格:以及对于基于网络的应用架构来说,那些架构属性是值得我们重点关注评估的.本篇在以上的基础上,列举一下一些常见的(RES ...
②jquery复习
# jQuery 复习--by 传智前端与移动开发学院 ## 1. jQuery是什么?(了解)+ www.github.com+ jQuery 其实就是一堆的js函数,是普通的js,只不过应用广泛, ...
Nodejs最好的ORM - TypeORM
TypeORM是一个采用TypeScript编写的用于Node.js的优秀ORM框架,支持使用TypeScript或Javascript(ES5, ES6, ES7)开发.目标是保持支持最新的Java ...
我的第一个python web开发框架（3）——怎么开始？
小白与小美公司经过几次接触商谈,好不容易将外包签订了下来,准备开始大干一场.不过小白由于没有太多的项目经验,学过python懂得python的基本语法,在公司跟着大家做过简单功能,另外还会一些HTML ...
YYHS-NOIP2017Training0928-ZCC loves Isaac
题目描述 [背景]ZCC又在打Isaac.这次他打通了宝箱关进入了表箱关.[题目描述]表箱关有一个房间非常可怕,它由n个变异天启组成.每个天启都会在进入房间后吐出绿弹并炸向某一个位置且范围内只有一个天 ...
PHP中public、protected、private权限修饰符
PHP中有三种访问修饰符默认是public public(公共的.默认) protected(受保护的) private(私有的) 访问权限 public protected private 类内 ...
JAVA设计模式总结之23种设计模式
上一篇总结了设计模式的六大原则<JAVA设计模式总结之六大设计原则>,这一篇,正式进入到介绍23种设计模式的归纳总结. 一.什么是设计模式 ...
const的用法，特别是用在函数前面与后面的区别！
const的用法,特别是用在函数后面在普通的非 const成员函数中,this的类型是一个指向类类型的 const指针.可以改变this所指向的值,但不能改变 this所保存的地址. 在 const ...
运行Chromium浏览器缺少google api密钥无法登录谷歌账号的解决办法
管理员身份运行CMD,然后依次输入以下三行内容: setx GOOGLE_API_KEY "AIzaSyAUoSnO_8k-3D4-fOp-CFopA_NQAkoVCLw"setx ...

python爬虫如何入门

python爬虫如何入门的更多相关文章

随机推荐

热门专题