知乎的一个讲python的专栏,其中爬虫的几篇文章,偏入门解释,快速看了一遍。

入门

爬虫基本原理:用最简单的代码抓取最基础的网页,展现爬虫的最基本思想,让读者知道爬虫其实是一件非常简单的事情。

爬虫代码改进:这部分是一系列文章,从程序设计的角度来讲,是爬虫中要掌握的基本代码设计思路。主要从两方面对之前代码进行改进:一个是代码设计的角度,让读者习惯于定义函数、使用生成器等;第二是展现多页抓取、抓取二级页面的代码逻辑。

爬虫相关库的安装:讲述本专题将会使用到的所有库的安装方法,有的简单,有的会有些复杂。这篇文章主要帮助读者扫除学习过程中不必要的障碍。

学完这三部分,读者就可以自由抓取数据量不大、又没有反爬机制的网站了(其实这种网站还是非常多的)。

网页解析与数据存储

python中提供了很多网页解析方法;同时,根据不同的需求可能要存储成不同文件格式或数据库,所以这一部分将二者合起来讲。每一部分一篇理论,一篇实战;每一部分使用一个解析库,存储为一种文件格式。

注:这些解析方法是彼此替代的关系(虽然各有优劣),基本上只要掌握一种就可以了,而文件存储最好全部掌握

beautifulsoup详解:这篇文章全面讲解beautifulsoup解析库的使用

bs4+json抓取实战:json介绍、抓取stackoverflow中python最新问题数据存储到json文件

xpath详解:这篇文章全面讲解xpath解析语法的使用

xpath+mongodb抓取实战:抓取伯乐在线python爬虫页面数据存储到mongodb数据库

pyquery详解:这篇文章全面讲解css解析语法的使用

pyquery+mysql抓取实战:抓取赶集网小狗数据存储到mysql

正则表达式+csv/txt抓取实战:正则表达式网上教程非常多,这里对使用方法就不赘述了,只是提供正则用于网页抓取的方法。这里抓取豆瓣top250中相对比较难整理的数据。

selenium详解:这篇文章全面讲解beautifulsoup解析库的使用

selenium抓取实战:抓取新浪微博数据

各种网页解析库的对比

到这里就把流行的网页解析库和数据存储方式讲了一个遍,掌握这些之后,网页解析和数据存储都难不倒你了,你就可以专心攻克各种反爬虫机制了。

友情提醒:对于没有时间的同学来说,这部分其实都可以不用系统地学,先行略过,看一些反爬措施,等到遇到问题,再把文章当文档一样查就可以了,不过事先学过的话,写代码会很得心应手。

积累经验

在实际操作过程中,我们会遇到一些阻碍,比如限制headers、登录验证、限制ip、动态加载等反爬手段,还有爬app,get/post请求等等。

这些都是一个一个的小问题,在有了之前基础的前提下,解决这些问题应该不是难事。这个过程最重要的就是积累,多爬多掉坑,经验自然就丰富了。

这部分就以每一篇文章解决一个问题的形式来讲,考虑到本人水平有限,肯定不能覆盖所有的坑,尽量填吧!

一些简单的反爬虫技巧:包括UA设置及技巧,cookies设置,延迟等最基本的反爬手段

使用代理:抓取页面非常多的时候,我们的ip地址会被封掉,所以就可以使用代理来不断更换ip

ajax动态加载网页的抓取

看完上面这三篇文章,多数的网页都可以自由抓取了,反爬技巧可以先看到这里,先去学scrapy框架,使日常的爬虫变得更方便,如果有其他网页涉及到其他反爬手段现查就可以了。

抓包介绍

网页状态码解析

post请求

抓取app数据

requests深入介绍

scrapy爬虫框架系列:这个系列会再重新从scrapy的安装,基本概念开始讲起,逐渐深入讲解。

python爬虫专栏学习的更多相关文章

  1. Python爬虫系统化学习(2)

    Python爬虫系统学习(2) 动态网页爬取 当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用.因此我们需要用动态网页抓取的两种技术:通过浏览 ...

  2. Python爬虫系统学习(1)

    Python爬虫系统化学习(1) 前言:爬虫的学习对生活中很多事情都很有帮助,比如买房的时候爬取房价,爬取影评之类的,学习爬虫也是在提升对Python的掌握,所以我准备用2-3周的晚上时间,提升自己对 ...

  3. Python爬虫系统化学习(4)

    Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两 ...

  4. Python爬虫系统化学习(5)

    Python爬虫系统化学习(5) 多线程爬虫,在之前的网络编程中,我学习过多线程socket进行单服务器对多客户端的连接,通过使用多线程编程,可以大大提升爬虫的效率. Python多线程爬虫主要由三部 ...

  5. 一个Python爬虫工程师学习养成记

    大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...

  6. Python爬虫的学习经历

    在准备学习人工智能之前呢,我看了一下大体的学习纲领.发现排在前面的是PYTHON的基础知识和爬虫相关的知识,再者就是相关的数学算法与金融分析.不过想来也是,如果想进行大量的数据运算与分析,宏大的基础数 ...

  7. python爬虫scrapy学习之篇二

    继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...

  8. 【Python爬虫案例学习】下载某图片网站的所有图集

    前言 其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 基本环境配置 python 版本:2.7 ...

  9. Python爬虫系统化学习(3)

    一般来说当我们爬取网页的整个源代码后,是需要对网页进行解析的. 正常的解析方法有三种 ①:正则匹配解析 ②:BeatuifulSoup解析 ③:lxml解析 正则匹配解析: 在之前的学习中,我们学习过 ...

随机推荐

  1. jQuary总结1:jQuary的优点和地位

    1 什么是jQuery? jQuery是一个快速,小巧,功能丰富的JavaScript库. javascript库: 就是存放javascript代码的仓库 jQuery作为一个迭代多年的优秀框架,是 ...

  2. javascript总结45: HTML DOM media 属性

    定义和用法 media 属性设置或返回显示文档的设备. 对于样式信息而言,目标媒介非常重要.移动设备和桌面计算机的样式可能是不同的. 实例 <html> <head> < ...

  3. 设计模式3---工厂模式(Factory Pattern简单工厂、工厂方法、抽象工厂)

    工厂模式:主要用来实例化有共同接口的类,工厂模式可以动态决定应该实例化那一个类.工厂模式的形态工厂模式主要用一下几种形态:1:简单工厂(Simple Factory).2:工厂方法(Factory M ...

  4. Java文件路径

    几大常用的方法 Class.getResource("")    返回的是当前Class这个类所在包开始的位置 getClassLoader().getResource(" ...

  5. opencv——pcb上寻找mark点(拟合椭圆的方法)

    #include "stdafx.h" // FitCircle.cpp : 定义控制台应用程序的入口 #include "cv.h" #include &qu ...

  6. 解决SqlServer 2005 sa帐户不能登录问题

    允许 sa 用户远程是很危险的.推荐的做法是在本地新建一个允许远程连接的用户. 1.启用TCP/IP协议. 2.配置监听端口(1433). net -an 检查本地端口是否建立监听,使用 在线IP端口 ...

  7. IdentityServer4与ocelot实现认证与客户端统一入口

    关于IdentityServer4与ocelot博客园里已经有很多介绍我这里就不再重复了. ocelot与IdentityServer4组合认证博客园里也有很多,但大多使用ocelot内置的认证,而且 ...

  8. .Net Core 自动化部署:使用jenkins部署到linux docker容器运行

    上次我们说到.Net Core 自动化部署:使用docker版jenkins部署dotnetcore应用,这次我们使用jenkins发布我们的.NET Core站点到docker容器中运行,为后面的的 ...

  9. ES6——介绍

    什么是ES6? ECMAScript 6.0 (简称ES6)是继ECMAScript 5.1 之后 JavaScript 语言的下一代标准,发布在2015年6月.他的目标,是使得 JavaScript ...

  10. Https&证书

    参考 http站点转https站点教程 http站点转https站点教程 HTTP与HTTPS的区别 Http站点转为Https: 为域名购买/申请证书(免费型DV SSL) 把证书部署到web se ...