这是简易数据分析系列的第 18 篇文章. 利用 web scraper 抓取数据的时候,大家一定会遇到一个问题:数据是乱序的.在之前的教程里,我建议大家利用 Excel 等工具对数据二次加工排序,但还是存在部分数据无法排序的情况. 其实解决数据乱序的方法也有,那就是换一个数据库. web scraper 作为一个浏览器插件,数据默认保存在浏览器的 localStorage 数据库里.其实 web scraper 还支持外设数据库--CouchDB.只要切换成这个数据库,就可以在抓取过程中保证数据…
这是简易数据分析系列的第 16 篇文章. 这期课程我们讲一个用的较少的 Web Scraper 功能--抓取属性信息. 网页在展示信息的时候,除了我们看到的内容,其实还有很多隐藏的信息.我们拿豆瓣电影250举个例子: 电影图片正常显示的时候是这个样子: 如果网络异常,图片加载失败,就会显示图片的默认文案,这个文案其实就是这个图片的属性信息: 我们查看一下这个结构的 HTML(查看方法可见 CSS 选择器的使用的第一节内容),就会发现图片的默认文案其实就是这个 <img/> 标签的 alt 属性…
这是简易数据分析系列的第 5 篇文章. 上篇文章我们爬取了豆瓣电影 TOP250 前 25 个电影的数据,今天我们就要在原来的 Web Scraper 配置上做一些小改动,让爬虫把 250 条电影数据全部爬取下来. 前面我们同时说了,爬虫的本质就是找规律,当初这些程序员设计网页时,肯定会依循一些规则,当我们找到规律时,就可以预测他们的行为,达到我们的目的. 今天我们就找找豆瓣网站的规律,想办法抓取全部数据.今天的规律就从常常被人忽略的网址链接开始. 1.链接分析 我们先看看第一页的豆瓣网址链接:…
这是简易数据分析系列的第 15 篇文章. 年末事情比较忙,很久不更新了,后台一直有读者催更,我看了一些读者给我的私信,发现一些通用的问题,所以单独写篇文章,介绍一些 Web Scraper 的进阶用法. 今天我们就来学习一些 CSS 选择器的知识,辅助 Web Scraper 更好的定位要选择的元素. 一.定位 HTML 节点 HTML 是什么?它是一个网页的骨架,是最最基础的东西.比如说你现在看的这篇文章,其实就是一个网页,每一行字都是 HTML 里的一个 <p> 标签. 网页就是由一行一行…
这是简易数据分析系列的第 17 篇文章. 学习了这么多课,我想大家已经发现了,web scraper 主要是用来爬取文本信息的. 在爬取的过程中,我们经常会遇到一个问题:网页上的数据比较脏,我们只需要里面的一部分信息.比如说要抓取 电影的评价人数,网页中抓到的原始数据是 1926853人评价,但是我们期望只抓取数字,把 人评价 这三个汉字丢掉. 这种类似的操作在 Excel 可以利用公式等工具处理,其实在 web scraper 里,也有一个利器,那就是正则表达式. 正则表达式是一个非常强大工具…
web scraper 下载:Web-Scraper_v0.2.0.10 使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆.验证码.异步加载等复杂问题. Web Scraper插件 Web Scraper 官网中的简介: Web Scraper Extension (Free!)Using our extension you can create a plan (sitemap) how a web site…
这是简易数据分析系列的第 14 篇文章. 今天我们还来聊聊 Web Scraper 翻页的技巧. 这次的更新是受一位读者启发的,他当时想用 Web scraper 爬取一个分页器分页的网页,却发现我之前介绍的分页器翻页方法不管用.我研究了一下才发现我漏讲了一种很常见的翻页场景. 在 web scraper 翻页--分页器翻页的文章里,我们讲了如何利用 Element Click 选择器模拟鼠标点击分页器进行翻页,但是把同样的方法放在豆瓣 TOP 250 上,翻页到第二页时抓取窗口就会自动退出,一…
日常学习工作中,我们多多少少都会遇到一些数据爬取的需求,比如说写论文时要收集相关课题下的论文列表,运营活动时收集用户评价,竞品分析时收集友商数据. 当我们着手准备收集数据时,面对低效的复制黏贴工作,一般都会萌生一个想法:我要是会爬虫就好了,分分钟就把数据爬取下来了.可是当我们搜索相关教程时,往往会被高昂的学习成本所劝退.拿现在最通用的 python 爬虫来说,对于小白来说往往要跨过下面几座大山: 学习一门编程语言:python 学习网页的基础构成--HTML 标签和 CSS 选择器,有时候还要了…
这是简易数据分析系列的第 4 篇文章. 今天我们开始数据抓取的第一课,完成我们的第一个爬虫.因为是刚刚开始,操作我会讲的非常详细,可能会有些啰嗦,希望各位不要嫌弃啊:) 有人之前可能学过一些爬虫知识,总觉得这是个复杂的东西,什么 HTTP.HTML.IP 池,在这里我们都不考虑这些东西.一是小的数据量根本不需要考虑,二是这些乱七八糟的东西根本没有说到爬虫的本质. 爬虫的本质是什么?其实就是找规律. 而且爬虫的找规律难度,大部分都是小学三年级的数学题水平. 我们下面拿个例子说明一下,下图历史文章的…
这是简易数据分析系列的第 12 篇文章. 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据.点击"更多按钮"加载数据和下拉自动加载数据.今天我们说说一种更常见的翻页类型--分页器. 本来想解释一下啥叫分页器,翻了一堆定义觉得很繁琐,大家也不是第一年上网了,看张图就知道了.我找了个功能最全的例子,支持数字页码调整,上一页下一页和指定页数跳转. 今天我们就学学,Web Scraper 怎么对付这种类型的网页翻页. 其实我们在本教程的第一个例…