一般成熟的网站都会有反爬虫策略,例如限制访问次数,限制访问 IP,动态显示数据等。爬虫和反爬虫就是一直相爱相杀地互相钳制。如果要通过爬虫来获取某些大型网站的数据,那是一件很费时费力的活。小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击(呜呜~说的就是我)。

不过有一些公司心怀开放互联的态度,友好地给大家提供了 api 接口。这一篇博客将以豆瓣电影为例记录如何站在巨人(api)的肩膀上获取数据。不过豆瓣 api 现在貌似也逐渐收起来了,api key 也停止申请了,且用且珍惜了。

>> Required Packages


```r
library(httr)
library(jsonlite)
```

#### >> Get JSON


豆瓣电影的 url 还是很规律,比如说 id 为 27074316 的电影的 url 就是 https://movie.douban.com/subject/27074316 , 但是 id 的排序并不是规律的。例如一部 2000 年上映的电影的 id 可能会大于 2010 年上映的电影的 id。

豆瓣电影的 id 范围大约为 1300000 到 27200000,但其中可能会有一部分无效的 id。如果需要获取所有豆瓣电影的数据,那么就要遍历所有 id。如果只是需要一部分的数据,就要用到 search key。

比如 id 为 27074316 的电影的 api resource url 是

https://api.douban.com/v2/movie/subject/27074316?apikey={your_api_key}

比如搜索 2018年电影的 api resource url 是

https://api.douban.com//v2/movie/search?q=2018?apikey={your_api_key}

在浏览器中输入上述 url (记得替换为你的 api key) 是可以看见返回的 json 的,而在 R 中要获取 json 就要用到 package httr 中的 GET 函数。如果返回 200 则表示请求成功。

url <- https://api.douban.com/v2/movie/subject/27074316
film_json <- GET(url, query = list(apikey="your_api_key"))
if(status_code(film_json) == 200)
message("success\n")

#### >> Get Text


获取 json 后要读取里面需要的内容,例如获取电影名称,电影导演等:
```r
film_data % paste(collapse=",")
```
json 在浏览器中的文字都是挤成一团的很不好辨认 key-value pairs。在 R console 中执行下面的代码就可以清晰看到各组合了:
```r
toJSON(fromJSON(content(film_json, "text")), pretty=TRUE)
```

#### >> Loop over IDs


上面有提到说如果要获取全部数据那么我们就要尝试遍历所有 id。目前豆瓣对于 api 的访问频率是有限制的,我了解到的是每分钟不超过 40 次。所以在两次访问之间要设置合理的时间差。

而且并不是每个 id 都一定有对应的页面,因此在遍历的过程中还要剔除无效 id。这时候就可以用上 tryCatch 法器了。

basic_url <- "https://api.douban.com/v2/movie/subject/"
film <- data.frame()
for (ii in 1:100){ #just for example not real id
Sys.sleep(runif(1,1,2)) # set time interval
tryCatch(
{
url <- paste0(basic_url, ii)
film_json <- GET(url, query = list(apikey="your_api_key"))
if(status_code(film_json) != 200)
next
film <- rbind(film, getFilmInfo(film_json,ii)) #user-defined function
},
error = function(cond) {
message("Here's the original error message:")
message(cond)
message("\n")
}
)
}

以上只是抛砖引玉,而除了豆瓣以外还有很多可用的 api (可以上 Github 查一查),多加利用哦,数据就是生产力 !

获取豆瓣电影数据(R与API获取网页数据)的更多相关文章

  1. 如何获取豆瓣电影 API Key

    如何获取豆瓣电影 API Key 豆瓣 API Key 不能使用了 ! solutions & !== ? https://frodo.douban.com/api/v2/subject_co ...

  2. ajax的get方法获取豆瓣电影前10页的数据

    # _*_ coding : utf-8 _*_ # @Time : 2021/11/2 11:45 # @Author : 秋泊酱 # 1页数据 电影条数20 # https://movie.dou ...

  3. 【Python爬虫】:使用高性能异步多进程爬虫获取豆瓣电影Top250

    在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...

  4. Python3获取大量电影信息:调用API

    实验室这段时间要采集电影的信息,给出了一个很大的数据集,数据集包含了4000多个电影名,需要我写一个爬虫来爬取电影名对应的电影信息. 其实在实际运作中,根本就不需要爬虫,只需要一点简单的Python基 ...

  5. python爬取豆瓣电影第一页数据and使用with open() as读写文件

    # _*_ coding : utf-8 _*_ # @Time : 2021/11/2 9:58 # @Author : 秋泊酱 # @File : 获取豆瓣电影第一页 # @Project : 爬 ...

  6. PHP通过ZABBIX API获取主机信息 VS 直接从数据库获取主机信息

    最近项目需要获取linux主机的一些信息,如CPU使用率,内存使用情况等.由于我们本身就装了zabbix系统,所以我只用知道如何获取信息即可,总结有两种方法可以获取. 一.通过ZABBIX API获取 ...

  7. 用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

    抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...

  8. python pandas 豆瓣电影 top250 数据分析

    豆瓣电影top250数据分析 数据来源(豆瓣电影top250) 爬虫代码比较简单 数据较为真实,可以进行初步的数据分析 可以将前面的几篇文章中的介绍的数据预处理的方法进行实践 最后用matplotli ...

  9. 用python爬取豆瓣电影Top 250

    首先,打开豆瓣电影Top 250,然后进行网页分析.找到它的Host和User-agent,并保存下来. 然后,我们通过翻页,查看各页面的url,发现规律: 第一页:https://movie.dou ...

随机推荐

  1. 洛谷 p1541乌龟棋

    洛谷 p1541乌龟棋 题目背景 小明过生日的时候,爸爸送给他一副乌龟棋当作礼物. 题目描述 乌龟棋的棋盘是一行NN个格子,每个格子上一个分数(非负整数).棋盘第1格是唯一的起点,第NN格是终点,游戏 ...

  2. 使用Debug Diagnostic Tool排除内存泄漏故障

    在我之前的博文中(SQL Server内存泄漏),我解释了如何使用“!heap”命令识别哪个模块泄漏了内存.有时我们使用“!d”命令来找到模型或者使用搜索内存命令(s)不能通过显示内存找到原因. 在这 ...

  3. HTML input属性详谈

    value属性 value属性指定输入字段的初始值: <form> 名字:<br> <input type="text" name="you ...

  4. vue学习指南:第六篇(详细) - Vue的组件 component

    1. 什么是组件?有两种解释 1. 第一种解释: 什么是组件? 1. 组件是 vue 中的一个可复用的实例,所以new Vue() 是vue中最大的那个组件(根组件),有名字,使用的时候以单标签或双标 ...

  5. iOS深拷贝浅拷贝

    浅拷贝:浅拷贝并不拷贝对象本身,只是对指向对象的指针进行拷贝深拷贝:直接拷贝对象到内存中一块区域,然后把新对象的指针指向这块内存 在iOS中并不是所有对象都支持Copy和MutableCopy,遵循N ...

  6. Django Form 的主要内置字段介绍

    修改 urls.py,添加 path('field.html', views.field), 在 templates 下创建 field.html, 内容如下: <!DOCTYPE html&g ...

  7. Linux Kernel PANIC(三)--Soft Panic/Oops调试及实例分析【转】

    转自:https://blog.csdn.net/gatieme/article/details/73715860 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原 ...

  8. Dart Flutter

    下载Flutter Google下载地址: https://storage.googleapis.com/dart-archive/channels/stable/release/2.3.0/sdk/ ...

  9. Rust的多线程程序

    一定要用闭包? 感觉有点过了. use std::thread; use std::time::Duration; fn main() { let v = vec![, , ]; let handle ...

  10. flask中利用session实现用户记住密码

    “记住密码”的实质,实际上就是把cookie的有效期设置的长一点,当用户没有选择记住密码时,cookie的有效期为会话结束,选择记住密码后,会根据服务器的设置延长cookie的有效期,默认是31天.在 ...