R中使用rvest爬取数据小试

总结R中使用 xpath 和 css selectors 获取标签内容(xpath功能强大，而CSS选择器通常语法比较简洁，运行速度更快些)

例:抓取下面标签的内容：

	<h3 class="lister index unbold text"><span>小明他很忙</span></h3>

(1)使用xpath(与python里使用xpath 相似，R中可以使用html_text() 获取标签中的内容，如"<span>小明他很忙</span>"中标签内容为“小明他很忙”；使用html_att("属性") 获取属性值):

	rvest::html_nodes(webPage, xpath = '//h3[@class="lister index unbold text"]/span') %>% rvest::html_text()

(2)使用css选择器

使用之前，我们首先要了解一下几点内容：

1.在css中 "class" 用 "." 映射; "id" 用 "#" 映射

2.在css选择器中，如果class里带的空格，用.来代替空格

h3 class="lister index unbold text" -> h3.lister index unbold text(class里有空格) -> h3.lister.index.unbold.text

	rvest::html_nodes(webPage, css = "h3.lister.index.unbold.text span") %>% rvest::html_text()

1.安装rvest、xml2包

	library(pacman)

	pacman::p_load(rvest, xml2)

2.载入rvest、xml2包

	# 载入工具包

	library(rvest)

	library(xml2)

3.使用两个工具包爬去数据

	# 设置爬取的网址

	url <- "https://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature"

	# 获取页面内容(页面源码)

	webPage <- xml2::read_html(x = url, encoding = "UTF-8") 

	# ======= 方法1 使用xpath ==========

	# 电影名称

	movieName <- rvest::html_nodes(webPage, xpath = '//h3[@class="lister-item-header"]/a/text()')

	# === 备注 ===

	# 如果用到属性里的值,使用函数rvest::html_att(),如rvest::html_att("alt")

	# rvest::html_nodes(webPage, xpath = '//div[@class="lister-item-image float-left"]/a/img') %>% rvest::html_attr("alt")

	# 上映年份

	year <- rvest::html_nodes(webPage, xpath = '//span[@class="lister-item-year text-muted unbold"]/text()')

	# ======= 方法2 使用css选择择器 =====

	# 电影排序

	movieRank <- rvest::html_nodes(webPage, css = "span.lister-item-year.text-muted.unbold") %>% rvest::html_text()

R中使用rvest爬取数据小试的更多相关文章

如何分页爬取数据--beautisoup
'''本次爬取讲历史网站'''#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 分页爬 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
借助Chrome和插件爬取数据
工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程 ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
node.js爬取数据并定时发送HTML邮件
node.js是前端程序员不可不学的一个框架,我们可以通过它来爬取数据.发送邮件.存取数据等等.下面我们通过koa2框架简单的只有一个小爬虫并使用定时任务来发送小邮件! 首先我们先来看一下效果图差不 ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...

随机推荐

ASP代码审计学习笔记 -5.文件下载漏洞
文件下载漏洞漏洞代码: <% function download(f,n) on error resume next Set S=CreateObject("Adodb.Stream ...
Git 单机版
Git 是一个分布式的开源版本控制系统,也就是说,每台机器都可以充当控制中心,我从本机拉取代码,再提交代码到本机,不需要依赖网络,各自开发各自的如何创建 git 仓库: [root@localhos ...
Django 定义数据模型
如何定义数据模型: (1) 在 MVC 设计模式中,M 表示数据模型 ( Model ),负责业务对象与数据库的映射,我们可以通过应用的 models.py 来定义数据模型(2) Model 采用了 ...
osg剔除背面开启
//设置背部剔除看不见背面东西 osg::ref_ptr<osg::CullFace> cullface=new osg::CullFace(osg::CullFace::BACK); s ...
国内CDN加速现状
什么是CDN CDN的全称是Content Delivery Network,即内容分发网络.是位于网络层与应用层之间的网络应用,其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内 ...
STL——配接器(adapters)
一.配接器 <Design Patterns>一书提到23个最普及的设计模式,其中对adapter样式的定义如下:将一个class的接口转换为另一个class 的接口,使原本因接口不兼容而 ...
一个汉字转拼音的php类
代码来自网上,可用 <?php function Pinyin($_String, $_Code='gb2312') { $_DataKey = "a|ai|an|ang|ao|ba| ...
手写自己的ThreadLocal（线程局部变量）
ThreadLocal对象通常用于防止对可变的单实例变量或全局变量进行共享. 精简版: public class MyThreadLocal<T> { private Map<Thr ...
linux prefix
指定安装路径不指定prefix,则可执行文件默认放在/usr /local/bin,库文件默认放在/usr/local/lib,配置文件默认放在/usr/local/etc.其它的资源文件放在/usr ...
【linux系列】centos安装vsftp
一.检查vsftpd软件如果发现上不了网可以修改配置文件中的ONBOOT=no改为yes,然后重启服务试试