使用R进行数据提取

数据提取是数据分析日常工作中遇到最多的需求,本篇文章介绍如何通过R按特定的维度或条件对数据进行提取,完成数据提取需求。

读取并创建数据表

首先第一步是读取数据,并创建名称为loandata的数据表。后面我们将从这个表中进行数据提取。

#读取并创建数据表 loandata=data.frame(read.csv('loan_data.csv',header =
1))

将数据表中的用户ID列设置为索引列,下面是具体的代码和结果。

#设置用户ID为索引 rownames(loandata)=loandata$member_id #查看数据表
head(loandata)

提取行信息

按行提取信息简单的方法是输入开始和结束的行号,下面的代码提取了第一行和第二行的信息。

#提取数据表前两行信息 loandata[1:2,]

也可以直接输入索引行的名称来提取特定行的信息,下面的代码提取了用户ID为1296599的贷款信息。

#提取特定用户ID信息 loandata['1296599',]

同样的方式可以同时准确的提取多个特定用户ID的贷款信息。

#提取多个特定用户ID信息 loandata

提取列信息

按列提取信息的方式与行类似,输入开始的列号和结束的列号。下面的代码中提取了第一列和第二列的信息。

#提取前两列信息 loandata[1:2]

也可以直接输入列名称提取特定列的信息,例如下面的代码提取了数据表中term列的信息。

#提取term列信息 loandata['term']

同样的方法,可以同时提取多个列的信息,下面的代码中提取了term和grade列的信息。

#提取term列和grade列信息 head(loandata)

提取特定行列信息

把提取行信息的方法与提取列信息的方法汇总,可以提取特定行列的信息。下面的代码中提取了第三行,第5列和第6列的信息。

#提取第3行5,6列信息 loandata[3:3,5:6]

也可以直接输入索引行中用户ID和列名称,进行信息提取。

#提取特定用户ID的贷款金额 loandata['1296599','loan_amnt']

提取最大值的行信息

除了提取行和列的信息外,还可以按条件进行提取,例如提取数据表中贷款金额最大值的行。下面的代码中使用which.max函数用来确定贷款金额最大值的行号。数据分析师培训

#提取贷款金额最大值的信息 loandata[which.max(loandata$loan_amnt),]

提取最小值的行信息

同样的方法也可以用which.min函数来提取贷款金额最小值所在行的信息。

#提取贷款金额最小值的信息 loandata[which.min(loandata$loan_amnt),]

使用R进行数据提取的更多相关文章

  1. pl/sql programming 15 数据提取

    数据提取 -- 游标 游标只是一个指向某个结果集的指针. 声明游标: cursor employee_cur IS select * from employees; 打开游标: open employ ...

  2. SQL 正则表达式使模式匹配和数据提取变得更容易

    SQL Server 2005 正则表达式使模式匹配和数据提取变得更容易 David Banister 本文讨论: 使用正则表达式进行高效的 SQL 查询 SQL Server 2005 对正则表达式 ...

  3. python 爬虫与数据可视化--数据提取与存储

    一.爬虫的定义.爬虫的分类(通用爬虫.聚焦爬虫).爬虫应用场景.爬虫工作原理(最后会发一个完整爬虫代码) 二.http.https的介绍.url的形式.请求方法.响应状态码 url的形式: 请求头: ...

  4. django之创建第8-3个项目-数据库数据提取之高级操作

    1.配置test2.html <!DOCTYPE html> <html lang="en"> <head> <meta charset= ...

  5. R语言 数据重塑

    R语言数据重塑 R语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间R语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的 ...

  6. 数据提取--JSON

    什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 非结构化的数据:html等 结构化数据:json,xml等 处理方法:正则表达式.xpath 处理方法:转化为python数 ...

  7. R语言数据预处理

    R语言数据预处理 一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date ...

  8. Scrapy(五):Response与Request、数据提取、Selector、Pipeline

    学习自Requests and Responses - Scrapy 2.5.0 documentation Request在Spider中生成,被Downloader执行,之后会得到网页的Respo ...

  9. 【转载】使用Pandas进行数据提取

    使用Pandas进行数据提取 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据提取 目录 set_index() ix 按行提取信息 按列提取信息 按行与列提取信息 提取特定日期的信 ...

随机推荐

  1. Python匹马行天下之面向对象

    概述 面向过程:根据业务逻辑从上到下写垒代码 函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可 面向对象:对函数进行分类和封装,让开发“更快更好更强...” 面向过程编程最易被初学 ...

  2. 牛客D-Where are you /// kruskal+tarjan找无向图内的环

    题目大意: https://ac.nowcoder.com/acm/contest/272/D 在一个无向图中,给定一个起点,从起点开始走遍图中所有点 每条边有边权wi,表示第一次经过该道路时的花费( ...

  3. 手动从零使用ELK构建一套搜索服务

    前言 这两天需要对接一个新的搜索业务,由于测试机器还没到位,所以就自己创造条件,通过在Windows上安装VM虚拟机,模拟整套环境,从而能快速进入核心业务的开发测试状态中. 系统环境安装配置 虚拟机V ...

  4. PostGIS 通过SQL语句实现空间分析【入门级】

    PostGIS是对象关系型数据库系统PostgreSQL的一个扩展,PostGIS提供如下空间信息服务功能:空间对象.空间索引.空间操作函数和空间操作符.同时,PostGIS遵循OpenGIS的规范. ...

  5. Java oop第05章_多态、接口

    一. 为什么需要接口? Java中当一个类继承父类时,最多也只能继承一个父类,扩展性会受到一定的限制,为了弥补这一缺陷,Java又提供了一种新的引用数据类型分类,叫接口. 一个类只能继承一个父类,但可 ...

  6. jboss未授权Getshell

    一.jboss未授权访问Getshell 1.jmx-console/HtmlAdaptor?action=inspectMBean&name=jboss.system:type=Server ...

  7. C# 调用java的Webservice时关于非string类型处理

    比如webservice地址是:http://wdft.com:80/services/getOrderService1.0?wsdl 方法是:getOrder 1.首先添加引用: 2. 3.引用完成 ...

  8. try-with-resources with JDBC

    I realize this was long ago answered but want to suggest an additional approach that avoids the nest ...

  9. SQL SERVER 2008R2 执行大脚本文件时,提示“内存不足”的解决办法

    我把一个数据库的架构及数据都已脚本的方式拷贝下来,再去新建一个数据库想把脚本执行一下,但提示如下错误: 问题描述: 当客户服务器不允许直接备份时,往往通过导出数据库脚本的方式来部署-还原数据库, 但是 ...

  10. 数据库MySQL--修改数据表

    创建数据库::create database 数据库名: 如果数据不存在则创建,存在不创建:Create database if not exists 数据库名 ; 删除数据库::drop datab ...