Coursera-Getting and Cleaning Data-Week2

Saturday, January 17, 2015

课程概述

week2主要是介绍从各个来源读取数据。包括MySql,HDF5,webpage,API等，范围还蛮广。

因为工作和日常中没有直接到数据库拿数据的权限，所以暂时只是走马观花看了一遍，然后做quiz时再看一遍，留个概念即可。

下面的笔记因为主要是我自己留着以后做备查的，所以可能有些地方有点泄题。强烈建议想要好好学习，认真学习的人，优先先看一下视频，然后跟着quiz以及讨论区的内容来做。

认真学习才是王道。

按照Quiz知识点来的笔记

1.API

视频里介绍了用httr包读取twitter数据，在httr Demo页有其读取twitter, facebook, google,github等的demo代码。

在使用httr包前，都要到相应网站去注册API，获得访问权限，httr里访问数据的方式基本都是oauth，在用oauth_app定义api权限后，用GET即可获得相应数据。（视频里还涉及到jsonlite包的使用，包括toJSON还有fromJSON）

补充一下，1月份里，英文区那个很nice的David助教有一个帖子Quiz 2 Question 1 advice and discussion详细总结了在使用httr包时会遇到的问题。被第一题难倒的不在少数。爱总结的TA是个好人！

library(httr)

library(jsonlite)

2.SQL in R

加载sqldf包,按照论坛里的讨论是：sqldf的好处就是对一个很大的数据集，你可以用sqldf("select *** from *** where ***")来快速筛选数据，而且使用的还是我们熟悉的sql语句，省去了再次学习的成本。如果工作中较少用到MySQL的话，了解一下sqldf就好了。drv=“SQLite”

3.HTML读取

继续从TA的帖子开始，按照提示，视频里介绍了至少三个读取html数据的方法，readLines读取，XML包读取，httr包（GET）读取。

readLines读取，用url方式读取html页，并导入readLines里。记得读取完毕后要选择close这个网页。读出来的数据是源代码格式。为character。

url<-url("一个地址")

con<-readLines(url)

close(url)

#记得关掉链接啊

#readLines里面需要用url()来引入地址，这里拿到的是character格式的数据

XML包读取，用htmlTreeParse和xpathSApply读取数据

library(XML)

url1<-"一个html地址"

html<-htmlTreeParse(url1,useInternalNodes=T)

xpathSApply(html,"//tilte",xmlValue) 用来取各个结构内的数据

httr包读取，这个可以用于要密码认证的连接。200表示读取成功，404表示读取失败，或许需要密码

library(httr)

html2<-GET(url1)

#html2里存储的是一个展示读取了多少数据的信息，以及200/404等连接信息。之后要用content来返回，譬如下面，返回一个纯文本格式（比XML包还要乱），再使用htmlParse可以获得跟XML包htmlTreeParse一样的效果。适合结构型的数据

content2<-content(html2,as="text")

goodformat<-htmlParse(content2,asText=TRUE)

最后呢，论坛上有人找到了stackoverflow上的这个帖子How to read the nth line of a Parsed html in R

4.Fixed width format

for格式详解介绍了for格式是什么东西。看了一下感觉就是科学界喜欢用的一种文件格式吧，windows的记事本可以打开没问题。

这里的重点是，对于一些数据标题不在第一行，然后各列宽度一样的数据，要怎样去读取他们的成绩。按助教在Quiz 2 Question 5 advice and discussion的讲法，这里关键是对skip以及width的掌握。不过有人吐槽说，这样子人工观察，还不如excel直接处理呢。恩，平日里我们遇到这样规整又不整齐的数据的几率还是比较小的，但是作为扩展知识面，还是有了解的必要。

download.file("一个fided width的文本文件地址")

library(utils)

datautils<-read.fwf("文件地址",skip=要跳过的行,widths=每列之间间隔的数量)

杂感

Getting and Cleaning Data的教授讲课虽然有点对着PPT念，但是本来数据抓取就是一个很广的内容，第二周学下来，还是有效地扩宽了我的知识面。以及，课程的quiz设计的还是很有意思的。且TA会在讨论区里总结之前学员的问题，认真研读的话，能比较深入地了解quiz设计原理，以及进阶内容。我觉得这是这门课的一个精华。

另外，网络爬虫其实是目前互联网很火的一个话题。以前见过国内某知名电商自行开发的一套爬虫系统，它可以即时监控竞争对手的商品信息，有促销跟着促销，有降价跟着降价，保证自家大部分商品价格在一个比较适中的范围内，以避免流量流失。而关于个人爬虫，还有个网站叫数据堂,会专门发布一些爬虫出来的数据源。如果学会网页端抓取数据的话，初学者就不用担心没有数据练手了。

关于R抓取网页信息，记录以下几个网址等以后备查

不知不觉中自己博客里也写了那么多跟R相关的东西了呢。自学这个课后，自己做过的包括：用R设计一个抽奖排号的程序，用R去计算公式，弄时间序列等等。但是未来的路还有好长，加油加油。

最后最后补充一点，饶了我吧，看了半天发现httr包又是Hadley Wickham开发的！！reshape2!dplyr!tidyr!ggplot2! 话说我到底是在学习R还是在学习如何崇拜Hadley大神啊！