博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累 所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来. 主要看的是kindle新品排行榜和最快畅销榜. 销售爬升最快榜: http://www.amazon.cn/gp/move…
自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累 所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来. 主要看的是kindle新品排行榜和最快畅销榜. 销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/ 新品榜: http://www.amazon.cn/gp…
scrapy 分页爬取以及xapth使用小技巧 这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签   2.使用scrapy的yield scrapy.Reqeust(next_url,callback=self.parse) 构造下一页爬取的请求 Tips:使用xpath解析dom的常用处理方法: 1.查询页面上所有的div元素  :    //div 2.查询页面上指定的元素  : -通过class属性定位 例如: …
rm(list=ls())path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A") #创建一个文件A,文件内容是'file A','\n'表示换行,这是一个很好的习惯cat("file B\n", file="B")  #创建一个文件Bfile.append("A", "B")  #将文件B的内容附…
假设有如下数据,我们使用plot函数作图 月龄 体重 月龄 体重  1 4.4 9 7.3 3 5.3 3 6.0 5 7.2 9 10.4 2 5.2 12 10.2 11 8.5 3 6.1 R语言中默认函数 abs   绝对值 sqrt   平方根 exp  e^x次方 log   自然对数 log2 log10  其他对数 sin  cos tan 三角函数 sinh cosh tanh  双曲函数 poly  正交多项式 polyroot  多项式求根 assign   赋值操作 等同…
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0%91%E5%B9%B4/13572794" page <- read_html(url) tables <- page %>% html_nodes("table[log-set-param=table_view]") %>% html_table(fi…
第一种方法 library("rvest") page <- read_html("https://cran.rstudio.com/web/packages/available_packages_by_name.html") pkg_table <- page %>% html_table(fill = T) class(pkg_table) # 返回list,这个list应该包含了网页中的所有table # 但因为整个网页就只有一个table,…
数据集本身的分析技巧           作者:王立敏           文章来源:网络 1.数据集 数据集,又称为资料集.数据集合或资料集合,是一种由数据所组成的集合. Data set(或dataset)是一个数据的集合,通常以表格形式出现.每一列代表一个特定变量.每一行都对应于某一成员的数据集的问题.它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数.每个数值被称为数据资料.对应于行数,该数据集的数据可能包括一个或多个成员. 2.数据分析 数据结构 创建向量和矩阵 函数c(…
看到windows核心编程 第5章的最后一节,发现job lab例子程序不能在我的系统(win8下)正常运行,总是提示“进程在一个作业里”         用process explorer程序查看 于是我找到   例子程序源码的这段判断程序,注释后编译运行   终于进了程序的界面   可是我认为这不是一个好的解决方案   于是去看书的123页下面到124页上的那段话   果然在程序已经关联了作业对象   但是最后,书上说到,一个简单的解决方案是从命令行而不是windows资源管理器中启动调试器…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文…