一.从URL读取并返回html树     1.1 Rcurl包         使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表单.比R socktet连接要提供更高水平的交互,并且支持 FTP/FTPS/TFTP,SSL/HTTPS,telnet 和cookies等.本文用到的函数是basicTextGatherer和getURL.想详细了解这个包的可以点击参考资料的链接. R命令: h <- basicTextGatherer( )   # 查看服务器返回的头…
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSelenium包和Rwebdriver包. RSelenium包和Rwebdriver包都是通过调用Selenium Server来模拟浏览器环境.其中,Selenium是一个用于网页测试的Java开源软件,它可以模拟浏览器的点击.滚动.滑动以及文字输入等操作.因为Selenium是Java程序,因此在使…
前言: RCurl工具包的作者是由Duncan Temple Lang现任加州大学 U.C. Davis分校副教授.他曾致力于借助统计整合进行信息技术的探索.使用者通过RCurl可以轻易访问网页,进行相关数据的抓取以及下载,为数据分析提供原始素材.近年RCurl在数据分析业界中使用也越来越流行. Step1:安装RCurl install.packages('RCurl') Step2:代码实现 =========================== #利用RCurl包批量下载(抓取)文件 li…
日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息大集合,几乎可涵盖日常pdf文件提取信息的所有场景. 业务场景 在日常工作中,为了保护数据免于被二次利用和为了在文件分发过程中,可以不受其他电脑因为软件版本不同等原因导致文件不能打开或打开格式版面大变形,将要分发的文件,无论是Excel.Word或PPT,转为pdf格式,是一个不错的主意. 在pdf…
是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性.SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信息.我们可以搜索某个SNP位点来寻找与之相关的信息,也可以根据相关疾病,症状来寻找相关的SNP. 初次使用SNPedia   SNPedia主页网址为http://snpedia.com/index.php/SNPedia,比如我想…
R语言中文社区历史文章整理(类型篇)   R包: R语言交互式绘制杭州市地图:leafletCN包简介 clickpaste包介绍 igraph包快速上手 jiebaR,从入门到喜欢 Catterplots包,让你绘制不一样的图 今天再来谈谈REmap包 ggplot2你需要知道的都在这... R访问数据库管理系统(通过RODBC包和RMySQL包两种方式) NLP——自然语言处理(三)text2vec包 Rattle:数据挖掘的界面化操作 借助caret包实现特征选择的工作 R语言的高质量图形…
笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作空间等. source  #读取R代码dget    #读取R文件load    #读取工作空间 -------------------------------- SPSS-STATA格式的读入包--foreign 读取其他软件的格式foreigninstall.packages("foreign&…
R 是统计计算和数据分析的利器.给定一个数据集,利用前几章介绍到的 R 中灵活的数据结构或高性能计算,我们可以很方便地进行数据转换.建模和数值分析.一般来说,商业数据库会将数据以表格的形式很好地组织起来,便于使用.然而,情况并非总是如此合意,输入数据集也并非总是立即可得.有时,我们需要自己收集数据.对于很多研究领域而言,网页内容是一个重要的数据源.为了从互联网上收集(抓取或收取)数据,我们需要适当的技术和工具.本章将会介绍网络爬虫的基本知识和工具,包括: 查阅网页内容 使用 CSS 选择器从网页…
最近时间比较忙,有时候很多网页需要临时保存,以便空闲的时候查看.单纯的保存网页链接会让人很枯燥,所以需要自动批量提取标题. 为了这个小功能去写个小程序有点不划算,所以就利用excel实现了这个功能. 先上图: 代码如下: Option Explicit Public Function GetTitle(url As String) Dim xmlHttp As Object Dim strHtml As String url = Trim(url) )) = "https" Then…
用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份. 对应操作为:拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— year<-strsplit(case_data2$Date,split = "-") # strsplit函数将数据拆分成列表 year1<-]# 将列表转换为矩阵,提取第一列——年份 case_data2$year1<-year1 其他办法…
写论文,没数据?R语言抓取网页大数据 纵观国内外,大数据的市场发展迅猛,政府的扶持也达到了空前的力度,甚至将大数据纳入发展战略.如此形势为社会各界提供了很多机遇和挑战,而我们作为卫生(医学)统计领域的一份子,更要把握好机会.放眼全球,大数据的应用规模仍在持续扩张,几乎每个行业都将目光瞄准了大数据背后的巨大价值.未来五到十年,是我国推进大数据发展的关键时期,打造高效的大数据应用机制和产业链迫在眉睫. 空格根据当前大数据行业发展的分析,我们着手大数据不妨从"可视化数据抓取"开始考虑.这里提…
注意:这文章是2月份写的,拉勾网早改版了,代码已经失效了,大家意思意思就好,主要看代码的使用方法吧.. 最近一直在用且有维护的另一个爬虫是KINDLE 特价书爬虫,blog地址见此: http://www.cnblogs.com/weibaar/p/4824578.html 博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html R语言爬虫初尝试-基于RVEST包学习 Thursday, February 26, 2015 在学完coursera的…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢? 于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求. 现在的版本是 0.1.3,最近的更新的时间为 2016-0…
一些函数不知道什么意思要查,看数值例子,做笔记,知道函数的功能,函数和返回值. 网页上查找关键词,巧用查找(ctrl+F) 数据读取处理,有read.table   read R-读取数据(导入csv,txt,excel文件) read.table函数:read.table函数以数据框的格式读入数据,所以适合读取混合模式的数据,但是要求每列的数据数据类型相同. read.table读取数据非常方便,通常只需要文件路径.URL或连接对象就可以了,也接受非常丰富的参数设置: file参数:这是必须的…
网页图片提取助手(支持背景图.选择dom范围) 网页图片下载工具.网页图片批量保存. 使用场景: 作为web前端开发首——学习小生的你我,仿学在线页面是常有的事,但是一些在线资源,比如图片,图片有img标签中的图片,有背景图,当然还有一些旧浏览器不支持的webp,仿个页面需要 ctrl+m . ctrl+s .查看element.css ...以查找和保存所需图片. ——仿个页面我容易么我? 现在有这个小工具,希望可以助你一点点绵力. 主要应用于以下功能: 一.按需保存所选节点的所有图片 可以选…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html ---- 前言: 应用背景兼吐槽 继续延续之前每个月至少一次更新博客,归纳总结学习心得好习惯. 这次的主题是论R与excel的结合,又称 论如何正确把EXCEL文件喂给R处理 分为: 1. xlsx包安装及注意事项 2.用vba实现xlsx批量转化csv 以及,这个的对象,针对跟我一样那些从R开始接触编程的,一直以来都是用excel做数据分析的人……编程大牛请轻拍 之所以要研究这个,是因为最近…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html Tuesday, March 31, 2015 之前用rvest帮人写了一个定期抓取amazon价格库存,并与之前价格比较的小程序,算是近期写过的第一个完整的程序了.里面涉及了一些报错的处理. 这里主要参考了stackoverflow上的以下问答: How to skip an error in a loop skip to next value of loop upon error in R…
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx = x1 + x2, meanx = (x1 + x2)/2) 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 == 严格等于(比较浮点类型时慎用,易误判) != 不等于 !x 非x x | y x或y x & y x和y isTRUE(x) x是否为TRUE…
本文对应<R语言实战>前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用. 第1章       R语言介绍 获取帮助函数 help(), ? 查看函数帮助 example() 使用函数示例 vignette() 列出vignette文档 vignette("svmdoc") 打开对应文档 管理工作空间 getwd() 显示当前工作目录 setwd("mydirectory") 修改当前工作目录为mydirectory rm(objec…
本文在Creative Commons许可证下发布. 在fedora Linux上断断续续使用R语言过了9年后,发现R语言在国内用的人逐渐多了起来.由于工作原因,直到今年暑假一个赴京工作的机会与一位统计专业的人士聊天,才知道R语言的强大威力!(当然这里没有贬低SPSS, SAS,Stata的意思). R语言是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具.它是统计领域广泛使用的诞生于 1980年左右的 S 语言的…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF).分析文本相似性等等,真是老少咸宜. 同时官网也有一个在线jieba…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+SnowballC包 笔者寄语:文本挖掘.情感分析是目前非结构数据非常好用.有效的分析方式. 先针对文本挖掘这个套餐包做个简单了解.一般来说一个完整的文本挖掘解决流程是: 网页爬取数据--数据格式转化(分隔)--建立语料库--词频去噪--提取词干--创建文档-词频矩阵--后续分析(聚类.词云等) XML…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的. 据估计,全球约80%的数据是非结构化的.这包括音频,视频和文本数据.在这篇文章中,我们将只讨论文本数据.在系列后面,我们将会谈论到其他非结构化数据. 我们阅读的书籍,博客,新闻文章,网页,电子邮件等都是文本数据.所有这些文本都为我们提供了大量的信息,并不断增长.但是,并非所有的数据都是有用的.我们过滤掉噪音,只保留重要的信息.这是一个乏味的过程,但作为人…
[怪毛匠子整理] 1.下载 wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.0.1.tar.gz 2.解压: tar -zxvf R-3.0.1.tar.gz cd R-3.0.1 3.安装 yum install readline-devel yum install libXt-devel ./configure 如果使用rJava需要加上 --enable-R-shlib ./configure  --enable-R-shlib -…
R语言进行词云统计分析 本文章从爬虫.词频统计.可视化三个方面讲述了R语言的具体应用,欢迎大家共同谈论学习 1.使用 rvest 进行数据的爬取 #如果没有,先安装rvest包 install.packages("rvest") library(rvest) url <- "http://www.sohu.com/a/123426877_479559" #读取数据,规定编码 web <- read_html(url, encoding = "u…
R爬虫实验 R爬虫实验 PeRl 简单的R语言爬虫实验,因为比较懒,在处理javascript翻页上用了取巧的办法. 主要用到的网页相关的R包是: {rvest}. 其余的R包都是常用包. library(rvest) library(stringr) library(dplyr) library(ggplot2) 测试的网页是B站,我想根据关键词搜索,然后统计一下UP主的作品个数(好吧,挺无聊的). 首先就是在B站键入搜索词以后把网页地址复制下来.…
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样一个简单的尝试,从搭建环境到跑通demo,不懂语法,不知含义,装好环境,查到API,跑通Demo,就是目标!纯零基础萌新! 关于环境的安装及调试过程中遇到的问题记录请移步 二.Python爬取B站弹幕 环境说明 windows8.1 x64+python3.6+scrapy1.4 参考文档: scr…
by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there to comment and to read  the full post. 一.数据导入 对初学者来讲,面对一片空白的命令行窗口,第一道真正的难关也许就是数据的导入.数据导入有很多途径,例如从网页抓取.公共数据源获得.文本文件导入.为了快速入门,建议初学者采取R语言协同Excel电子表格的方法.也就…
2.1数据集的概念 变量的类型是不同的,比如标示符.日期变量.连续变量.名义变量.有序型变量等,记得数据挖掘导论中有专门的描述. R可以处理的数据类型包括了数值型.字符型.逻辑型.复数型(虚数).原生型(字节). 2.2数据结构 R拥有很多存储数据的对象类型,包括 标量.向量.矩阵.数组.数据框.列表.它们可以用下图表示: 因子是R中的名义型或者有序型变量,比较特殊. 2.2.1向量 标量是只有一个元素的向量,一般用来保存常量.其他没什么说的. seq函数: seq(, to = , by =…