R语言入门级实例——用igragh包分析社群 引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(community detecting).对于R语言零基础的同学非常友好.以下R代码中如有含义不清的,建议尝试先在R编辑器中输入?xxx()进行查询(xxx是函数或语句名).此外,stackflow论坛也帮博主小白看懂了不少报错信息. 主要参考资料为<R语言与网站分析>[李明著][机械工业出版社][20…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血) ------------------…
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是"老顽固",做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了.故此,赶紧记录下来,以后可用: 关于这两个包的安装问题,有很多很多教程,很多方法,我就不一一介绍,如果我介绍的方法你安装不了,那你就得去下面的参考链接找找其他的方…
    R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容 DT = data.table(x=rep(c("b&…
现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错. 同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的. 那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下.但是在下载的时候,遇见很多问题,安装问题困扰着... 包中函数本身很好用,很简单,而且图形众多. -------------------------------------------- 一.wordcloud2包的安装 官方郎大为老师githu…
如何判断我们的线性回归模型是正确的? 1.回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾一下OLS回归的统计假设.(1)正态性(主要使用QQ图) 当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布.正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值…
> patientID<-c(1,2,3,4)> age<-c(25,34,28,52)> diabetes<-c("Type1","Type2","Type1","Type1")> status<-c("Poor","Improved","Excellent","Poor")> patient…
聚类分析计算与分析(基于系统聚类法) 下面以一个具体的例子来实现实证分析.2008年我国其中31个省.市和自治区的农村居民家庭平均每人全年消费性支出. 根据原始数据对我国省份进行归类统计. 原始数据如下 注:数据来源—www.stats.gov.cn(中华人民共和国国家统计局) 代码如下: #读入数据 china <- read.table("F:\\2008年我国其中31个省.市和自治区的农村居民家庭平均每人全年消费性支出.txt",header=TRUE) distance…