通过R语言统计考研英语(二)单词出现频率

大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇。厚厚的一本单词,真的看的头大。最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数。

整体思路:

收集数据-->整理数据-->统计分析-->输出结果

使用工具:

`Rstudio,文本编辑器,CSV`

涉及到的包: "jiebaR"(中文分词引擎),“plyr",

第一步收集数据:

从网络搜索2013-2018考研英语二真题,存成txt格式。

第二步整理数据

针对每个文件进行简单整理,去除不必要的文字。 例如:”2017年全国硕士研究生入学统一考试英语“、”答案 “,或者乱码之类。手工完成。

第三步:统计分析

3.1 打开R语言,安装所需要的包

    install.packages("jiebaRD") #安装jiebaR之前先安装"jiebaRD"
install.packages("jiebaR")
install.packages("plyr")
-- 加载包--
library(jiebaRD)
library(jiebaR)
library(plyr)
search() #查看已经安装的包

search() [1] ".GlobalEnv" "package:xlsx" 
[3] "package:xlsxjars" "package:rJava" 
[5] "package:wordcloud" "package:RColorBrewer" [7] "package:plyr" "package:jiebaR" 
[9] "package:jiebaRD" "tools:rstudio" 
[11] "package:stats" "package:graphics" 
[13] "package:grDevices" "package:utils" 
[15] "package:datasets" "package:methods" 
[17] "Autoloads" "package:base"

3.2加载文件,分析

setwd("d:/R") #设置文件所在根目录
--加载文件
test_file_2018 <- readLines("2018.txt",encoding = "UTF-8") #读取文件,编码格式是"UTF-8"
test_file_2017 <- readLines("2017.txt",encoding = "UTF-8")
test_file_2016 <- readLines("2016.txt",encoding = "UTF-8")
test_file_2015 <- readLines("2015.txt",encoding = "UTF-8")
test_file_2014 <- readLines("2014.txt",encoding = "UTF-8")
test_file_2013 <- readLines("2013.txt",encoding = "UTF-8") --合并文件 用c() 把多个元素组成一个向量。
test_file <- c(test_file_2018,test_file_2017,test_file_2016,test_file_2015,test_file_2014,test_file_2013)
test_file <-tolower(test_file) #把所有的字符转为小写
cutter=worker() #设置分词引擎
segWords <- segment(test_file,cutter) #对文本进行分词处理
--设置停顿词这里其实就是过滤词,一行一个单词,有些自认为很简单的词,比如:选项里 a,b,c,d,the,and,an 等等,或者先过滤这一步,等到统计频率出来,在根据需求一一添加即可。在相同的目录建一个文件"stopword.txt" f <- readLines("stopword.txt")
stopwords <- c(NULL)
for (i in 1:length(f))
{
stopwords[i]<- f[i]
} segWords<- filter_segment(segWords,stopwords) #过滤单词,filter_segment(源文本,过滤的词) segWords<-gsub("[0-9[:punct:]]+?","",segWords) #去除数字 0-9 表示数字,[:punct:]表示特殊字符 “! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~” tableWord <- count(segWords) #统计词频
view(tableWord)
停顿词示例stopword.txt:

第四步、输出结果

write.csv(tableWord,"tableWord.csv",fileEncoding = "UTF-8")#处出结果存为tableWord.csv 文件。 

参考来源:https://blog.csdn.net/zx403413599/article/details/46730801

通过R语言统计考研英语(二)单词出现频率的更多相关文章

  1. R语言统计学习-1简介

    一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监 ...

  2. R语言基础入门之二:数据导入和描述统计

    by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there t ...

  3. R语言学习笔记(二)

    今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") &g ...

  4. R语言实战读书笔记(二)创建数据集

    2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow ...

  5. R语言学习笔记(二十一五):如何如何提升R语言运算的性能以及速度

    在R中获得快速运行代码的方法 使用向量化运算 R语言的并行计算可以用parallel和foreach包 加快R运行速度还可以使用cmpfun()函数即字节码编译器 再者就是在R中调用C或C++ 同时还 ...

  6. R语言高性能编程(二)

    接着上一篇 一.减少内存使用的简单方法1.重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块,只有当y被修改时才会复制到新的内存块,一般来说只要向量没有被其他对象引用,就可 ...

  7. R语言统计词频 画词云

    原始数据: 程序: #统计词频 library(wordcloud) # F:/master2017/ch4/weibo170.cut.txt text <- readLines("F ...

  8. R语言学习笔记(二): 类与泛型函数

    类 大多数R对象都是基于S3类(来源于第三代S语言),例如直方图函数hist()输出是一个包含多个组件的列表,它还有一个属性(attribute),用来指定列表的类,即histogram类. 泛型函数 ...

  9. C语言统计一个字符串中单词的个数

    假定每一个单词用空格隔开. 样例: 输入:how are you! 输出:3 两种方法: 一: #include <stdio.h> #include <string.h> # ...

随机推荐

  1. linux 获取命令或配置文件的帮助信息 man、whatis、apropos、--help

    man /usr/bin/man man [命令或配置文件]获取帮助信息 man ls /-lman date/-d man services //不需要添加绝对路径/etc/services NAM ...

  2. this and super

    this 和 super 的区别:this, 先从本类找属性和方法,本类找不到再从父类找.super, 从父类找. this 和 super 都可以调用构造方法,所以this() 和 super() ...

  3. UnicodeEncodeError: 'ascii' codec can't encode characters in position 2-5: ordin al not in range(128)——解决方案备注

    在vim中使用ycm插件时,偶尔会出现: “UnicodeEncodeError: 'ascii' codec can't encode characters in position 2-5: ord ...

  4. zabbix系列之四——快速使用

    https://www.zabbix.com/documentation/3.4/manual/quickstart/login Quickstart 1login and configuring u ...

  5. vo、po、dto、bo、pojo、entity、mode如何区分

    https://blog.csdn.net/qq_41604862/article/details/79675223?utm_source=blogxgwz0

  6. WeakValue & StoreValue

    WeakValue & StoreValue 源码 https://github.com/YouXianMing/WeakValue-StoreValue 说明 1. 这种设计并不是因为脑袋被 ...

  7. UIView的无损截图

    UIView的无损截图 说明 1. 烂大街的代码 2. 写成category后,方便直接从drawRect中获取绘制出来的图片 3. 可以直接绘制图片供按钮设置背景图片用 4. 无损截图(包括alph ...

  8. Linux 文件特殊权限详解[suid/sgid/t]

    setuid(suid): 针对命令和二进制程序的,当普通用户执行某个(passwd)命令的时候,可以拥有这个命令对应用户的权限, 即让普通用户可以以root用户的角色执行程序或命令. setgid( ...

  9. .net 和 core 数据库连接字符串

    Data Source=(LocalDb)\MSSQLLocalDB;AttachDbFilename=|DataDirectory|\aspnet-xxxx.mdf;Initial Catalog= ...

  10. 论文 ClickP4: Towards Modular Programming of P4 小结

    当前P4存在的问题(ClickP4为解决的问题) 1.随着P4程序的规模和复杂性的增加,从零开始开发单片P4程序容易出错,需要相当多的时间和精力去解决,所以网络政策的多样性和动态性使得运营商为了满足要 ...