通过R语言统计考研英语（二）单词出现频率

大家对英语考试并不陌生，首先是背单词，就是所谓的高频词汇。厚厚的一本单词，真的看的头大。最近结合自己刚学的R语言，为年底的考研做准备，想统计一下最近考研英语（二）真正单词出现的频率次数。

整体思路：

收集数据-->整理数据-->统计分析-->输出结果

使用工具：

`Rstudio，文本编辑器，CSV`

涉及到的包： "jiebaR"(中文分词引擎），“plyr"，

第一步收集数据：

从网络搜索2013-2018考研英语二真题，存成txt格式。

第二步整理数据

针对每个文件进行简单整理，去除不必要的文字。例如：”2017年全国硕士研究生入学统一考试英语“、”答案 “，或者乱码之类。手工完成。

第三步：统计分析

3.1 打开R语言，安装所需要的包

    install.packages("jiebaRD") #安装jiebaR之前先安装"jiebaRD"

    install.packages("jiebaR")

    install.packages("plyr")

  -- 加载包--

    library(jiebaRD)

    library(jiebaR)

    library(plyr)

    search() #查看已经安装的包

search() [1] ".GlobalEnv" "package:xlsx"
[3] "package:xlsxjars" "package:rJava"
[5] "package:wordcloud" "package:RColorBrewer" [7] "package:plyr" "package:jiebaR"
[9] "package:jiebaRD" "tools:rstudio"
[11] "package:stats" "package:graphics"
[13] "package:grDevices" "package:utils"
[15] "package:datasets" "package:methods"
[17] "Autoloads" "package:base"

3.2加载文件，分析

setwd("d:/R") #设置文件所在根目录

--加载文件

test_file_2018 <- readLines("2018.txt",encoding = "UTF-8") #读取文件，编码格式是"UTF-8"

test_file_2017 <- readLines("2017.txt",encoding = "UTF-8")

test_file_2016 <- readLines("2016.txt",encoding = "UTF-8")

test_file_2015 <- readLines("2015.txt",encoding = "UTF-8")

test_file_2014 <- readLines("2014.txt",encoding = "UTF-8")

test_file_2013 <- readLines("2013.txt",encoding = "UTF-8")

--合并文件 用c() 把多个元素组成一个向量。

test_file <- c(test_file_2018,test_file_2017,test_file_2016,test_file_2015,test_file_2014,test_file_2013)

test_file <-tolower(test_file) #把所有的字符转为小写

cutter=worker() #设置分词引擎

segWords <- segment(test_file,cutter)  #对文本进行分词处理

--设置停顿词这里其实就是过滤词，一行一个单词，有些自认为很简单的词，比如:选项里 a,b,c,d，the,and,an 等等，或者先过滤这一步，等到统计频率出来，在根据需求一一添加即可。在相同的目录建一个文件"stopword.txt"   

f <- readLines("stopword.txt")

stopwords <- c(NULL)

for (i in 1:length(f))

{

  stopwords[i]<- f[i]

}

segWords<- filter_segment(segWords,stopwords) #过滤单词，filter_segment(源文本,过滤的词)

segWords<-gsub("[0-9[:punct:]]+?","",segWords) #去除数字  0-9 表示数字，[:punct:]表示特殊字符 “! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~”

tableWord <- count(segWords) #统计词频

view（tableWord）

停顿词示例stopword.txt：

第四步、输出结果

write.csv(tableWord,"tableWord.csv",fileEncoding = "UTF-8")#处出结果存为tableWord.csv 文件。

参考来源：https://blog.csdn.net/zx403413599/article/details/46730801

通过R语言统计考研英语（二）单词出现频率的更多相关文章

R语言统计学习-1简介
一. 统计学习概述统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监 ...
R语言基础入门之二：数据导入和描述统计
by 写长城的诗 • October 30, 2011 • Comments Off This post was kindly contributed by 数据科学与R语言 - go there t ...
R语言学习笔记（二）
今天主要学习了两个统计学的基本概念:峰度和偏度,并且用R语言来描述. > vars<-c("mpg","hp","wt") &g ...
R语言实战读书笔记(二)创建数据集
2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow ...
R语言学习笔记（二十一五）：如何如何提升R语言运算的性能以及速度
在R中获得快速运行代码的方法使用向量化运算 R语言的并行计算可以用parallel和foreach包加快R运行速度还可以使用cmpfun()函数即字节码编译器再者就是在R中调用C或C++ 同时还 ...
R语言高性能编程（二）
接着上一篇一.减少内存使用的简单方法1.重用对象而不多占用内存 y <- x 是指新变量y指向包含X的那个内存块,只有当y被修改时才会复制到新的内存块,一般来说只要向量没有被其他对象引用,就可 ...
R语言统计词频画词云
原始数据: 程序: #统计词频 library(wordcloud) # F:/master2017/ch4/weibo170.cut.txt text <- readLines("F ...
R语言学习笔记（二）：类与泛型函数
类大多数R对象都是基于S3类(来源于第三代S语言),例如直方图函数hist()输出是一个包含多个组件的列表,它还有一个属性(attribute),用来指定列表的类,即histogram类. 泛型函数 ...
C语言统计一个字符串中单词的个数
假定每一个单词用空格隔开. 样例: 输入:how are you! 输出:3 两种方法: 一: #include <stdio.h> #include <string.h> # ...

随机推荐

CSS 小结笔记之三种样式表
CSS 引入共有三种方式:内部样式表,内联样式(行内样式)表,外部样式表,当然也可以使用多重样式内联样式 <div style="color:red;font-size:20px&q ...
Enum,Int,String的互相转换
Enum为枚举提供基类,其基础类型可以是除 Char 外的任何整型.如果没有显式声明基础类型,则使用Int32.编程语言通常提供语法来声明由一组已命名的常数和它们的值组成的枚举. 注意:枚举类型的基类 ...
SQL Server 索引知识-应用,维护
创建聚集索引 a索引键最好唯一(如果不唯一会隐形建立uniquier列(4字节)确保唯一,也就是这列都会复制到所有非聚集索引中) b聚集索引列所占空间应尽量小(否则也会使非聚集索引的空间变大) c聚集 ...
Java 两个日期间的天数计算
在Java中计算两个日期间的天数,大致有2种方法:一是使用原生JDK进行计算,在JDK8中提供了更为直接和完善的方法:二是使用第三方库. 1.使用原生的JDK private static long ...
Oracle GoldenGate DDL 详细说明使用手册(较早资料)
一. 概述 DDL 相关的参数包括:DDL.DDLERROR.DDLOPTIONS.DDLSUBST.DDLTABLE.GGSCHEMA. PURGEDDLHISTORY.PURGEMARKERHIS ...
[C++] 用Xcode来写C++程序[2] 操作变量
用Xcode来写C++程序[2] 操作变量此节讲解包括变量的初始化的几种方式,以及泛型编程的两种变量赋值方式. 最基本的变量赋值以及操作: // operating with variables # ...
Linux env命令详解
env:查询环境变量常用的命令展示查看当前环境的环境变量 [root@localhost ~]# env HOSTNAME=localhost.localdomain SELINUX_ROLE_R ...
SPH算法（求最小代价树）
一.sph算法简介 1.最小代价树算法 SPH算法也叫做MPH( minimum path heuristic)算法, 用于构造时延约束最算法小代价组播树. 该算法中每个目的结点通过与当前组播树有最 ...
iOS应用内抓包、NSURLProtocol 拦截 APP 内的网络请求
前言开发中遇到需要获取SDK中的数据,由于无法看到代码,所以只能通过监听所有的网络请求数据,截取相应的返回数据,可以通过NSURLProtocol实现,还可用于与H5的交互一.NSURLProto ...
【模板】deque实现单调队列
双端队列deque容器: 关于deque最常用的有这几个函数: 都是成员函数双端队列模板题:[洛谷]P2952 [USACO09OPEN]牛线Cow Line #include<iostrea ...

通过R语言统计考研英语（二）单词出现频率

通过R语言统计考研英语（二）单词出现频率

整体思路：

第一步收集数据：

第二步整理数据

第三步：统计分析

第四步、输出结果

通过R语言统计考研英语（二）单词出现频率的更多相关文章

随机推荐

热门专题