R分词
- #用于下载安装rJava 和 Rwordseg,如果安装了就注释掉
- install.packages("rJava")
- install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")
- #导入rJava 和Rwordseg
- library(rJava)
- library(Rwordseg)
- #测试rJava 和Rwordseg是否安装好
- teststring1 <- "我爱R语言,我爱文本挖掘"
- segmentCN(teststring1)
- #观察分词1000次花的时间
- system.time(for(i in 1:1000) segmentCN(teststring1))
- #segmentCN的详细解释
- ?segmentCN
- #若输入参数为字符向量,则返回列表
- segmentCN("结合成分子时")
- segmentCN(c("说的的确在理","一次性交多少钱"))
- #默认nosymbol为TURE 不输出标点,只能有汉字,英文,和数字
- segmentCN("我喜欢读《圣经》,你呢?")
- segmentCN("我喜欢读《圣经》,你呢?",nosymbol=FALSE)
- #nature设置 是否输出词性 不是很智能 会出现错误
- segmentCN("花了一元钱买了一朵美丽的花",nature=TRUE)
- #参数isNameRecognition 可用来人的名字识别,
- getOption("isNameRecognition") #默认是不进行人名识别,输出false
- segmentCN("梅超风不是是桃花岛岛主")
- segment.options(isNameRecognition = TRUE)
- getOption("isNameRecognition")
- segmentCN("梅超风是桃花岛岛主")
- #对金庸的侠客行进行分词,分词的结果会输出到“侠客行.segment.txt”下
- segmentCN("E://Rcode//source//侠客行.txt")
- #“侠客行.txt” 364251个字, 大约用时间10S,还是很快的
- system.time(segmentCN("E://Rcode//source//侠客行.txt"))
- #查看词典
- listDict()
- segmentCN("湖北大鼓真是不错呀")
- #导入~.dic词典,可以直接复制然后改名为.dic
- installDict("E://Rcode//source//default.dic","default")
- segmentCN("湖北大鼓真是不错呀")
- #uninstallDict() 删除安装的词典
- uninstallDict()
- #listDict() 查看剩余的词典
- listDict()
- ##用搜狗词库的时候 一定要在官网上下载 ~.scel 文件,
- #不能直接将 下载的 ~.txt改为~.scel
- segmentCN("床前明月光,凝视地上霜")
- installDict("E://Rcode//source//李白诗集【官方推荐】.scel","libai",dicttype = "scel")
- segmentCN("床前明月光,凝视地上霜")
- segmentCN("天罡北斗阵和六脉神剑哪个更厉害")
- listDict()
- installDict("E://Rcode//source//金庸武功招式.scel","jinyong",dicttype = "scel")
- segmentCN("天罡北斗阵和六脉神剑哪个更厉害")
- #自定义词典
- #手动添加或删除词汇,仅仅只在内存中临时添加,未记录下来
- segmentCN("画角声断谯门")
- insertWords("谯门")
- insertWords("画角")
- segmentCN("画角声断谯门")
- deleteWords(c("谯门","画角"))
- segmentCN("画角声断谯门")
- #使用save参数,把操作记录下来,下回启动能直接用
- insertWords(c("谯门","画角"),save=TRUE)
- segmentCN("画角声断谯门")
R分词的更多相关文章
- R(八): R分词统计-老九门
分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化.词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词云:让词语的频率属性可 ...
- 借助ltp 逐步程序化实现规则库 文本生成引擎基于规则库和业务词库 去生成文本
[哪个地方做什么的哪家靠谱?地名词库行业.业务词库]苏州做网络推广的公司哪家靠谱?苏州镭射机维修哪家最专业?昆山做账的公司哪家比较好广州称重灌装机生产厂家哪家口碑比较好 [含有专家知识]郑州律师哪个好 ...
- [原]CentOS7安装Rancher2.1并部署kubernetes (二)---部署kubernetes
################## Rancher v2.1.7 + Kubernetes 1.13.4 ################ ##################### ...
- 利用python进行数据分析2_数据采集与操作
txt_filename = './files/python_baidu.txt' # 打开文件 file_obj = open(txt_filename, 'r', encoding='utf-8' ...
- Django项目:CRM(客户关系管理系统)--81--71PerfectCRM实现CRM项目首页
{#portal.html#} {## ————————46PerfectCRM实现登陆后页面才能访问————————#} {#{% extends 'king_admin/table_index.h ...
- R包——jiebaR分词器
关于R的分词器jiebaR 关于R的分词器jiebaR "结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Ma ...
- R系列:分词、去停用词、画词云(词云形状可自定义)
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
- R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比 ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
随机推荐
- python之编码问题
二进制------>ASCII:只能存英文和拉丁字符.一个字符占用一个字节,8位------------>gb2312:智能6700多个中文, 1980年 gbk1.0:存了2万多字符 1 ...
- 【OH】Oracle软件安装需要的软件包(官方文档)
1 安装12c 1.1 Table 3 x86-64 Supported Linux 7 Operating System Requirements Item Requirements SSH R ...
- NIO基础篇(二)
Selector(选择器)是Java NIO中能够检测一到多个NIO通道,并能够知晓通道是否为诸如读写事件做好准备的组件.这样,一个单独的线程可以管理多个channel,从而管理多个网络连接. 传统的 ...
- BZOJ 4518: [Sdoi2016]征途 [斜率优化DP]
4518: [Sdoi2016]征途 题意:\(n\le 3000\)个数分成m组,一组的和为一个数,求最小方差\(*m^2\) DP方程随便写\(f[i][j]=min\{f[k][j-1]+(s[ ...
- User Parameters(用户参数)
User Parameters(用户参数),这个是整个zabbix的重点 Zabbix有很多内置的itemkey,但是这些key都是由Zabbix定义好的比较通用的监控项的实现, 如果我们自己想实 ...
- Javascript获取数组中的最大值和最小值方法汇总
方法一 sort()方法 b-a从大到小,a-b从小到大 var max2 = arr.sort(function(a,b){ return b-a; })[0]; console.log(max2) ...
- ConcurrentHashMap源码分析(一)
本篇博客的目录: 前言 一:ConcurrentHashMap简介 二:ConcurrentHashMap的内部实现 三:总结 前言:HashMap很多人都熟悉吧,它是我们平时编程中高频率出现的一种集 ...
- JSP基础点滴
注释:<%-- 注释 --%> JSP中一共有3种Scriptlet代码.支持与HTML的代码混编. 第一种:<%%> 定义局部变量,编写语句. 第二种:<%!%> ...
- 归并排序Merge Sort
//C语言实现 void mergeSort(int array[],int first, int last) { if (first < last)//拆分数列中元素只剩下两个的时候,不再拆分 ...
- C/C++语言的语法基础
数据类型指明变量或表达式的状态和行为,数据类型决定了数的取值范围和允许执行的运算符集.c++语言数据类型可以分为两大类:基本类型和引用类型.基本类型是指不能再分解的数据类型,其数据在函数的调用中是以传 ...