重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

词向量的表示主流的有两种方式，一种当然是耳熟能详的google的word2vec，还有一类就是GloVe。那么前面一类有三个开源的包，后面这一类我倒是看到得不多，恰好是在我关注了许久的一个包里面有，它就是text2vec啦。该包提供了一个强大API接口，能够很好地处理文本信息。

本包是由C++写的，流处理器可以让内存得到更好的利用，一些地方是用RcppParallel包进行并行化加乘，同时兼容各个系统的服务器。如果没有并行的地方，大家也可以自己用foreach包来自己加速。

这个生态系统也是笔者见到过的，R语言里面最好、最全面的包了，包含了很多类型的算法以及成熟的应用。而且包的介绍十分详尽，很棒！！

系列文章：

重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例（二,情感标注）

R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean （三,相似距离）

————————————————————————————————

该包的四大功能：

1、快速文本表达方式。文档可以以多种方式表达，单独词组、n-grams、特征hashing化的方法等。

2、GloVe词向量表达

3、LDA主题模型，LDA（latent dirichlet allocation）、LSA(latent sematic analysis)，那么这个就是继lda、topicmodels两大包之后，第三个有主题模型功能的包啦~前面两个包可以参考我的另外博客：

R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

4、距离计算。cosine距离、jaccard距离、Relaxed word mover's distance（在最近的Kaggle比赛中很有效）、Euclidean距离。

————————————————————————————————————

一、快速文本表达

文档可以以多种方式表达，单独词组、n-grams、特征hashing化的方法等。
一般来说文本分析的步骤有以下三个步骤：
1、第一步：把内容表达成为文档-词组矩阵（document-term矩阵，DTM）或者词组共现矩阵（term-co-occurrence矩阵，TCM），换言之第一步就是在文档之上创造一个词条地图。
2、第二步：找个模型在DTM上进行拟合，有LDA、文本分类等
3、第三步：在验证集上进行验证

————————————————————————————————

二、GloVe词向量表达

在Tomas Mikolov等人开发了word2vec词向量表达工具之后，一大批衍生方法由此崛起与发展，其中一种斯坦福大学的GloVe（Global Vectors for word representation）就是一篇非常好的文献。
主要是在词语共现矩阵下因式分解。经过代码优化GloVe性能提高了2-3倍，是通过单精度浮点运算。

————————————————————————————————————————

三、LDA主题模型

LDA主题模型是基于lda包开发的（Jonathan Chang）,在下次发布的时候该主题模型的引擎就会嵌入到lda包之中，目前text2vec开发模型要比lda快2倍，比topicmodels包快10倍。LSA模型是基于irlab包。

——————————————————————————————————————

四、距离计算

Cosine
Jaccard
Relaxed Word Mover's Distance
Euclidean

还在研究中，后续加更...

——————————————————————————————————————

参考文献：

1、重磅︱文本挖掘深度学习之word2vec的R语言实现

2、语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

3、自然语言处理︱简述四大类文本分析中的“词向量”（文本词特征提取）

4、NLP︱句子级、词语级以及句子-词语之间相似性（相关名称：文档特征、词特征、词权重）

5、NLP︱R语言实现word2vec（词向量）经验总结（消除歧义、词向量的可加性）

重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）的更多相关文章

R+NLP︱text2vec包——四类文本挖掘相似性指标 RWMD、cosine、Jaccard 、Euclidean （三,相似距离）
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...
R+NLP︱text2vec包——BOW词袋模型做监督式情感标注案例（二,情感标注）
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 在之前的开篇提到了text2vec ...
R语言 ggplot2包
R语言 ggplot2包的学习分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...
用R进行文本分析初探——以《红楼梦》为例
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...
R软件中文本分析安装包 Rjava 和 Rwordseg 傻瓜式安装方法四部曲
这两天,由于要做一个文本分析的内容,所以搜索了一天R语言中的可以做文本分析的加载包,但是在安装包的过程,真是被虐千百遍,总是安装不成功.特此专门写一篇博文,把整个心塞史畅快的释放一下. ------- ...
NLP相关问题中文本数据特征表达初探
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
R语言rvest包网络爬虫
R语言网络爬虫初学者指南(使用rvest包) 钱亦欣发表于今年 06-04 14:50 5228 阅读作者 SAURAV KAUSHIK 译者钱亦欣引言网上的数据和信息无穷无尽,如 ...
NLP自然语言处理入门-- 文本预处理Pre-processing
引言自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
Solr：文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...

随机推荐

CSS初了解
1.在网页中, html负责的是一个页面的结构 css(层叠式表)是网页中的数据样式 2.编写css代码方式: A: 在style标签中编写代码,只能用在本页面中,复用性不强. 格式:<styl ...
python之在线平台与量化投资
0. 第一个量化策略 # 初始化函数,设定基准等等 def initialize(context): set_benchmark('000300.XSHG') g.security = get_ind ...
[TFRecord格式数据]利用TFRecords存储与读取带标签的图片
利用TFRecords存储与读取带标签的图片原创文章,转载请注明出处~ 觉得有用的话,欢迎一起讨论相互学习~Follow Me TFRecords其实是一种二进制文件,虽然它不如其他格式好理解,但是 ...
C++——函数重载
C++允许功能相近的函数在相同的作用域内以相同函数名声明,从而形成重载,方便使用,便于记忆. /*形参类型不同*/ int add(int x,int y); float add(float x,fl ...
HDU 6181 Two Paths
这是一道次短路的题但是本题有两个坑注意边权的范围,一定要在所有与距离有关的地方开 long long 本题所求的并不是次短路,而是与最短路不同的最短的路径,如果最短路不止一条,那么就输出最短路的长 ...
SqlServer varchar数据中类似于1.1.1.1这种值的排序方法
select * from 表名order by Convert(int,left(列名,charindex('.',列名+'.')-1)) asc, 列名asc charindex('.',列名) ...
Vs Code JavaScript开发插件推荐
1 vscode-icons 使用效果安装好后如何设置? Ctrl+Shift+P 然后输入theme 2 document this 如何使用? 在方法或者要注释的地方上按快捷键 Ctrl + ...
ionic2+Angular 组件(多个组件)浅谈
第一步,新建组件: ionic g component product-img-list 命令执行成功之后项目中生成的文件: 第二步:生成文件解析: ①product-img-list.ts impo ...
爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider)
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCli ...
Sublime Text3 快捷键汇总及设置快捷键配置环境变量
Ctrl+D 选词 (反复按快捷键,即可继续向下同时选中下一个相同的文本进行同时编辑)Ctrl+G 跳转到相应的行Ctrl+J 合并行(已选择需要合并的多行时)Ctrl+L 选择整行(按住-继续选择下 ...

重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）

重磅︱R+NLP：text2vec包——New 文本分析生态系统 No.1（一,简介）的更多相关文章

随机推荐

热门专题