TF-IDF算法-golang实现

1、TF-IDF算法介绍

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

（1）TF是词频(Term Frequency)

词频（TF）表示词条（关键字）在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式：即：

其中 ni,j 是该词在文件 dj 中出现的次数，分母则是文件 dj 中所有词汇出现的次数总和；

（2） IDF是逆向文件频率(Inverse Document Frequency)

逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。

如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。

公式：

其中，|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目（即 ni,j≠0 的文件数目）。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用 1+|{j:ti∈dj}|

即：

（3）TF-IDF实际上是：TF * IDF

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

公式：

golang 实现TF-IDF 算法

 1 package main

 2

 3 import (

 4     "fmt"

 5     "math"

 6     "sort"

 7     "time"

 8 )

 9

10 type wordTfIdf struct {

11     nworld string

12     value  float64

13 }

14

15 func main() {

16     start := currentTimeMillis()

17     FeatureSelect(Load())

18

19

20      cost := currentTimeMillis() - start

21      fmt.Printf("耗时 %d ms ",cost)

22

23 }

24

25 type wordTfIdfs []wordTfIdf

26 type Interface interface {

27     Len() int

28     Less(i, j int) bool

29     Swap(i, j int)

30 }

31

32 func (us wordTfIdfs) Len() int {

33     return len(us)

34 }

35 func (us wordTfIdfs) Less(i, j int) bool {

36     return us[i].value > us[j].value

37 }

38 func (us wordTfIdfs) Swap(i, j int) {

39     us[i], us[j] = us[j], us[i]

40 }

41

42 func currentTimeMillis() int64 {

43     return time.Now().UnixNano() / 1000000

44 }

45 func FeatureSelect(list_words [][]string) {

46     docFrequency := make(map[string]float64, 0)

47     sumWorlds := 0;

48     for _, wordList := range list_words {

49         for _, v := range wordList {

50             docFrequency[v] += 1

51             sumWorlds++;

52         }

53     }

54     wordTf := make(map[string]float64)

55     for k, _ := range docFrequency {

56         wordTf[k] = docFrequency[k] / float64(sumWorlds)

57     }

58     docNum := float64(len(list_words))

59     wordIdf := make(map[string]float64)

60     wordDoc := make(map[string]float64, 0)

61     for k, _ := range docFrequency {

62         for _, v := range list_words {

63             for _, vs := range v {

64                 if (k == vs) {

65                     wordDoc[k] += 1

66                     break

67                 }

68             }

69         }

70     }

71     for k, _ := range docFrequency {

72         wordIdf[k] = math.Log(docNum / (wordDoc[k] + 1))

73     }

74     var wordifS wordTfIdfs

75     for k, _ := range docFrequency {

76         var wti wordTfIdf

77         wti.nworld = k

78         wti.value = wordTf[k] * wordIdf[k]

79         wordifS = append(wordifS, wti)

80     }

81     sort.Sort(wordifS)

82     fmt.Println(wordifS)

83 }

84

85 func Load() [][]string {

86     slice := [][]string{

87         {"my", "dog", "has", "flea", "problems", "help", "please"},

88         {"maybe", "not", "take", "him", "to", "dog", "park", "stupid"},

89         {"my", "dalmation", "is", "so", "cute", "I", "love", "him"},

90         {"stop", "posting", "stupid", "worthless", "garbage"},

91         {"mr", "licks", "ate", "my", "steak", "how", "to", "stop", "him"},

92         {"quit", "buying", "worthless", "dog", "food", "stupid"},

93     }

94     return slice

95 }

TF-IDF算法-golang实现的更多相关文章

tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
55.TF/IDF算法
主要知识点: TF/IDF算法介绍查看es计算_source的过程及各词条的分数查看一个document是如何被匹配到的一.算法介绍 relevance score算法,简单来说 ...
Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
25.TF&IDF算法以及向量空间模型算法
主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean mo ...
Elasticsearch学习之相关度评分TF&IDF
relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse doc ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...
信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...

随机推荐

structs2.8创建拦截器
控制层 public class PrintUsername { private String username; public String getUsername() { return usern ...
SSM 项目从搭建爬坑到 CentOS 服务器部署 - 速查手册
SSM 项目从搭建爬坑到 CentOS 服务器部署 - 速查手册提示: (1)CSDN 博客左边有操作工具条上有文章目录 (2)SSM 指 Spring,Spring MVC,MyBatis Mav ...
[Android] Linux下JNI简单实现过程
大概梳理了一下JNI的过程: start->先写好A.java文件,里面添加native方法B,调用库C.so->编译成.class文件->用javac生成.h文件,文件包含Java ...
AWS CSAA -- 04 AWS Object Storage and CDN - S3 Glacier and CloudFront（四）
026 S3 Summary
联想ThinkPadE455实现FN禁用（F1-F12标准功能与特殊功能切换）
系统:Win7 64 位机型:联想ThinkPadE455笔记本方法一:键盘Fn热键切换功能(亲测可用) Fn+Esc FnLk 组合键方法启用或禁用Fn锁定功能具体说明(这个逻辑 ...
谨慎使用MyBatis自动生成Where语句
最近监控到类似这样一个慢查询: select XX_time from XXOrderInfo WHERE ( OrderId is not null and OrderId = N'xxxx') x ...
linux正则表达式（基础正则表达式+扩展正则表达式）
正则表达式应用非常广泛,例如:php,Python,java等,但在linux中最常用的正则表达式的命令就是grep(egrep),sed,awk等,换句话说linux三剑客要想能工作的更高效,就一 ...
Django之FBV&CBV
CBV与FBV是django视图中处理请求的两种方式 FBV FBV也就是function base views,字面意思函数基础视图,使用函数的方式处理请求url分发中添加的参数为视图处理函数名, ...
Linux 下Shell的学习3-service编程
1. vim /etc/init.d/nginx 2. chmod 755 /etc/init.d/nginx 3. service nginx status #!/bin/bash # nginx ...
windows最常用的快捷键(windows10 )
windows最常用的快捷键(windows10 ) [单指点击] 单击/双击,相当于鼠标左键. [单指滑动] 控制光标移动. [单指拖动] 相当于按下鼠标左键移动鼠标. [双指点击] 菜单键,相当于 ...

TF-IDF算法-golang实现

TF-IDF算法-golang实现的更多相关文章

随机推荐

热门专题