TF-IDF算法——原理及实现

TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF的意思是词频(Term - frequency),IDF的意思是逆向文件频率（inverse Document frequency）.

TF-IDF是传统的统计算法，用于评估一个词在一个文档集中对于某一个文档的重要程度。它与这个词在当前文档中的词频成正比，与文档集中的其他词频成反比。

首先说一下TF（词频）的计算方法，TF指的是当前文档的词频，，在这个公式中，分子表示的是改词在某一文档中出现的次数，分母表示在该文档中所有关键词出现的次数之和。

然后来说下IDF(逆向词频)的计算方法，IDF指的是某个词汇普遍性的度量。，这个公式中，log内的部分，分子表示的是文档集中文档的个数，分母表示的是包含当前关键词的文档的个数，对于这个分数取对数，得到的就是，当前词汇的IDF的值。

下面，我来介绍下通过python对TF-IDF算法的设计及实现：

对象1：文章集（属性：文章对象的集合，包含关键字的文章数）

对象1：文章（属性：关键词对象的集合；关键词出现的总次数；关键词对应对象的字典）

对象2：文章-关键词（属性：关键词名称；关键词在当前文章中出现的次数；TF_IDF）

实现流程：

1、创建文章对象，初始关键字的Map集

2、遍历关键字，每遍历一个关键字，

2.1 关键词出现的总次数加一

2.2 判断文章关键字中是够存在当前关键字，如果存在，找出他，加一，如果不存在，创建一个文章关键字对象，塞到文章的关键字的集中去；

2.3 若果这个关键字是第一次出现，则记录关键字出现的文章数(如果关键字在关键字-文章数字典中存在，则文章数+1，否则将其加入到关键字-文章数字典中，并赋初始值1)

2.4 遍历完成，文章的关于关键词的Map集装载完成，然后将当前的文章add到文章集的对象中去

3 遍历文章集，计算出关键字对应的TF-IDF，并输出

实现代码：（实现代码以读取一个文件模拟多个文档）

# TF_IDF.py

# -*- coding: utf-8 -*-

import  jieba

import  math

class DocumentSet():

    documentList = []

    key_Count = {}  #关键词对应的文章数

class Document():

     docKeySumCount=0  #文章中所有关键词总次数

     docKeySet={}  #关键词对象列表

     def __init__(self,docid):

         self.docid = docid

class DocKey():

    docKeyCount = 1 #当前关键词在当前文章中出现的次数

    TF_IDF = 0  #当前关键词的TF-IDF值

    def __init__(self,word):

        self.word = word

f = open("C:/Users/zw/Desktop/key-words.txt", 'r')

line='start'

docList = DocumentSet()

while line:

    line = f.readline()

    datafile = line.split('\t')

    if(datafile.__len__()>=2):

        doc = Document(datafile[0])

        wordList = list(jieba.cut(datafile[1]))

        for i in wordList:

            doc.docKeySumCount = doc.docKeySumCount + 1

            if i not in doc.docKeySet.keys():

                doc.docKeySet[i] = DocKey(i)

            else:

                doc.docKeySet[i].docKeyCount = doc.docKeySet[i].docKeyCount+1

            #记录包含关键词的文章数

            if doc.docKeySet[i].docKeyCount <= 1:

                if i not in docList.key_Count.keys():

                    docList.key_Count[i]=1

                else:

                    docList.key_Count[i]=docList.key_Count[i]+1

    docList.documentList.append(doc)

f.close()

for d in docList.documentList:

    for k in d.docKeySet.keys():

        d.docKeySet[k].TF_IDF = d.docKeySet[k].docKeyCount/d.docKeySumCount + math.log(docList.documentList.__len__()/docList.key_Count[k])

        print ('文章id :%s  关键字【%s】的TF-IDF值为:%s',d.docid ,k,  d.docKeySet[k].TF_IDF)

TF-IDF算法——原理及实现的更多相关文章

Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
55.TF/IDF算法
主要知识点: TF/IDF算法介绍查看es计算_source的过程及各词条的分数查看一个document是如何被匹配到的一.算法介绍 relevance score算法,简单来说 ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
25.TF&IDF算法以及向量空间模型算法
主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean mo ...
Elasticsearch学习之相关度评分TF&IDF
relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse doc ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...
信息检索中的TF/IDF概念与算法的解释
https://blog.csdn.net/class_brick/article/details/79135909 概念 TF-IDF(term frequency–inverse document ...
广告系统中weak-and算法原理及编码验证
wand(weak and)算法基本思路一般搜索的query比较短,但如果query比较长,如是一段文本,需要搜索相似的文本,这时候一般就需要wand算法,该算法在广告系统中有比较成熟的应该,主要 ...

随机推荐

CF1005D Polycarp and Div 3 思维
Polycarp and Div 3 time limit per test 3 seconds memory limit per test 256 megabytes input standard ...
codeforces 486 E. LIS of Sequence（dp）
题目链接:http://codeforces.com/contest/486/problem/E 题意:给出n个数,如果一个数满足不属于最长递增序列,那么输出1,如果属于最长递增序列但是不属于所有最长 ...
hdu 1671 Phone List 字典树模板
Given a list of phone numbers, determine if it is consistent in the sense that no number is the pref ...
第10讲-Java集合框架
第10讲 Java集合框架 1.知识点 1.1.课程回顾 1.2.本章重点 1.2.1 List 1.2.2 Set 1.2.3 Map 2.具体内容 2.1.Java集合框架 2.1.1 为什么需要 ...
.NET Core 微信小程序退款——（统一退款）
继上一篇".NET Core 微信小程序支付——(统一下单)后",本文将实现统一退款功能,能支付就应该能退款嘛,一般涉及到钱的东西都会比较敏感,所以在设计退款流程时一定要严谨,不能 ...
Python批量删除mysql中千万级大量数据
场景描述线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多.运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只 ...
SpringBoot使用注解的方式构建Elasticsearch查询语句，实现多条件的复杂查询
背景&痛点通过ES进行查询,如果需要新增查询条件,则每次都需要进行硬编码,然后实现对应的查询功能.这样不仅开发工作量大,而且如果有多个不同的索引对象需要进行同样的查询,则需要开发多次,代码复 ...
Hadoop学习笔记—20.网站日志分析项目案例
1.1 项目来源本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛本次实践的目的就在于 ...
HBase读延迟的12种优化套
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题.HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少. 总 ...
第二场周赛（递归递推个人Rank赛）——题解
很高兴给大家出题,本次难度低于上一场,新生的六个题都可以直接裸递归式或者裸递推式解决,对于老生的汉诺塔3,需要找出一般式,后两题分别为裸ST算法(或线段树)/线性DP. 正确的难度顺序为种花角谷定 ...

TF-IDF算法——原理及实现

TF-IDF算法——原理及实现的更多相关文章

随机推荐

热门专题