自然语言处理之关键词提取TF-IDF

统计每篇文章重要的词作为这篇文章的关键词，用tf-idf来实现。生产中有很多第三包可以调用，这里记录原理，顺便熟练python

1、公式：

计算词频TF

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

计算反文档频率idf

import os

import math

import operator

filepath='H:/data/allfiles/allfiles'

doc_word = dict()

i=0

#统计每篇文章中的词频，及文章总数

for filename in os.listdir(filepath):

    with open(filepath+'/'+filename,'r',encoding='utf-8') as f:

        freq_word = dict()

        for line in f.readlines():

            words = line.strip().split(' ')

            if len(words) == '':

                continue

            for word in words :

                if freq_word.get(word,-1) == -1:

                    freq_word[word] = 1

                else:

                    freq_word[word] += 1

    doc_word[filename] = freq_word

    i += 1

#统计idf

doc_nums = float(i)

doc_freq = dict()

for filename in doc_word.keys():

    for word in doc_word[filename].keys():

        if doc_freq.get(word,-1)==-1:

            doc_freq[word]=1

        else:

            doc_freq[word]+=1

for word in doc_freq.keys():

    doc_freq[word] =math.log(doc_nums/(doc_freq[word]+1))

#TF-IDF

for filename in doc_word.keys():

    word_sorted = sorted(doc_word[filename].items(),key=operator.itemgetter(1),reverse=True)

    for word in doc_word[filename].keys():

        doc_word[filename][word] = doc_word[filename][word]*doc_freq[word]/float(word_sorted[0][1])

    print (doc_word[filename])

自然语言处理之关键词提取TF-IDF的更多相关文章

NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
自然语言处理工具hanlp关键词提取图解TextRank算法
看一个博主(亚当-adam)的关于hanlp关键词提取算法TextRank的文章,还是非常好的一篇实操经验分享,分享一下给各位需要的朋友一起学习一下! TextRank是在Google的PageRan ...
自然语言处理--TF-IDF（关键词提取）
TF-IDF算法 TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它 ...
关键词提取算法TF-IDF与TextRank
一.前言随着互联网的发展,数据的海量增长使得文本信息的分析与处理需求日益突显,而文本处理工作中关键词提取是基础工作之一. TF-IDF与TextRank是经典的关键词提取算法,需要掌握. 二.TF- ...
TF/IDF（term frequency/inverse document frequency)
TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明. 一. TF/IDF描述单个term与特定document的相 ...
python实现关键词提取
今天我来弄一个简单的关键词提取的代码文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取分词方法有很多,我这里就选择常用的结巴jieba分词:去停用词,我用了一个停 ...
关键词提取TF-IDF算法/关键字提取之TF-IDF算法
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与信息探勘的常用加权技术.TF的意思是词频(Term - frequency), ...
Gradle +HanLP +SpringBoot 构建关键词提取，摘要提取。入门篇
前段时间,领导要求出一个关键字提取的微服务,要求轻量级. 对于没写过微服务的一个小白来讲.有点赶鸭子上架,但是没办法,硬着头皮上也不能说不会啊. 首先了解下公司目前的架构体系,发现并不是分布式开发,只 ...
NLP之关键词提取（TF-IDF、Text-Rank）
1.文本关键词抽取的种类: 关键词提取方法分为有监督.半监督和无监督三种,有监督和半监督的关键词抽取方法需要浪费人力资源,所以现在使用的大多是无监督的关键词提取方法. 无监督的关键词提取方法又可以分为 ...

随机推荐

[C++]2-4 子序列的和
/* 子序列的和(subsequence) 输入两个整数n<m<10^6,输出1/(n^2) + 1/((n+1)^2) + 1/((n+2)^2) 1/((n+3)^2) + ... + ...
iTOP-6818开发板支持AXP228电源管理[官方推荐最佳匹配]_支持动态调频
iTOP-6818开发板与4418开发板共兼容同一底板: 核心板:::::: 尺寸 50mm*60mm 高度核心板连接器组合高度1.5mm PCB层数 6层PCB沉金设计 4418 CPU ARM ...
牛客被3整除的子序列dp
题意很清楚,直接dp即可,dp[i][j]表示到第i个字符的状态为j的方案数,这里状态指的是子序列最大下标到第i直接dp即可,dp[i][j]表示到第i个字符的状态为j的方案数,这里状态指的是子序列最 ...
maven的pom.xml文件的标签详解
该博文引至:https://www.cnblogs.com/hafiz/p/5360195.html <project xmlns="http://maven.apache.org/P ...
Spring Boot学习记录(二)--thymeleaf模板 - CSDN博客
==他的博客应该不错,没有细看 Spring Boot学习记录(二)--thymeleaf模板 - CSDN博客 http://blog.csdn.net/u012706811/article/det ...
Ajax原生请求和java对象转成json
\黑马程序员_超全面的JavaWeb视频教程vedio\黑马程序员_超全面的JavaWeb教程-源码笔记\JavaWeb视频教程_day23-资料源码\ajax_code\day23_3 本代码中有模 ...
python - 字符编码/格式化/替换符
[转] Torch中实现mini-batch RNN
工作中需要把一个SGD的LSTM改造成mini-batch的LSTM, 两篇比较有用的博文,转载mark https://zhuanlan.zhihu.com/p/34418001 http://ww ...
Python全栈（第一部分）day3
昨日内容回顾格式化输出 %s %d %% 编码 ascii: 只能显示英文,特殊字符,数字万国码unicode: 最开始16位,中文不够,用32位,占用4个字节升级: utf-8 utf-16 ...
sort+uniq
cat a b | sort | uniq > c # c 是a和b的合集 cat a b | sort | uniq -d > c # c 是a和b的交集 cat a b b | sor ...

自然语言处理之关键词提取TF-IDF

自然语言处理之关键词提取TF-IDF的更多相关文章

随机推荐

热门专题