python结巴分词余弦相似度算法实现

过余弦相似度算法计算两个字符串之间的相关度，来对关键词进行归类、重写标题、文章伪原创等功能，让你目瞪口呆。以下案例使用的母词文件均为txt文件，两种格式：一种内容是纯关键词的txt，每行一个关键词就好；另一种是关键词加指数的txt，关键词和指数之前用tab键分隔，一行一对关键词。

代码附上：

# -*- coding: utf-8 -*-

from jieba import posseg

import math

import time

def simicos(str1, str2):

    # 对两个要计算的字符串进行分词, 使用隐马尔科夫模型(也可不用)

    # 由于不同的分词算法, 所以分出来的结果可能不一样

    # 也会导致相似度会有所误差, 但是一般影响不大

    cut_str1 = [w for w, t in posseg.lcut(str1) if 'n' in t or 'v' in t]

    cut_str2 = [w for w, t in posseg.lcut(str2) if 'n' in t or 'v' in t]

    # 列出所有词

    all_words = set(cut_str1 + cut_str2)

    # 计算词频

    freq_str1 = [cut_str1.count(x) for x in all_words]

    freq_str2 = [cut_str2.count(x) for x in all_words]

    # 计算相似度

    sum_all = sum(map(lambda z, y: z * y, freq_str1, freq_str2))

    sqrt_str1 = math.sqrt(sum(x ** 2 for x in freq_str1))

    sqrt_str2 = math.sqrt(sum(x ** 2 for x in freq_str2))

    return sum_all / (sqrt_str1 * sqrt_str2)

if __name__ == '__main__':

    case1 = "SEO"

    case2 = "SEO培训网"

    start = time.time()

    similarity = simicos(case1, case2)

    end = time.time()

    print()

    print("耗时: %.3fs" % (end - start))

    print("相似度: %.3f" % similarity)

python结巴分词余弦相似度算法实现的更多相关文章

python结巴分词SEO的应用详解
结巴分词在SEO中可以应用于分析/提取文章关键词.关键词归类.标题重写.文章伪原创等等方面,用处非常多. 具体结巴分词项目:https://github.com/fxsjy/jieba ...
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件.有兴趣的朋友请点这里. jieba支持三种分词模式: *精确模式,试图将句子 ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
Python 结巴分词模块
原文链接:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral PS:结巴分词支持Python3 源码下 ...
python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
python 结巴分词简介以及操作
中文分词库:结巴分词文档地址:https://github.com/fxsjy/jieba 代码对 Python 2/3 均兼容全自动安装:easy_install jieba 或者 pip in ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...
Python 结巴分词（2）关键字提取
提取关键字的文章是,小说完美世界的前十章: 我事先把前十章合并到了一个文件中: 然后直接调用关键字函数: import sys sys.path.append('../') import jieba ...

随机推荐

Jmeter怎么搭建环境
1.JDK检查与安装 cmd输入命令:java -version -- 检查主机是否安装了JDK JDK下载官网:https://www.oracle.com/technetwork/java/j ...
Python 栈(stack)
Python 栈(stack) 栈(stack)又名堆栈,它是一种运算受限的线性表栈只能在一端进行插入和删除操作,它按照先进后出(FILO)的原则存储数据,先进入的数据被压入栈底,最后的数据在栈顶 ...
有史以来Mysql面试题大全详解？
1.MySQL的复制原理以及流程根柢原理流程,3个线程以及之间的相关: 主:binlog线程——记载下悉数改动了数据库数据的语句,放进master上的binlog中: 从:io线程——在运用sta ...
洛谷P2508 [HAOI2008]圆上的整点
题目描述求一个给定的圆$ (x^2+y^2=r^2) $,在圆周上有多少个点的坐标是整数. 输入格式 $r$ 输出格式整点个数输入输出样例输入 4 输出 4 说明/提示 \(n\le 20 ...
linux jdk1.8 32位下载永久地址,ubuntu,centos,java
链接: https://pan.baidu.com/s/16zSC0HZGFjrTAXrW6eyHzg 提取码: cj7m 复制这段内容后打开百度网盘手机App,操作更方便哦
Docker系列之学习笔记
一.Docker简介 1.1.Docker架构 Docker 使用客户端-服务器 (C/S) 架构模式,分为Docker守护进程和客户端,Docker 客户端,实际上是 docker 的二进制程序,D ...
app版本升级的测试点
移动端版本更新升级是一个比较重要的功能点,主要分为强制更新和非强制更新. 1.强制更新需要测试的点有: 1)强制升级是否可以升级成功从老版本的包升级到新版版的包是否可以升级成功. 2)升级后的数据是 ...
asp.net core系列 62 CQRS架构下Equinox开源项目分析
一.DDD分层架构介绍本篇分析CQRS架构下的Equinox开源项目.该项目在github上star占有2.4k.便决定分析Equinox项目来学习下CQRS架构.再讲CQRS架构时,先简述下DDD ...
使用IDEA的Git插件上传项目教程
如何使用IDEA的Git插件上传项目一.在https://www.cnblogs.com/zyx110/p/10799387.html中下载二.注册码云账号搜索gitee码云插件并安装
【论文阅读】Objects as Points 又名 CenterNet | 目标检测
目录 Abstract Instruction 分析 CenterNet 的Loss公式第一部分:$L_k$ 第二部分:$L_{size}$ 第三部分:$L_{off}$ Abstrac ...

python结巴分词余弦相似度算法实现

python结巴分词余弦相似度算法实现的更多相关文章

随机推荐

热门专题