机器学习综合库gensim 简单搞定文本相似度

不废话直接代码吧

# 1.模块导入

import jieba

import gensim

from gensim import corpora

from gensim import models

from gensim import similarities

# 2.制作问题库

# 2.制作问题库

l1 = ["你叫什么名字", "你的姓名是什么", "你的体重是多少", "你的年龄是多少"]  # 问题库

# 3.对问题样本和问题库分词处理

a = "请问你的名称"  # 问题样本

all_doc_list = []

for doc in l1:

    doc_list = [word for word in jieba.cut(doc)]

    all_doc_list.append(doc_list)

doc_test_list = [word for word in jieba.cut(a)]

print(all_doc_list)

print(doc_test_list)

# 4.制作语料库

dictionary = corpora.Dictionary(all_doc_list)  # 制作词袋

# 词袋的理解

# 词袋就是将很多很多的词,进行排列形成一个 词(key) 与一个 标志位(value) 的字典

# 例如: {'什么': 0, '你': 1, '叫': 2, '名字': 3, '姓名': 4, '是': 5, '的': 6, '体重': 7, '多少': 8, '年龄': 9}

print("token2id", dictionary.token2id)

print("dictionary", dictionary, type(dictionary))

# -->问题库的语料库

corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]

# 语料库:

# 这里是将all_doc_list 中的每一个列表中的词语 与 dictionary 中的Key进行匹配

# 得到一个匹配后的结果,例如['你', '叫', '什么', '名字']

# 就可以得到 [(0, 1), (1, 1), (2, 1), (3, 1)]

# 依次:0代表的的是 你 1代表出现一次, 1代表的是 叫  1代表出现了一次, 以此类推

print("corpus", corpus, type(corpus))

# -->问题的语料库

# 将需要寻找相似度的分词列表 做成 语料库 doc_test_vec

doc_test_vec = dictionary.doc2bow(doc_test_list)

print("doc_test_vec", doc_test_vec, type(doc_test_vec))

# 5. 将corpus语料库(初识语料库) 使用Lsi模型进行训练

lsi = models.LsiModel(corpus)

# 模型有很多,这里的只是需要学习Lsi模型来了解的,这里不做阐述

print("lsi", lsi, type(lsi))

# 语料库corpus的训练结果

print("lsi[corpus]", lsi[corpus])

# 获得语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示

print("lsi[doc_test_vec]", lsi[doc_test_vec])

# 6. 获取文本相似度

# 稀疏矩阵相似度 将 主 语料库corpus的训练结果 作为初始值

index = similarities.SparseMatrixSimilarity(lsi[corpus], num_features=len(dictionary.keys()))

print("index", index, type(index))

# 将 语料库doc_test_vec 在 语料库corpus的训练结果 中的 向量表示 与 语料库corpus的 向量表示 做矩阵相似度计算

sim = index[lsi[doc_test_vec]]

print("sim", sim, type(sim))

# 7. 获取相似度最高的结果

# 对下标和相似度结果进行一个排序,拿出相似度最高的结果

# cc = sorted(enumerate(sim), key=lambda item: item[1],reverse=True)

cc = sorted(enumerate(sim), key=lambda item: -item[1])

print(cc)

text = l1[cc[0][0]]

print(a,text)

机器学习综合库gensim 简单搞定文本相似度的更多相关文章

【机器学习】使用gensim 的 doc2vec 实现文本相似度检测
环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值. Gensim gensim是一个python的自然语言处理库,能够将文档 ...
python入门机器学习，3行代码搞定线性回归
本文着重是重新梳理一下线性回归的概念,至于几行代码实现,那个不重要,概念明确了,代码自然水到渠成. “机器学习”对于普通大众来说可能会比较陌生,但是“人工智能”这个词简直是太火了,即便是风云变化的股市 ...
100天搞定机器学习|Day11 实现KNN
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...
100天搞定机器学习|Day16 通过内核技巧实现SVM
前情回顾机器学习100天|Day1数据预处理100天搞定机器学习|Day2简单线性回归分析100天搞定机器学习|Day3多元线性回归100天搞定机器学习|Day4-6 逻辑回归100天搞定机器学习| ...
100天搞定机器学习|Day21 Beautiful Soup
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...
100天搞定机器学习|Day22 机器为什么能学习？
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...
100天搞定机器学习|day40-42 Tensorflow Keras识别猫狗
100天搞定机器学习|1-38天 100天搞定机器学习|day39 Tensorflow Keras手写数字识别前文我们用keras的Sequential 模型实现mnist手写数字识别,准确率0. ...
100天搞定机器学习|Day9-12 支持向量机
机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机器学习|D ...
100天搞定机器学习|Day17-18 神奇的逻辑回归
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...

随机推荐

Spring系列22：Spring AOP 概念与快速入门篇
本文内容 Spring AOP含义和目标 AOP相关概念声明式AOP快速入门编程式创建代理对象 Spring AOP含义和目标 OOP: Object-oriented Programming 面 ...
查看oracle归档日志路径
转至:https://blog.csdn.net/u010098331/article/details/50729896/ 查看oracle归档日志路径 1.修改归档日志的格式默认格式是:" ...
Python的内置数据结构
Python内置数据结构一共有6类: 数字字符串列表元组字典文件一.数字数字类型就没什么好说的了,大家自行理解二.字符串 1.字符串的特性(重要): 序列化特性:字符串具有一个很重要的 ...
使用Python绘制彩色螺旋矩阵
from turtle import* #导入turtle库 bgcolor("black") #设置画布颜色为黑色 speed(0) #设置画笔绘制速度 colors=[&quo ...
pandas模块篇(之三）
今日内容概要目标:将Pandas尽量结束如何读取外部excel文件数据到DataFrame中针对DataFrame的常用数据操作索引与切片操作DataFrame的字段名称时间对象序列操作 ...
linux添加串口权限
通过添加到用户组的方式实现1.由于tty属于"dialout"组别,比如你的用户名是blue, 先命令查看下用户隶属的组别 groups blue 2.如果没有隶属"di ...
『现学现忘』Docker基础 — 13、通过脚本安装Docker
Docker官方提供方便用户操作的安装脚本,用起来是非常方便.但是要注意的是,使用脚本安装Docker,是安装最新版本的Docker. 注意:不建议在生产环境中使用安装脚本.因为在生产环境中一定不要最 ...
GAN实战笔记——第七章半监督生成对抗网络（SGAN）
半监督生成对抗网络一.SGAN简介半监督学习(semi-supervised learning)是GAN在实际应用中最有前途的领域之一,与监督学习(数据集中的每个样本有一个标签)和无监督学习(不使 ...
ssl 证书配置
方式1: 1:找见域名列表 2: 主机记录 *,@,www 2:证书申请并下载 3: 4:宝塔网站ssl 参考博客: https://developer.aliyun.com/article/7714 ...
php ajax 修改，删除，添加（学做）

机器学习综合库gensim 简单搞定文本相似度

不废话直接代码吧

机器学习综合库gensim 简单搞定文本相似度的更多相关文章

随机推荐

热门专题