同义词查找，关键词扩展，使用腾讯Tencent AILAB的800万词向量，gensim，annoy

最近在做一个关键词匹配系统，为了更好的效果，

添加一个关键词扩展的功能。使用Tencent AIlab的800万词向量文件。

腾讯AILAB的800万词向量下载地址：https://ai.tencent.com/ailab/nlp/zh/embedding.html 这个是最新的有效地址

是用gensim模块读取词向量，并找到相似词，占用内存比较大，速度也慢，最好是16g以上的内存和高主频的cpu

import gensim

wv_from_text = gensim.models.KeyedVectors.load_word2vec_format('./Tencent_AILab_ChineseEmbedding.txt',binary=False)

wv_from_text.init_sims(replace=True)  # 神奇，很省内存，可以运算most_similar

while True:

    keyword = input("输入关键词：")

    w1 = [keyword]

    print(wv_from_text.most_similar(positive=w1,topn=5))

　　会返回5个最相似的词语

下面这个代码会使用annoy模块，这个模块好像不支持windows，要使用linux系统，32g以上内存加上高主频cpu。

from gensim.models import KeyedVectors

import json

from collections import OrderedDict

from annoy import AnnoyIndex

# 此处加载时间略长，加载完毕后大概使用了12G内存，后续使用过程中内存还在增长，如果测试，请用大一些内存的机器

tc_wv_model = KeyedVectors.load_word2vec_format('./Tencent_AILab_ChineseEmbedding.txt', binary=False)

# 构建一份词汇ID映射表，并以json格式离线保存一份（这个方便以后离线直接加载annoy索引时使用）

word_index = OrderedDict()

for counter, key in enumerate(tc_wv_model.vocab.keys()):

    word_index[key] = counter

with open('tc_word_index.json', 'w') as fp:

    json.dump(word_index, fp)

# 开始基于腾讯词向量构建Annoy索引，腾讯词向量大概是882万条

# 腾讯词向量的维度是200

tc_index = AnnoyIndex(200)

i = 0

for key in tc_wv_model.vocab.keys():  #遍历Tencent词向量的所有词

    v = tc_wv_model[key]

    tc_index.add_item(i, v)

    i += 1

# 这个构建时间也比较长，另外n_trees这个参数很关键，官方文档是这样说的：

# n_trees is provided during build time and affects the build time and the index size.

# A larger value will give more accurate results, but larger indexes.

# 这里首次使用没啥经验，按文档里的是10设置，到此整个流程的内存占用大概是30G左右

tc_index.build(10)

# 可以将这份index存储到硬盘上，再次单独加载时，带词表内存占用大概在2G左右

tc_index.save('tc_index_build10.index')

# 准备一个反向id==>word映射词表

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

# 然后测试一下Annoy，自然语言处理和AINLP公众号后台的结果基本一致

# 感兴趣的同学可以关注AINLP公众号，查询：相似词 自然语言处理

for item in tc_index.get_nns_by_item(word_index[u'自然语言处理'], 11):

    print(reverse_word_index[item])

# 不过英文词的结果好像有点不同

for item in tc_index.get_nns_by_item(word_index[u'nlp'], 11):

    print(reverse_word_index[item])

OK，上面的代码已经保存好了索引词文件，和索引词向量文件，下面开始使用，

它和gensim还是有些区别的，就是你查找相似的词必须在Tencent 词向量的词表里，

否则不能查，而gensim就不会有这个问题

import json

from annoy import AnnoyIndex

# JSON到字典转化

f2 = open('tc_word_index.json', 'r')

word_index = json.load(f2)

# 开始基于腾讯词向量构建Annoy索引，腾讯词向量大概是882万条

# 腾讯词向量的维度是200

tc_index = AnnoyIndex(200)

# 加载保存好的索引，带词表内存占用大概在2G左右

tc_index.load('tc_index_build10.index')

# 准备一个反向id==>word映射词表

index_word = dict([(value, key) for (key, value) in word_index.items()])

# 查询：相似词 自然语言处理

while True:

    keyword = input("请输入关键词：")

    index = word_index.get(keyword)

    if index:

        print("相似词有：")

        #获取相似的结果和分数 [[结果，，，],[分数，，，]]

        result = tc_index.get_nns_by_item(index, 10, include_distances=True)

        #获取分数小于0.65的结果

        sim_keywords = [(index_word[idx],distance) for idx,distance in zip(result[0],result[1]) if distance<0.8]

        print(sim_keywords)

    else:

        print("词表不存在输入的关键词！")

　　分数越小越代表相似度高

请输入关键词：价格

价格

相似词有：

[('价格', 0.0), ('价位', 0.6172553896903992), ('价', 0.6483607888221741), ('中价格', 0.6971825361251831), ('价格降', 0.7441657185554504), ('相对价格', 0.7511115074157715), ('选择价格', 0.7584652304649353), ('期望价格', 0.7803905606269836), ('心理价位', 0.7834618091583252), ('差价', 0.7885775566101074)]

请输入关键词：年龄

年龄

相似词有：

[('年龄', 0.0), ('25岁', 0.7704739570617676)]

请输入关键词：身高

身高

相似词有：

[('身高', 0.0), ('172cm', 0.6500729918479919), ('169cm', 0.6635174751281738), ('187cm', 0.6728192567825317), ('171cm', 0.6744356155395508), ('166cm', 0.6759911179542542), ('身高太矮', 0.6901100873947144), ('身高178', 0.6942415833473206), ('模特身高', 0.707866907119751), ('身高173', 0.7188507914543152)]

请输入关键词：体重

体重

相似词有：

[('体重', 0.0), ('标准体重', 0.7117555737495422), ('孕前体重', 0.719347357749939), ('增重', 0.7211400270462036), ('理想体重', 0.7256979942321777), ('70公斤', 0.7259328961372375), ('60公斤', 0.7400050759315491), ('孕期体重增加', 0.7469530701637268), ('体重范围', 0.7582899332046509), ('体重控制', 0.774792492389679)]

请输入关键词：

同义词查找，关键词扩展，使用腾讯Tencent AILAB的800万词向量，gensim，annoy的更多相关文章

git 关键词扩展
用习惯了svn 的关键词扩展.自然在git上也会寻找. 不知道啥是svn的关键词扩展? 简单列举下: 对于subversion来说,一些版本信息是不需要手动添加的,subversion提供了关键字替 ...
【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到 ...
词向量-LRWE模型-更好地识别反义词同义词
上一节,我们介绍利用文本和知识库融合训练词向量的方法,如何更好的融合这些结构化知识呢?使得训练得到的词向量更具有泛化能力,能有效识别同义词反义词,又能学习到上下文信息还有不同级别的语义信息. 基于上述 ...
linux,windows下日志文件查找关键词
1.查找 /apps/tomcat/tomcat3/apache-tomcat-7.0.69/logs 目录下已.txt结尾的文件,在文件中搜索关键字 IfcmpEcrService并打印行号 /lo ...
最新IP地址数据库二分逼近&二分查找高效解析800万大数据之区域分布
最新IP地址数据库来自 qqzeng.com 利用二分逼近法(bisection method) ,每秒300多万, 比较高效! 原来的顺序查找算法效率比较低 readonly string i ...
我从腾讯那“偷了”3000万QQ用户数据，出了份很有趣的独家报告！
声明: 1.目前程序已停止运行!QQ空间也已升级访问安全机制. 2.本“分析”数据源自部分用户的公开信息,并未触及隐私内容,广大网友无需担心. 3.QQ空间会不定期发布大数据分析报告,感兴趣的朋友关注 ...
转从腾讯那“偷了”3000万QQ用户数据
http://www.icaijing.com/hot/article4899809/ http://news.cnblogs.com/n/533061/
LUSE: 无监督数据预训练短文本编码模型
LUSE: 无监督数据预训练短文本编码模型 1 前言本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私 ...
以虎嗅网4W+文章的文本挖掘为例，展现数据分析的一整套流程
本文转自知乎作者:苏格兰折耳喵 ----------------------------------------------------- 本文作者将结合自身经验,并以实际案例的形式进行呈现,涉及从 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...

随机推荐

Zabbix“专家坐诊”第185期问答汇总
问题一 Q:Zabbix5.0版本,如图,请问这里怎么修改回localhost? A:找到文件conf/zabbix.conf.php,改下图这个位置问题二 Q:大家好,我有个疑问请教下,zabbi ...
Proxmark3入门指南
Proxmark3笔记 --Proxmark3完全入门指南写在前面这里所有针对扇区.区块的计数都是从0开始算一些需要知道的知识为了能看懂笔记,需要能回答以下问题 ID卡和IC卡主要的区别是什么 ...
FFmpeg命令行之ffplay
一.简述 ffplay是以FFmpeg框架为基础,外加渲染音视频的库libSDL构建的媒体文件播放器. 二.命令格式在安装了在命令行中输入如下格式的命令: ffplay [选项] ['输入文件'] ...
【Atcoder F - Cumulative Cumulative Cumulative Sum】线段树
要特别注意下精度,long,int范围.WA了几次 import java.util.Scanner; class Main { // static long[] A2 ;//i^2*AI // st ...
为什么数字化未来取决于3D实时渲染
什么是实时3D? 如果你曾经看过2D图纸并将3D产品可视化,你就会知道这是多么具有挑战性.实时3D允许观众观看3D图像或场景并与之交互,例如在视频游戏中,这些图像或场景看起来是实时移动的. 实时3D成 ...
除gRPC之外的另一个选择，IceRPC-支持QUIC
作者引言自从19年开始接处到RPC,当时完全没有相关概念,接触到的都是http,tcp等,当时公司用的是zeroc出品的ice框架,对应rpc非常强大,跨平台,跨语言.可惜的国内并不是主流,主流是g ...
记录--Vue 右键菜单的秘密：自适应位置的实现方法
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助下图这个情景,你是否也遇到过? 当你右键点击网页上的某个元素时,弹出的菜单被屏幕边缘遮挡了,导致你无法看清或选择菜单项? 上图中右键菜单的 ...
记录--关于无感刷新Token，我是这样子做的
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助什么是JWT JWT是全称是JSON WEB TOKEN,是一个开放标准,用于将各方数据信息作为JSON格式进行对象传递,可以对数据进行可 ...
终于来了！FastGPT 正式兼容 GPT 应用
终于来了!FastGPT 正式兼容 GPT 应用 FastGPT V4.7 正式加入了工具调用功能,可以兼容 GPTs 的 Actions.这意味着,你可以直接导入兼容 GPTs 的 Agent 工具 ...

同义词查找，关键词扩展，使用腾讯Tencent AILAB的800万词向量，gensim，annoy

同义词查找，关键词扩展，使用腾讯Tencent AILAB的800万词向量，gensim，annoy的更多相关文章

随机推荐

热门专题