python gensim的第一次试用

参考于

http://blog.csdn.net/xiaoquantouer/article/details/53583980

有一个地方很重要，一定要安装anaconda，安装库简直不要太方便。

先进行python jieba库进行中文分词：

 #encoding=utf-8

 import jieba

 import jieba.posseg as pseg

 import re

 import sys

 reload(sys)

 sys.setdefaultencoding( "utf-8" )

 filename='D:/hellowxc/python/1.txt'

 fileneedCut='D:/hellowxc/python/test.txt'

 fn=open(fileneedCut,"r")

 f=open(filename,"w+")

 lines =fn.readlines()  # 读取全部内容

 for line in lines:

     line.replace('\t', '').replace('\n', '').replace(' ','')

     seg_list = jieba.cut(line, cut_all=False)

     f.write(" ".join(seg_list))

 f.close()

 fn.close()

然后gensim和word2vec进行简单的训练建模

 # -*- coding: utf-8 -*-

 """

 功能：测试gensim使用，处理中文语料

 时间：2017年5月16日17:10:23

 """

 from gensim.models import word2vec

 import logging

 # 主程序

 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

 sentences = word2vec.Text8Corpus(u"D:\\hellowxc\\python\\1.txt")  # 加载语料

 model = word2vec.Word2Vec(sentences, size=200)

 #

 print model

 # 计算两个词的相似度/相关程度

 try:

     y1 = model.similarity(u"屋顶", u"建成")

 except KeyError:

     y1 = 0

 print u"【屋顶】和【建成】的相似度为：", y1

 print"-----\n"

 y2 = model.most_similar(u"屋顶", topn=20)  # 20个最相关的

 print u"和【屋顶】最相关的词有：\n"

 for item in y2:

     print item[0], item[1]

 print"-----\n"

 # 寻找对应关系

 print u"屋顶-建成，形状-"

 y3 =model.most_similar([u'建成', u'形状'], [u'屋顶'], topn=3)

 for item in y3:

     print item[0], item[1]

 print"----\n"

 # 寻找不合群的词

 y4 =model.doesnt_match(u"屋顶 建成 形状 酒店".split())

 print u"不合群的词：", y4

 print"-----\n"

由于我数据特别小，只有6k，纯粹就是试用一下gensim。result没有任何意义。就不贴出来了。

just for test，走一遍大概的流程。

python gensim的第一次试用的更多相关文章

python笔记之第一次使用（未入门）
刚开始学习python,之前完全没有接触,在这里写下自己学习python的过程和心得. 首先,安装python,打开官网:http://python.org.点击Download.我选择了3.5.1版 ...
Python gensim库word2vec 基本用法
ip install gensim安装好库后,即可导入使用: 1.训练模型定义 from gensim.models import Word2Vec model = Word2Vec(senten ...
python的mp3play库试用
没有见过比这个更小型的库了,下面程序实现的功能:播放音乐,按空格键实现暂停和播放的切换. #coding=utf-8 import mp3play import pythoncom, pyHook i ...
python Gensim库建立word2vec参数说明
from gensim.models import word2vec model = word2vec.Word2Vec(sentences, size=80, window=10,workers=6 ...
Python考试_第一次
python基础数据类型考试题考试时间:两个半小时满分100分(80分以上包含80分及格) 一,基础题. 1. 简述变量命名规范(3分) 答:(1) 变量为数字,字母以及下划线的任意组合,且不能以 ...
Python 爬虫之第一次接触
爬豆瓣网电影TOP250名单 ------- 代码未写完,等待更新 import requests from requests.exceptions import RequestException i ...
第一次写python
这是一个在BJDP上学习Coding Kata的时候用到的一个练习,原来打算用Java写的,但是一想正好是学习的好机会. 就用Python了.第一次,写的有些复杂. 这个题目是关于购买图书的打折信息的 ...
Python介绍
本节内容 Python简史 Python是一门什么样的语言? Python的优点与缺点 Python解释器一.Python简史历史背景在20世纪80年代,IBM和苹果已经掀起了个人电脑的浪潮.但 ...
python初识第二篇
python 编码: 第一次编程有时候会遇到乱码的情况,就可以通过以下的情况来解决在Windows中默认的就是gbk编码,如果在代码头两部定义utf-8,系统还会按照系统的方式来定义. python ...

随机推荐

Struts结果跳转方式(四种result配置)
1.转发(默认转发)
webgote的例子数据库与sql注入的相关联系(1)
大家好我是时光凉春衫薄之前将讲的sql注入有点随便了我同事也觉得有些地方看不懂,往后的几天我尽量写的细一点.尽可能让大家能看懂.(新手出道大佬多多指教.欢迎评论批评.) 数据库与sql注入的相关联系 ...
Sklearn-GridSearchCV网格搜索
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
Codeforces 799B - T-shirt buying(STL)
题目链接:http://codeforces.com/problemset/problem/799/B 题目大意:有n件T恤,每件T体恤都分别有价格(每件衣服的价格不重复).前面的颜色.背部的颜色三种 ...
golang基础之二-基本数据类型和操作符
文件名&关键字&标识符所有go源码都是以.go结尾标识符以字母或下划线开头,大小写敏感下划线_是特殊标识符,用户忽略结果保留关键字导入包时可以设置别名下面是保留关键字: b ...
TeX中的引号（UVa272）
问题: 在Tex中,做双引号的" `` ",右双引号是" '' "(两个回车左边的).输入一篇包含双引号的文章,你的任务是把它转换成TeX的格式. 样例输入: ...
免费的.NET混淆和反编译工具
免费的.NET代码混淆工具: Eazfuscator.NET http://www.foss.kharkov.ua/g1/projects/eazfuscator/dotnet/Default.as ...
Could not apply the stored configuration for monitors
在用户目录下$user.home/.config/monitors.xml,要解决上面的问题,最简单的办法就是删除这个monitors.xml文件,重启一下电脑
Java 中 List 向前和向后遍历
Java 中 List 向前和向后遍历 import java.util.*; public class TestCollectionIterator { public static void mai ...
java总结(二)(运算符)
算数和赋值运算符 1.变量类型溢出时候,会直接取反:出现x>x+1 2.知道a++和++a 3.知道a/0错误 a/0.0无穷大字符串 1.知道栈区.堆区和方法区 2.知道new String ...

python gensim的第一次试用

python gensim的第一次试用的更多相关文章

随机推荐

热门专题