Python文章相关性分析---金庸武侠小说分析-2018.1.16

最近常听同事提及相关性分析,正巧看到这个google的开源库，并把相关操作与调试结果记录下来。

输出结果： 比较有意思的巧合是黄蓉使出打狗棒，郭靖就用了降龙十八掌，再后测试了名词的解析。

小说集可以百度《金庸小说全集 14部》全（TXT）作者：金庸 下载下来。
需要整理好格式，门派和武功名称之间需要有换行符，留意删除掉最后一行的空白区域。
下载完成后可以用自己习惯的工具或程序做相应调整，因语料内容太长，博客里面不允许"堆砌",所以没复制上来，有需要的可以再联系。

with open('names.txt') as f:

    data = [line.strip()  for line in f.readlines()]

novels = data[::2]

names = data[1::2]

novel_names = {k: v.split() for k, v in zip(novels, names)}

//可以在这里打印下看是不是都读取过

//开始分词并加载

for _, names in novel_names.items():#.iteritems():（Python2的旧写法）

    for name in names:

        jieba.add_word(name)

with open("kongfu.txt",encoding='UTF-8') as f:

    kungfu_names = [line.strip()

                    for line in f.readlines()]

with open("bangs.txt") as f:

    bang_names = [line.strip()

                  for line in f.readlines()]

for name in kungfu_names:

    jieba.add_word(name)

for name in bang_names:

    jieba.add_word(name)

novels = ["书剑恩仇录", "天龙八部","碧血剑","越女剑","飞狐外传","侠客行","射雕英雄传","神雕侠侣","连城诀","鸳鸯刀","倚天屠龙记","白马啸西风","笑傲江湖","雪山飞狐","鹿鼎记"]

//你知道的：飞雪连天射白鹿，笑书神侠倚碧鸳

sentences = []

for novel in novels:

    with open('{}.txt'.format(novel),encoding='UTF-8') as f:

        data = [line.strip()

                for line in f.readlines()

                if line.strip()]

    for line in data:

        words = list(jieba.cut(line))

        sentences.append(words)

model = gensim.models.Word2Vec(sentences,

                               size=200, #

                               window=5,

                               min_count=5,

                               workers=4)

//便于使用的方法

def get_gongfu(a, b, c):

    d, _ = model1.most_similar(positive=[c, b], negative=[a])[0]

    print (c,d)

//使用举例一

print ('-------------若黄蓉使出打狗棒法，郭靖会怎样？-------------------------')

get_gongfu("黄蓉","打狗棒法","郭靖")

print ('-------------若黄蓉拿着打狗棒，郭靖又会拿啥？-------------------------')

get_gongfu("黄蓉","打狗棒","郭靖")

输出结果：

-------------相关性:乔峰-------------------------

%% 虚竹 0.8226621747016907

%% 慕容复 0.809000551700592

%% 段正淳 0.808856725692749

%% 木婉清 0.7898266315460205

%% 童姥 0.7881260514259338

%% 袁承志 0.7863771915435791

%% 全冠清 0.7761101722717285

%% 谢烟客 0.7738543748855591

%% 俞莲舟 0.7663788199424744

%% 陆菲青 0.7651679515838623

-------------相关性:阿朱-------------------------

阿紫 0.8502078056335449

王语嫣 0.8323276042938232

木婉清 0.8188427090644836

方怡 0.81195068359375

钟灵 0.8042664527893066

仪琳 0.7905520796775818

青青 0.7837553024291992

香香公主 0.7774882316589355

盈盈 0.7765697836875916

马夫人 0.7628135681152344

-------------相关性:降龙十八掌-------------------------

打狗棒法 0.9099119901657104

太极拳 0.8792168498039246

空明拳 0.8742830157279968

绝招 0.864672064781189

一阳指 0.8576483726501465

蛤蟆功 0.8443030714988708

心法 0.8419612646102905

棒法 0.840523362159729

罗汉拳 0.838168740272522

小擒拿手 0.8356980085372925

-------------若黄蓉使出打狗棒法，郭靖会怎样？-------------------------

郭靖 降龙十八掌

-------------若黄蓉拿着打狗棒，郭靖又会拿啥？-------------------------

郭靖 令旗

输出结果： 比较有意思的巧合是黄蓉使出打狗棒，郭靖就用了降龙十八掌，再后测试了名词的解析。

模型参数：

Python文章相关性分析---金庸武侠小说分析-----

sentences：可以是一个·ist，对于大语料集，建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
sg： 用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。
size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
window：表示当前词与预测词在一个句子中的最大距离是多少
alpha: 是学习速率
seed：用于随机数发生器。与初始化词向量有关。
min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5
max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
sample: 高频词汇的随机降采样的配置阈值，默认为1e-3，范围是(0,1e-5)
workers参数控制训练的并行数。
hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0（defau·t），则negative sampling会被使用。
negative: 如果>0,则会采用negativesamp·ing，用于设置多少个noise words
cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（defau·t）则采用均值。只有使用CBOW的时候才起作用。
hashfxn： hash函数来初始化权重。默认使用python的hash函数
iter： 迭代次数，默认为5
trim_rule： 用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
sorted_vocab： 如果为1（defau·t），则在分配word index 的时候会先对单词基于频率降序排序。
batch_words：每一批的传递给线程的单词的数量，默认为10000

最近常听同事提及相关性分析,正巧看到这个google的开源库，并把相关操作与调试结果记录下来。

小说集可以百度《金庸小说全集 14部》全（TXT）作者：金庸 下载下来。
需要整理好格式，门派和武功名称之间需要有换行符，留意删除掉最后一行的空白区域。
下载完成后可以用自己习惯的工具或程序做相应调整，因语料内容太长，博客里面不允许"堆砌",所以没复制上来，有需要的可以再联系。

备注：首先百度到《金庸小说全集 14部》全（TXT）作者：金庸 下载下来，然后读取内容,另:以上模型每次都训练了,

Python文章相关性分析---金庸武侠小说分析-2018.1.16的更多相关文章

Python文章相关性分析---金庸武侠小说分析
百度到<金庸小说全集 14部>全(TXT)作者:金庸下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for li ...
python实现归并排序，归并排序的详细分析
python实现归并排序,归并排序的详细分析. 学习归并排序的过程是十分痛苦的.它并不常用,看起来时间复杂度好像是几种排序中最低的,比快排的时间复杂度还要低,但是它的执行速度不是最快的.很多朋友不 ...
理解 python metaclass使用技巧与应用场景分析
理解python metaclass使用技巧与应用场景分析参考: decorator与metaclass:http://jfine-python-classes.readthedocs. ...
python导入csv文件出现SyntaxError问题分析
python导入csv文件出现SyntaxError问题分析先简单描述下碰到的题目,要求是写出2个print的结果可以看到,a指向了一个列表list对象,在Python中,这样的赋值语句,其实内部 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
Python中的浮点数原理与运算分析
Python中的浮点数原理与运算分析本文实例讲述了Python中的浮点数原理与运算.分享给大家供大家参考,具体如下: 先看一个违反直觉的例子: >>> s = 0. > ...
Python爬虫实例（六）多进程下载金庸网小说
目标任务:使用多进程下载金庸网各个版本(旧版.修订版.新修版)的小说代码如下: # -*- coding: utf-8 -*- import requests from lxml import et ...
金庸的武侠世界和SAP的江湖
2018年10月30日晚,成都地铁一号线,Jerry手机app上突然弹出来一条金庸去世的新闻. Jerry识字很早,小学一年级就开始蹭我父亲的<射雕英雄传>看了.小时候,我爸工作的车间里有 ...
使用scrapy爬取金庸小说目录和章节url
刚接触使用scrapy的时候,如果一开始就想实现特别复杂的配置,显然是不太现实的,用一些小的例子可以帮助自己理解各个模块. 今天的目标:爬取http://www.luoxia.com/shendiao ...

随机推荐

[ASP.NET Core 3框架揭秘] 文件系统[1]：抽象的“文件系统”
ASP.NET Core应用具有很多读取文件的场景,比如配置文件.静态Web资源文件(比如CSS.JavaScript和图片文件等)以及MVC应用的View文件,甚至是直接编译到程序集中的内嵌资源文 ...
关于RAID 10的介绍与创建
一.RAID 10的简介定义: RAID10也被称为镜象阵列条带.象RAID0一样,数据跨磁盘抽取:象RAID1一样,每个磁盘都有一个镜象磁盘, 所以RAID 10的另一种会说法是 RAID 0+1 ...
Python3.7.1学习（三）求两个list的差集、并集与交集
在python3.7.1对列表的处理中,会经常使用到Python求两个list的差集.交集与并集的方法. 下面就以实例形式对此加以分析. # 求两个list的差集.并集与交集# 一.两个list差集# ...
RabbitMQ学习笔记之五种模式及消息确认机制
本文详细介绍简单模式Simple.工作模式Work.发布订阅模式Publish/Subscribe.Topic.Routing. Maven依赖引用 <dependencies> < ...
MyEclipse使用总结
0.快捷键 ================================================================================ 编辑: Ctrl+Shif ...
electron——dialog（实现导出excel）
背景前端点击导出excel按钮后,请求完需要导出的数据后发送给主进程electron,由主进程保存到本地 dialog 显示用于打开和保存文件.警报等的本机系统对话框. dialog 模块提供了ap ...
程序员实用工具，推荐一款代码统计神器GitStats
阅读全文需7分钟,工具很实用. 1. 前言对于Git项目开发,有一些可视化的工具,如gitk,giggle等,来查看项目的开发历史.但对于大型的项目,这些简单的可视化工具远远不足以了解项目完整的开发 ...
mui开发：苹果手机自动全屏解决方案
前一段时间,使用mui写app时,出现了苹果手机播放视频时,自动全屏的情况,并且无法点击控件,只能等到播放完毕后点击控件. 那么怎么解决这个问题呢,弟弟们请看我的下面. 1.在页面的video标签中, ...
【开发工具 - Android Studio】之AndroidStudio使用笔记
一.关闭自动更新: 问题:刚刚安装Android Studio的童鞋可能会遇到这样一个问题:Android Studio在打开的时候一直在下载一些东西,浪费很多时间,而且最终大多都会显示下载失败等等, ...
二进制安装 k8s 1.15.6 集群
目录: 第一篇环境介绍与基础配置第二篇部署前期准备工作第三篇 ETCD 集群部署第四篇 master节点的部署介绍和前置工作第五篇 kube-nginx 和 keepalived 部署安装 ...

Python文章相关性分析---金庸武侠小说分析-2018.1.16

Python文章相关性分析---金庸武侠小说分析-2018.1.16的更多相关文章

随机推荐

热门专题