基于Word2Vec的诗词生成器
基于Word2Vec制作的诗词生成器
1、什么是Word2Vec?
Word2vec 是 Word Embedding 方式之一,属于 NLP 领域。它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。
Word2Vec是将词转化为“可计算”“结构化”的向量的过程,是用来生成词向量的工具,而词向量与语言模型有着密切的关系。
2、基于Word2Vec的诗词生成器的结构
|——GUI诗词生成器.py
|——w_poem.py
|——mo.txt
|——诗词库.txt
GUI诗词生成器.py :GUI界面,用来获取用户输入关键字和作者名,和获取w_poem.py生成的诗词并转换成标签显示在GUI界面
w_poem.py :两个函数,save_model函数用来保存训练数据,write_poem函数调用Word2Vec生成的训练数据,查找与用户输入的关键字相似度最高的词语,根据要求组装成诗词。
mo.txt :保存训练数据
诗词库.txt :原始数据
3、成品
还没有加别的规则和算法,所以得到的诗词并不优美。


4、代码
GUI诗词生成器.py
from tkinter import *
import w_poem # 创建窗口:实例化一个窗口对象。
class TKK:
def __init__(self):
self.root = Tk()
# 窗口大小
self.root.geometry("350x400+374+182")
# 窗口标题
self.root.title("馒头的诗词生成器")
# 添加关键字标签控件
label = Label(self.root, text=" 关键字 ", font=("宋体", 20))
label.place(x=20,y=0)
# 关键字输入框
self.entry1 = Entry(self.root, font=("宋体", 20), width=10 )
self.entry1.place(x=170,y=0)
#添加作者标签
label = Label(self.root, text=" 作者 ", font=("宋体", 20))
label.place(x=20,y=50)
# 作者输入框
self.entry2 = Entry(self.root, font=("宋体", 20), width=10)
self.entry2.place(x=170,y=50)
# 添加点击按钮
button = Button(self.root, text="诗词生成", width=32,font=("宋体", 16), command=self.getpoem) # command=textt
button.place(x=0,y=90)
# 单选按钮
self.radio = IntVar()
r1 = Radiobutton(self.root, text="五言诗", font=("宋体", 12), fg="orange", variable=self.radio, value=0)
r1.place(x=20,y=130)
r2 = Radiobutton(self.root, text="七言诗", font=("宋体", 12), fg="orange", variable=self.radio, value=1)
r2.place(x=100,y=130)
r3 = Radiobutton(self.root, text="对联", font=("宋体", 12), fg="orange", variable=self.radio, value=2)
r3.place(x=180,y=130)
r5 = Radiobutton(self.root, text="九九归一", font=("宋体", 12), fg="orange", variable=self.radio, value=3)
r5.place(x=250,y=130) # 显示窗口
self.root.mainloop() def getpoem(self):
list_radio = ["五言诗", "七言诗", "对联", "九九归一"]
types = (list_radio[self.radio.get()])
kw = self.entry1.get()
xx = [20 if types=="对联" else 80]
poem_name = self.entry2.get()
te = w_poem.witer_poem(kw ,types,poem_name)
text = Label(text=te,font=("宋体", 12),fg="blue")
text.place(x=xx, y=150) if __name__ == '__main__':
tkk = TKK
tkk()
w_poem.py
from random import choice
from gensim.models import Word2Vec def save_model():
# 保存训练数据
with open("诗词库.txt", 'r', encoding='utf-8') as f:
words = [list(line.strip()) for line in f]
##window=16滑窗大小, min_count = 60过滤低频字
model = Word2Vec(sentences=words, min_count=60, vector_size=200, window=16,)
model.save("mo.txt") def witer_poem(kw, types, poem_name):
typp = {"五言诗": (4, 5), "七言诗": (4, 7), "九九归一": (9, 9), "对联": (2, 9)}
types = typp[types]
shici = list(kw)
# 调用训练数据
model = Word2Vec.load("mo.txt")
for row in range(types[0]):
for col in range(types[1]):
# 查找相似度最高的100个字-topn
pred = model.predict_output_word(context_words_list=shici, topn=100)
# 去除特殊符号
fu = [",", ".","?","‘","“","-","+","=","。","/",";",";",":","[","]",
"{","}","!","@","#","$","%","^","&","*","(",")","、","《","》"]
number = ["1","2","3","4","5","6","7","8","9","0"," ","!"]
rs = [w[0] for w in pred if w[0] not in shici + fu + number]
char = choice([c for c in rs if c not in kw])
shici.append(char)
# 添加标点符号
shici.append("," if row % 2 == 0 and types[0] % 2 == 0 else "。\n")
# 分段显示
sclen = types[0] * (types[1] + 1) # 计算诗词的长度,然后使用-sclen,来找到诗词标题的位置
# 如果是偶数句,则两句一行,否则一行一句
if types[0] % 2 == 0:
# 排版----->第一行题目 第二行作者 剩下的为诗词
last = "%s" % "".join(shici[:-sclen]) + "\n" + \
"作者:" + poem_name + "\n" + \
"".join(shici[-sclen:])
else:
last = "%s" % "".join(shici[:-sclen]) + "\n" + \
"作者:" + poem_name + "\n" + \
"".join(shici[-sclen:])
return last

基于Word2Vec的诗词生成器的更多相关文章
- Silverlight信息加密 - 通过Rfc2898DeriveBytes类使用基于HMACSHA1的伪随机数生成器实现PBKDF2
原文: http://blog.csdn.net/xuyue1987/article/details/6706600 在上一篇文章当中,介绍到了通过Silverlight获取web.config中的值 ...
- 基于word2vec的文档向量模型的应用
基于word2vec的文档向量模型的应用 word2vec的原理以及训练过程具体细节就不介绍了,推荐两篇文档:<word2vec parameter learning explained> ...
- 基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点 上篇说了Hi ...
- 基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量 上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
- 结对作业--基于GUI的四则运算生成器
组员:201421123015 陈麟凤 201421123019 张志杰 201421123020 黄海鸿 coding 地址 :https://coding.net/u/zhang1995/p/wo ...
- 结队编程-基于gui的四则运算生成器
成员:卢少锐 201421123027.刘存201421033023 coding.net地址 1.需求分析:除了实现四则运算的功能外,还添加了计时器功能和语言选择功能 2.程序设计:这次作业是基于上 ...
- 文本情感分析(二):基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...
- 基于PHP的颜色生成器
<?php function randomColor() { $str = '#'; for($i = 0 ; $i < 6 ; $i++) { ...
- [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
- word2vec + transE 知识表示模型
本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用 ...
随机推荐
- 2022-03-23:在k进制下,最小多小的num,可以让1~num范围的数拥有1的个数不少于n个? 腾讯音乐2022校园招聘。
2022-03-23:在k进制下,最小多小的num,可以让1~num范围的数拥有1的个数不少于n个? 腾讯音乐2022校园招聘. 答案2022-03-23: 二分法. 代码用golang编写.代码如下 ...
- 2021-05-22:假设所有字符都是小写字母, 大字符串是str,arr是去重的单词表, 每个单词都不是空字符串且可以使用任意次。使用arr中的单词有多少种拼接str的方式。 返回方法数。
2021-05-22:假设所有字符都是小写字母, 大字符串是str,arr是去重的单词表, 每个单词都不是空字符串且可以使用任意次.使用arr中的单词有多少种拼接str的方式. 返回方法数. 福大大 ...
- vue 版本查看
如何查看vue版本号? 方法1.全局查看vue版本号 npm info vue方法2.局部(当前项目)查vue版本号 npm list vue version方法3.此外还可以通过 package.j ...
- Java的CAS操作
介绍 CAS 技术是为了解决问题而生的,通过 CAS 我们可以以无锁的方式,保证对共享数据进行 "读取 - 修改 - 写回" 操作序列的正确性. CAS 是乐观锁设计思想的实现.C ...
- 代码随想录算法训练营Day31 贪心算法| 122.买卖股票的最佳时机II 55. 跳跃游戏 45.跳跃游戏II
代码随想录算法训练营 122.买卖股票的最佳时机II 题目链接:122.买卖股票的最佳时机II 给定一个数组,它的第 i个元素是一支给定股票第 i 天的价格. 设计一个算法来计算你所能获取的最大利润. ...
- 蜂窝移动通信(IOT)接入流程
蜂窝物联网 蜂窝物联网(Cellular IoT)就是使用现有的蜂窝网络连接物联网设备而形成的物联网,是一种将物理设备与互联网连接起来的方式.通过蜂窝物联网,人们将一些物理设备--如传感器-- ...
- ShowMeBug 持续升级,提供高信效度支撑的技术招聘方案
去年年底,全新升级版的 ShowMeBug --一款支持实战编程的技术能力评估平台,首次揭开了它神秘的面纱. 而近日,ShowMeBug 再次迎来一系列产品更新,它将以全新的面貌,提供高信效度支撑的技 ...
- Galaxy Project | 一些尝试与思考
很久都没有更新推文了,脑壳羞涩,快码不出字的节奏! 最近在尝试内部 Galaxy 一些新工具的开发和 Galaxy 核心版本的升级测试,发现一些问题,简单记录和聊一下吧. 一些尝试 对于在线的 web ...
- 测序数据学习笔记:bcl2fastq 安装
相比二进制的 bcl2fastq2,基于 Perl 语言的 bcl2fastq-1.8.4 或许是从源码层面学习了解 Illumina 测序数据处理一个不错的选择.源码版本的 bcl2fastq-1. ...
- 【HarmonyOS】详解低代码端云一体化开发之数据模型
[关键字] 元服务.低代码平台.端云一体化开发.数据模型.拖拽式UI [1.写在前面] 上一篇中分享了关于低代码平台开发元服务的基本使用,有兴趣的可以看一下,文章地址如下: https://devel ...