Python抓取歌词自制FreeStyle
故事的起因是上周六看《中国好声音》,一个周杰伦战队的学员用人工智能写的歌词,于是乎,我也有了这个想法,代码的主题思路是看Crossin先生的文章,虽然最后不能写出一首歌,但是押韵脚这事情分分钟搞定了
主题的思路,就是先抓取很多首歌曲的歌词,利用jieba分词后,将分好的词按照押韵表进行分类,最后匹配查询就可以了
准备一:押韵表
这个地方可以去网上搜押韵表
#引用各种需要的库 import requests import jieba import re from xpinyin import Pinyin p = Pinyin() RhymeIndex = [(', ['an', 'ian', 'uan']), (', ['ei', 'ui']), (', ['i']), (', ['qu', 'xu', 'yu'])] RhymeDct = {', ', ', '}
准备二:分词对应押韵表编码
分好的词与押韵表对应起来,举个栗子,比如“没有”对应的是“7-13”,就等于你给每个词都贴了一个标签,这样你以后想搜索的时候,就可以根据标签找到这些词了
def _analysis_words(words): word_py =p.get_pinyin((u'{}'.format(words))) lst_words = word_py.split('-') r = [] for i in lst_words: while True: if not i: break token = RhymeDct.get(i, None) if token: r.append(token) break i = i[:] if len(r) == len(words): return '-'.join(r) # print(_analysis_words('兄弟'))
第一步:爬虫抓取歌词信息
这个地方数据爬取的越多,肯定你的词库就越壮大,后面分词也越高,我这里只爬取了3首歌曲的歌词,并且最后是存储到txt中,当然,放数据库里就更好了
def GetKeyword(): #歌曲列表 # url = 'http://music.163.com/api/playlist/detail?id=808976784' # req = requests.get(url) # data = req.json() # print(data['result']['tracks'] ) # tracks =data['result']['tracks'] #歌曲列表 tracks=['] #写入记事本文件 with open('keyword.txt','a') as f: f.write("[") for i in tracks: print() #歌词 # lrcurl = "http://music.163.com/api/song/lyric?os=pc&id="+str(i['id'])+"&lv=-1&kv=-1&tv=-1" lrcurl = "http://music.163.com/api/song/lyric?os=pc&id="+str(i)+"&lv=-1&kv=-1&tv=-1" lrcreq = requests.get(lrcurl) dt = lrcreq.json() lrc=re.sub(u"\\[.*?]", "", dt['lrc']['lyric']) #jieba分词 seg_list = list(jieba.cut(lrc, cut_all=True)) for i in seg_list: #加入判断,只写入2个字组成的词 : #写入格式:{'7-13':'追求'} if _analysis_words(i)!=None: f.write("{'"+_analysis_words(i)+"':'"+i+"'},") f.write("]") f.close()
第二步:调用分词的方法
GetKeyword()
第三步:分析分词后的txt
def Findkey(str): result={} with open('keyword.txt', 'r') as f: # print(f.readlines()) list=eval(f.readlines()[]) for item in list: if item.get(str): key=item.get(str) number=result.get(key) #如果一个词出现多次,进行次数累加,用来表示频次 : result[key]=number+ else: result.update({key:}) f.close() print(result)
第四步:程序入口
key=input("请输入关键词:") str=_analysis_words(key) print("匹配押韵的词:") Findkey(str)
第五步:创作自己的 FreeStyle
# hello 大家好,我的名字叫离岛 # 没事爱在博客写写,这感觉让我惬惬 # 写代码不是男生的事,女生不是只能做测试 # 热爱编码,没有办法 # 他们都叫我是热爱编码的Coding女生
作者:离岛
出处:https://segmentfault.com/a/1190000015932069
Python抓取歌词自制FreeStyle的更多相关文章
- Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
- 使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 ...
- python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
- python抓取网页例子
python抓取网页例子 最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
- 如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞 踩 收藏 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
- 关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题 前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
- 用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
- python抓取月光博客的全部文章而且依照标题分词存入mongodb中
猛击这里:python抓取月光博客的全部文章
随机推荐
- 【matlab】 幂法 求解最大特征值
一. 算法: 1.输入矩阵A,初始向量x误差限ep,最大迭代次数N 2.置 k = 1, m1 = 0; 3.求Xr-> norm(x) abs(Xr)=max[Xi] 1<=i< ...
- CSS一个属性,让图片后的文字垂直居中,效果看得见
困扰我多年的疑难,终于解决了.哈哈哈,太爽了 背景 页面经常遇到,图片后面的文字显示在图片的中间部位,也就是说文字图片垂直居中. <div class="banner"> ...
- PHP设计模式系列 - 委托模式
委托模式 通过分配或委托其他对象,委托设计模式能够去除核心对象中的判决和复杂的功能性. 应用场景 设计了一个cd类,类中有mp3播放模式,和mp4播放模式 改进前,使用cd类的播放模式,需要在实例化的 ...
- mysql workbench的PK,NN,UQ,BIN,UN,ZF,AI
mysql workbench建表时PK.NN.UQ.BIN.UN.ZF.AI的意思,后面几个老搞不清,随记在这便于以后方便查. [intrinsic column flags] (基本字段类型标识) ...
- UE4中的AI行为树简单介绍
UE4引擎中可以实现简单AI的方式有很多,行为树是其中比较常用也很实用的AI控制方式,在官网的学习文档中也有最简单的目标跟踪AI操作教程,笔者在这里只作简单介绍. AIController->和 ...
- apache ActiveMQ之初体验
版权声明: https://blog.csdn.net/zdp072/article/details/27237549 一. 开篇语 继上一篇weblogic中使用jms发送和接受消息的文章后, 本文 ...
- 如何在Python中获取当前时间
所属网站分类: python基础 > 模块,库 作者:追梦骚年 链接:http://www.pythonheidong.com/blog/article/68/ 来源:python黑洞网,专注p ...
- 集合之保持compareTo和equals同步
在Java中我们常使用Comparable接口来实现排序,其中compareTo是实现该接口方法.我们知道compareTo返回0表示两个对象相等,返回正数表示大于,返回负数表示小于.同时我们也知道e ...
- [转]C结构体之位域(位段)
有些信息在存储时,并不需要占用一个完整的字节, 而只需占几个或一个二进制位.例如在存放一个开关量时,只有0和1 两种状态, 用一位二进位即可.为了节省存储空间,并使处理简便,C语言又提供了一种数据结构 ...
- NYOJ-171 聪明的kk 填表法 普通dp
题目链接: http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid=171 聪明的kk 时间限制:1000 ms | 内存限制:65535 KB 难 ...