word_freq
1) 博客开头给出自己的基本信息,格式建议如下:
学号:2017*****7193(保留前4位和后4位,中间用星号代替,避免泄露个人信息);
姓名:刘新飞,用你的真实姓名替代
我的码云仓库地址:[https://gitee.com/MrLiu199903/word_frequency/tree/master](https://gitee.com/MrLiu199903/word_frequency/tree/master)
注意:务必给出跟人信息,评分需要个人信息。
2) 程序分析,对程序中的四个函数做简要说明。要求附上每一段代码及对应的说明。
引入正则表达式
利用upper()将所有的字母转换成大写。lower()转换成小写;但我个人喜欢大写,故,在这里全部转换为大写。同时也利用split()对字符串进行切割,方便统计
用for循环,将key存入list
统计输出,top10的单词(全是大写 的)
3) 性能分析结果及改进。


在性能分析测试中,总共执行了20000+次,执行时间是0.409秒修正过后。因为之前最开始的想法是用dbm进行读取,但是导入dbm的之后,程序起不来,就没在码云仓库中保留失败的作品
4) 程序运行命令、运行结果截图以及改进后的程序运行命令及结果截图 。

5) 给出你对此次任务的总结与反思。

反思:在刚开始的时候怎么运行都会报如上图的错误,后来仔细阅读作业说明,才知道需要进本次作业python代码的目录、并且现上百度查的怎么通过默认的cmd命令行进入D盘。
同时,在本次作业的实际操作中,我复习了以前在学徒制 学习的dbm和正则表达式
总结:每一门技术都是在活学活用中掌握的更扎实,在复习正则表达式的同时,参阅了http://www.runoob.com/python/python-reg-expressions.html的教程,同时也在其中学到了re.match与re.search的区别。
word_freq的更多相关文章
- RNN 入门教程 Part 2 – 使用 numpy 和 theano 分别实现RNN模型
转载 - Recurrent Neural Networks Tutorial, Part 2 – Implementing a RNN with Python, Numpy and Theano 本 ...
- jieba
# coding: utf-8 # ###jieba特性介绍 # 支持三种分词模式: # 精确模式,试图将句子最精确地切开,适合文本分析: # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非 ...
- word2vec模型原理与实现
word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具. gensim包提供了word2vec的python接口. word2vec采用了CBOW(Continuous B ...
- ipyparallel WordCount实现
ipyparallel 之中,可以利用多个engine同时运行一个任务来加快处理的速度.在ipyparallel之中,集群被抽象为view,包括direct_view和balanced ...
- Recurrent Neural Network系列2--利用Python,Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
- R系列:分词、去停用词、画词云(词云形状可自定义)
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
- 老李分享:《Linux Shell脚本攻略》 要点(七)
老李分享:<Linux Shell脚本攻略> 要点(七) 1.显示给定文件夹下的文件的磁盘适用情况 [root@localhost program_test]# du -a -h ./ ...
- 老李分享:《Linux Shell脚本攻略》 要点(四)
老李分享:<Linux Shell脚本攻略> 要点(四) 1.IP地址的正则表达式: [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3} 2. ...
- R语言-文本挖掘
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) ...
随机推荐
- 编码 ASCII, GBK, Unicode+utf-8
0. 1.参考 网页编码就是那点事 阮一峰 字符编码笔记:ASCII,Unicode 和 UTF-8 2.总结 美国 ASCII 码 发音: /ˈæski/ :128个字符,只占用了一个字节的后面7位 ...
- Spring Data REST PATCH请求 远程代码执行漏洞案例(CVE-2017-8046)
恶意的PATCH请求使用精心构造的JSON数据提交到spring-data-rest服务可以执行任意JAVA代码 1. 背景 Spring Data REST是Spring Data项目的一部分,可以 ...
- XXXXX,这个域名
相信大家也不会记得 因为我没续费 所以已经变成不可描述的XX片网站了 大家不要看了....QAQ
- NOIP2017 d1t2 时间复杂度
题目传送门:洛谷P3952 大模拟不解释 #include<iostream> #include<cstdio> #include<cmath> #include& ...
- NEERC-2017
A. Archery Tournament 用线段树套set维护横坐标区间内的所有圆,查询时在$O(\log n)$个set中二分查找即可. 时间复杂度$O(n\log^2n)$. #include& ...
- react-native flatlist 上拉加载onEndReached方法频繁触发的问题
问题 在写flatlist复用组件时,调用的时候如果父组件是不定高的组件,会造成组件无法显示 如果父组件样式{flex:1},则会出现下拉方法频繁触发或不正常触发的问题(我这里出现的问题是在列表第6个 ...
- Redhat Linux5.4/5.5/5.8/6.0/6.3 ISO镜像文件下载
版本有RedHat Enterprise Linux(RHEL)5.4/5.5/5.8/6.0/6.3 ISO镜像文件下载地址: RHEL 5.4 ISO下载http://rhel.ieesee.ne ...
- (82)Wangdao.com第十六天_JavaScript 异步操作
异步操作 单线程模型 指的是,JavaScript 只在一个线程上运行 也就是说,JavaScript 同时只能执行一个任务,其他任务都必须在后面排队等待 注意,JavaScript 只在一个线程上运 ...
- 《MySQL技术内幕》读书笔记
序章 MySQL的安装 源码编译安装 MySQL的配置 基础配置 mysqld程序:语言设置 mysqld程序:通信.网络.信息安全 mysqld程序:内存管理.优化.查询缓存区 mysqld程序:日 ...
- 全排列筛选(java)
蓝桥杯-全排列筛选(java) 蓝桥杯每年必考全排列筛选,一般为填空题: 可以使用for循环暴力破解,但是代码相对较长,也比较乱,不建议使用: 这里使用递归来解决,代码量相对较少,也很好理解: 如下为 ...