作业4-两人编程<词频统计>

协作:苗中峰,刘鑫成我主要攻克排序,成哥写了文件流的使用.整合工作由我完成,成哥帮我查阅资料,避免和解决语法错误. 这次任务较作业三的变化是: *文件流读取,写入. *单词排序(先按照频率排序,次数相同安字母顺序排序) java文件流的读取上次作业已经get,所以这个按道理来说不算问题. 而文件流写入虽然上次没有用,但是它与读取是一个承启呼应的关系,不难掌握,但是还是出现了一个小插曲,稍后再提. File fil…

作业3-个人项目<词频统计>

上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字母单词由分隔符分开如果一个字符串包含_非_字母数字,则不是单词单词大小写不敏感,例如 “file”.“FILE”和“File”可以看作同一个单词单词必须是字母开头,“file123”是单词,“123file”不是单词简单理一下思路: …

task4: 结对编程-词频统计[修改版]

问题描述: 读取一个文件,统计其中单词出现次数,并按从高到低的顺序显示,相同顺序的字典序排列. 思路: 基于上次的程序用正则提取出文本里的单词,然后利用字典计数(先get,为null则置1,不为null则加1),全部输入字典后通过entrySet()方法输出到列表,然后实现Comparator接口的类作为Collections.sort的参数实现排序的目的.遍历列表输出. 程序片段: 主要的就是下面的实现Comparator接口的类: class sortman implements Compa…

词频统计小程序-WordCount.exe

一. 背景最近顶哥为了完成学历提升学业中的小作业,做了一个词频统计的.exe小程序.因为当时做的时候网上的比较少,因此顶哥决定把自己拙略的作品发出来给需要的人提供一种思路,希望各位看官不要dis才好.最后附上源码链接,感兴趣的朋友可以继续优化哦. 二. 先看效果双击运行,下拉框选择源文件来源,支持本地和网络资源,如图: 本地源文件示例网络源文件示例三. 主要代码 1.pom文件 <dependencies>  <dependency&…

USTC《现代软件工程》春季学期——第一次个人作业：词频统计

截止日期 2018年3月29日23:59 要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等,文件夹内的所有文件)统计字符数.单词数.行数.词频,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件. 2. 使用性能测试工具进行分析,找到性能的瓶颈并改进 3. 对代码进行质量分析,消除所有警告 http://msdn.microsoft.com/en-us/library/dd264897.asp…

C# 词频统计东北师范大学软件项目管理第一次作业

一.作为杨老师的学生第一次听杨老师讲课,印象最深的就是:工程中所有步骤之间是乘法,如果任何一步为0,工程就做不出来了.以前所有老师讲到的都是不要太在乎结果,努力的过程很重要,但是这在软件工程中不合适了.没有结果的项目就是一个失败的项目,即便你为此付出了诸多努力,但一步走错满盘皆输. 二.回到正题,这次作业题目二选一:词频统计.四则运算.题目一出来的时候跟齐某同学稍微讨论了一下,词频统计思路清晰但是有一些问题,单词的过去式.过去分词.将来时.单复数形式是否需要区分及如何区分:缩写如don‘t是否需…

Hive简单编程实践-词频统计

一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件,而MapReduce读取的是HDFS目录中的文件,因此笔者认为该博客存在错误. (2)在hadopp根目录中创建两个测试文件file1.txt和file2.txt,并将他们拷贝到HDFS中的input目录下 echo "…

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

作业任务: 使用98年人民日报语料库进行词性标注训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: Jupyter Notebook, Python3 作业方法: 使用简单的统计词频的方法,对于单词的词性做出预测.暂未使用N-gram语言规则. 作业步骤: 1.处理语料库:删除段前标号. # 读取原始语料文件 in_path = '1998-01-105-带音.txt' file = open(i…

软工结对项目之词频统计update

队友胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功能设计) 031602215 胡展瑞:负责爬虫的设计,resutlt.txt的格式化,以及附加题的所有设计(批量下载pdf.可视化WordCount以及历年情况分析对比.作者联系图). PSP表格.学习记录表 PSP PSP2.1 Personal Software Process Stages 预…

软件工程第一次个人项目——词频统计by11061153柴泽华

一.预计工程设计时间明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: 1.5h: 单词排序部分: 0.5h: 程序调试与测试: 1-2h: 程序优化:2h: 预计总共时间:12-13h: 二.实际工程完成时间明确要求: 15min: 查阅资料: 1.5h: 学习C++基础知识与特性: 7h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 0.5h: 编写两种…

词频统计V2.5

一.前言作业具体要求见[https://edu.cnblogs.com/campus/nenu/SWE2017FALL/homework/922].一开始用JAVA写了个词频统计,然而没想出输入格式怎么解决,于9/17日晚将JAVA程序改成用C#程序写.9/17晚上八点~9/18下午四点前做的工作,主要都是做技术原型,分析题中哪些是自己不确定或不会完成的地方.到了下午五点左右就开始真正完成满足题目要求的各项功能.代码地址[https://git.coding.net/Dawnfox/wf.gi…

HW—词频统计

第一次个人作业——词频统计第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求二.需求分析及时间估计三.实现思路及过程四.测试用例.时间性能分析及改进方法五.经验总结一.基本要求 1. 统计文件的字符数(只需要统计Ascii码,汉字不用考虑,换行符不用考虑,'\0'不用考虑)(ascii码大小在[32,126]之间) 2. 统计文件的单词总数 3. 统计文件的总行数(任何字符构成的行,都需要统计)(不要只看换行符的数量,要小心最后一行没有…

软工之词频统计器及基于sketch在大数据下的词频统计设计

目录摘要算法关键红黑树稳定排序代码框架 .h文件: .cpp文件频率统计器的实现接口设计与实现接口设计核心功能词频统计器流程效果单元测试性能分析性能分析图问题发现解决方案异常处理 PSP表格记录感想基于sketch在大数据下的词频统计设计引言背景解决方案总结参考文献: Github项目地址摘要本词频统计器包括行数统计.字符数统计.单词数统计.词频统计功能.基于红8黑树算法和稳定排序实现,其中红黑树算法为本词频统计器提供良好的效率.提供性能下限保证…

论文爬取 & 词频统计2.0

一.Github地址课程项目要求队友博客二.具体分工 031602225 林煌伟 :负责C++部分主要功能函数的编写,算法的设计以及改进优化 031602230 卢恺翔 : 爬虫实现以及附加功能,代码框架设计,接口封装三.psp表格 & 学习进度条 psp表格 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 60 60 · Estimate · 估计这个任务需要多少时间 30 30…

Hadoop之词频统计小实验

声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉. (一)Hadoop的配置修正网上有很多Hadoop的配置教程,可自行寻找,这一部分主要是根据自身实际情况,结合自身特点,设置Hadoop.因为有时候根据别人的教程,设置总是不成功,因为别人的教程依赖于别人的软件或操作环境特点. 本部分也不可能提…

现代软件工程HW1：词频统计

作业详细要求:http://www.cnblogs.com/denghp83/p/8627840.html 基本功能 1. 统计文件的字符数(只需要统计Ascii码,汉字不用考虑,换行符不用考虑,'\0'不用考虑)(ascii码大小在[32,126]之间) 2. 统计文件的单词总数 3. 统计文件的总行数(任何字符构成的行,都需要统计)(不要只看换行符的数量,要小心最后一行没有换行符的情形)(空行算一行) 4. 统计文件中各单词的出现次数,输出频率最高的10个. 5. 对给定文件夹及其递归子文件…

C语言实现词频统计——第二版

原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 2.支持命令行输入英文作品的文件名 3. 支持命令行输入存储有英文作品文件的目录名,批量统计 4. 从控制台读入英文单篇作品,重定向输出代码实现: 在原代码的基础上稍做了修改,使之可以批量读取文件夹下的所有文件,所以加了一个mode来判断是单个文件输入还是文件夹输入,来不及整理程序,所以现在程序有点丑.这次…

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/.小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下. 与其不同的地方有: 0)其使用Hadoop Streaming,这里使用MapReduce框架. 1)不同的中文分词方法,这里使用IKAnalyzer,主页在http://code.google.co…

结对&词频统计

结对编程 Pathner 濮成林(博客:http://www.cnblogs.com/charliePU/) 1.词频统计环境依赖: 开发环境.myeclipse 2013, jdk1.7.0_04, echart.mini.js, tomcat 7.0. 运行环境.tomcat 7.0, jre7. 对濮成林词频统计进行需求的再讨论确定输入:TXT格式纯英文文档大小不超过10M 分析结果排序:按顺序输出前N个结果显示内容:显示内容在原有基础上增加排序结果显示.增加文章标题显示.修改横坐标…

【第一周】c++实现词频统计

coding.net地址:https://coding.net/u/Boxer_ ssh:git@git.coding.net:Boxer_/homework.git -------------------------------------------------------------------------------------- 9.6更新了一下,按老师要求把程序分块发表了,git版本控制内容比较多,正在学(2016.9.9已学). --------------------------…

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不清楚配置可看<Hadoop之词频统计小实验初步配置> 3)本文由于过长,无法一次性上传.其相邻相关的博文,可参见<Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构>,以阅览其余三篇剩余内容文档. (五)单机伪分布的英文词频统计Python&Streamin…

【tips】【词频统计】中可能用到的资源，以C++为例

前言我不知道C#什么情况,不过C++里面,什么参数都不传时,argc=1,argv里面是当前程序名.当你传入dir时,argc=2,当你传入-e dir时,argc=3. 这个文章十分适合有一点C语言基础,然后想自己独立完成这个作业的童鞋.预计只有一点点C语言基础的童鞋只需要5个小时左右就能搞定~ 如果有帮助请点赞..还有哦..blog里肯定不能给出代码的是吧,blog里面不能!!!~ 分析词频统计这个题目,主要需要实现3个部分: 递归的查找一个文件夹下面符合规则的文件. 对于每一个合法文件,…

Hadoop基础学习（一）分析、编写并执行WordCount词频统计程序

版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jiq408694711/article/details/34181439 前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,当中包含了Hadoop的执行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的…

python复合数据类型以及英文词频统计

这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's', 't'] #列表->字符串 string1 = ''.join(list1) #list #列表的增删改查 list1 = list('this…

《移山之道》第十一章：两人合作读书笔记 PB16110698 第六周（~4.15）

本周在考虑阅读材料时,我翻阅了<移山之道>,正好看到这一章:两人合作,心想:正好,我们正值结对作业的紧要关头,书中两人合作的宝贵经验和教诲应当对我们有很大帮助.于是,我开始一边在ddl苦海中扑腾挣扎,一边抽空读完了这一章,确实受益匪浅. 这一章首先由一个时间估计的小故事引入:从北京火车站到八达岭长城需要多久.书中两位同学分别考虑不同情况,给出了截然不同的估计,由此引出项目管理要素三角形:功能.资源和时间.这三者在项目中相互制约,维持其平衡方能做好项目.回想这一周我们奋战的经历,首先时间方面紧…

2016福州大学软件工程第二次团队作业——预则立&&他山之石成绩统计

第二次团队作业--预则立&&他山之石成绩统计结果如下: T:团队成绩 P:个人贡献比 T+P:折算个人成绩,计算公式为T+T/15*团队人数*P 学号组别 Team P T+P 031401433 606notconnected 12 16 12.77 031402629 606notconnected 12 17 12.82 031402618 606notconnected 12 15 12.72 031402606 606notconnected 12 15 12.72 03140…

c语言实现词频统计

需求: 1.设计一个词频统计软件,统计给定英文文章的单词频率. 2.文章中包含的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的. 2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本). 3.使用fopen函数读取指定的文档. 4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理. 5.采用快速排序法对统计结果进行排序. 5…

JAVA学习篇--JAVA两种编程模式控制

在Drp项目中,解说了两种编程模式Model 1和Model2.以下是对这两种模式的简单理解.以及因为Model2是基于MVC架构的模式,就将我们易混淆的MVC与我们之前学的三层架构进行对照学习一下. Model1 所谓Model1就是JSP大行其道的时代,在Model1模式下,整个Web应用差点儿所有由JSP页面组成,JSP页面接收处理client请求,对请求处理后直接做出响应.用少量的JavaBean来处理数据库连接.数据库訪问等操作. watermark/2/text/aHR0cDovL2…

使用storm分别进行计数和词频统计

计数直接上代码 public class LocalStormSumTopology { public static void main(String[] agrs) { //Topology是通过build模式创建出来的 //storm中的所有作业都是通过topology来指定的 TopologyBuilder builder = new TopologyBuilder(); //在设置bolt到topology时,需要设置该bolt的上游的spout或者bolt的id,这样topology…

jieba库分词词频统计

代码已发至github上的python文件词频统计结果如下(词频为1的词组数量已省略): {'是': 5, '风格': 4, '擅长': 4, '的': 4, '兴趣': 4, '宣言': 4, '有': 3, 'python': 3, '代码': 2, '员': 2, 'helloworld': 2, '哲学': 2, '当': 2, '对': 2, '很': 2, 'matlab': 2, '平凡': 2} 用词特点: 柱形图和饼图的创建通过代码实现图画中只显示频数2以上的词频重复的词频较…

【作业4-两人编程<词频统计>】的更多相关文章