c++英文单词频度统计程序

英文单词频度统计程序（c++版）

写一个程序，分析一个文本文件（英文文章）中各个次出现的频率，并且把频率最高的十个词打印出来。

分析过程：

(1) 简单设想大致分为两大步骤：

1.经过文本文件的读操作将所有单词读出来；

2.统计各个单词的出现频率并将频率最高的单词输出。

（2）进一步设想，发现如果这样做工作量是十分大的：先由读文件操作将所有单词读出，并且保存到一个字符串数组中；然后文件读完后，利用循环以及字符串的比较

来统计各个单词出现的频率。最后发现在最后一步中，如果英语文章的上下文中存在相同的词，便会在输出时有重复出现的问题。

（3）再做设想：在读文件时便同时统计单词的个数，同时将单词和对应的个数保存到相应的正整数数组和字符串数组中；统计完后再将单词按照出现的频率从大到小排

列，最后输出十个频度最高的。

最终我决定按照第三种想法来进行编程。

程序代码

#include <iostream>

#include <fstream>

#include <string.h>

#include <malloc.h>

using namespace std;

ifstream fp("source.txt",ios::in);....//定义文件，将要读入的文件名为“source.txt”

char cbuffer;

void main()

{

    char word[];.................... //定义字符数组用来记录在读文件时出现的单词

    char  *w[];.....................//定义字符型指针变量数组用来保存单词

    char   *r[];........................//在交换单词位置时起作用

 int number[];...................//定义整型数组统计单词的个数

 int i=,j=,k,max=;

 if (!fp)..................................//如果打开文件失败则进行提示

 {

  cout<<"文件打开错误！！"<<endl;

     fp.get(cbuffer);

 }

 else...................................//打开成功进行如下操作

 {

   while (!fp.eof())................//只要文件没有读完便进行循环

   {

      while ( (isalpha(cbuffer))||(isdigit(cbuffer)))....//运用isaipha和isdigit函数对cbuffer进行辨别如果为字母或数字则进行循环

          {

               word[i++]=cbuffer;

                fp.get(cbuffer);

           }

     word[i]='\0';.............................................//为单词制造一个结尾

     w[j]=(char *)malloc(sizeof(word));..............//为w【】开辟一个word大小的空间

           strcpy(w[j],word);...............................//将单词复制到字符指针数组中

     number[j]=;...........................................//为当前单词的频率做初始化，记为1

           for(k=,i=;i<j;i++) ..........................//将当前单词与之前统计过的单词作比较，统计频率

      if(strcmp(w[i],w[j])==)

      {

        number[i]=number[i]+;.......................//如果存在相同的单词，则前面的单词加1

        j=j-;....................................................//因为与前面的单词相同，通过W[J]将当前单词覆盖

      }

     j++;

     i=;......................................................//使Word【】重新统计

     fp.get(cbuffer);

   }

   cout<<"结果如下："<<endl;

  for(k=;k<=j-;k++)...............................//利用冒泡排序

      for(i=k+;i<=j;i++)

     {

          if(number[k]<number[i])

          {

               int temp=number[k];..................................................................//交换顺序

               number[k]=number[i];

               number[i]=temp;

               r[]=(char *)malloc(sizeof(w[k]));................................................//将对应的单词也进行交换

              r[]=w[k];

             w[k]=(char *)malloc(sizeof(w[i]));

             w[k]=w[i];

             w[i]=(char *)malloc(sizeof(r[]));

             w[i]=r[];

           }

    }

 for(k=;k<=;k++)..............................................................................//将频率最高的十个单词输出

   cout<<k<<":"<<w[k]<<"   "<<number[k]<<endl;

 }

   fp.close();...........................................................................................//读完文件后关闭

      cout<<endl;

      cout<<"完成\n";

 }

测试的txt文件：

Different people have different hobbies. Some like painting or drawing while others love playing basketball. I have many hobbies because I like to do many things. Let me share a few of my hobbies with you. To begin with, I really go in for sports, both indoors and outdoors. I like collecting cards and playing card games with my friends. But my favorite games are video games. I could play them all day long. I am for being outside in the fresh air and sunshine, too. I like riding very much, but swimming is my favorite sport. In addition, I like to draw pictures and read comics. Listening to music and singing songs are things I enjoy too. Now I'm learning how to play an instrument--the guitar. Finally, I enjoy learning English because I like speaking with foreigners and I like watching Disney cartoons. As you can see, my hobbies keep me busy and excited. I'm always looking for new things to do!

结果如下：
1 :I   14
2 :like   7
3 :and   7
4 :my   5
5 :to   5
6 :with   4
7 :hobbies   4
8 :for   3
9 :things   3
10 :games   3

完成
Press any key to continue

编程心得：

虽然说此程序总体来说十分简单，但是编起来还是有点难，并且其中也遇到了一些基础的编程问题，总结起来还是编程的经验太少了，在今后的学习中还应该多多练习。不过在这次编程中我也有着自己的收获，对于字符串数组的交换有了一定的了解，在交换前要定义一个字符串指针变量同时也要开辟相应的空间后才能进行交换，例如：

r[0]=(char *)malloc(sizeof(w[k]));
      r[0]=w[k];
      w[k]=(char *)malloc(sizeof(w[i]));
     w[k]=w[i];
      w[i]=(char *)malloc(sizeof(r[0]));
      w[i]=r[0];

以上便完成了字符串的交换工作。在编程过程中总会有一些简单的错误，具体内容请看缺陷记录日志。

缺陷记录日志

程序错误	错误类型	更改
没有word[i]='\0'语句，致使结果中出现乱码	语义	加入
直接使用strcpy(w[j],word)	语法	在之前要有w[j]=(char *)malloc(sizeof(word));
冒泡法排序代码错误	语法	for(k=1;k<=j-1;k++) for(i=k+1;i<=j;i++)

老师说一个合格的软件设计者要有明确的时间概念，虽然这是个小程序但也有这一个时间记录日志，如下：

时间记录日志

预计时间	操作	时间	操作
2小时	思考编码过程	2014.2.21-2014.2.23休息期间	思考整个编程的过程
4小时	编程	2014.2.24 12:30-2:40	查找程序文件操作
		2014.2.24 2:50-5:30	编写程序主要代码
		2014.2.24 6:40-9:30	编写并解决字符串数组的交换代码
		2014.2.27 下午	删减多余代码，做最后调试
3小时	总结	2014.2.27 晚上	编写程序总结发博客

c++英文单词频度统计程序的更多相关文章

C# 统计程序执行时间
随便写写,小马哥勿怪最近悟出来一个道理,在这儿分享给大家:学历代表你的过去,能力代表你的现在,学习代表你的将来. 十年河东十年河西,莫欺少年穷. 话说马云年轻的时候也是屌丝一枚,有图为证现 ...
CodeIgniter框架开发的统计程序源代码开放
文章来源: PHP开发学习门户自己初学php时,用CodeIgniter框架开发的后台统计程序源代码程序部分页面如图: 具体配置及下载源代码:http://bbs.phpthinking.com/ ...
Mapreduce的序列化和流量统计程序开发
一.Hadoop数据序列化的数据类型 Java数据类型 => Hadoop数据类型 int IntWritable float FloatWritable long LongWritable d ...
“人向猿进阶”之软件工程第三课----WORDCOUNT.EXE统计程序
---恢复内容开始--- WC项目要求这个项目要求写一个命令行程序,模仿已有的wc.exe的功能,并加以扩充,给出某程序设计源语言文件的字符数.单词数和行数.给实现一个统计程序,它能正确统计程序文件 ...
wc 统计程序
WC项目要求这个项目要求写一个命令行程序,模仿已有的wc.exe的功能,并加以扩充,给出某程序设计源语言文件的字符数.单词数和行数.给实现一个统计程序,它能正确统计程序文件的字符数.单词数.行数,以 ...
YTU 2626: B 统计程序设计基础课程学生的平均成绩
2626: B 统计程序设计基础课程学生的平均成绩时间限制: 1 Sec 内存限制: 128 MB 提交: 427 解决: 143 题目描述程序设计基础课程的学生成绩出来了,老师需要统计出学生 ...
个人项目源程序特征统计程序（C++）
零.GitHub地址 https://github.com/King-Authur/Word-count 一.项目的相关要求 wc.exe 是一个常见的工具,它能统计文本文件的字符数.单词数和行数.这 ...
【转载】可能是世界上最牛逼的网站统计程序——Matomo
大家做网站的时候一般都会使用网站统计程序.通常,国内网站会使用百度统计.CNZZ等,而国外网站则会使用Google Analytics等统计.国内的统计程序普遍功能不太丰富,且响应速度一般.Googl ...
在 Linux 如何优雅的统计程序运行时间？恕我直言，你运行的可能是假 time
最近在使用 time 命令时,无意间发现了一些隐藏的小秘密和强大功能,今天分享给大家. time 在 Linux 下是比较常用的命令,可以帮助我们方便的计算程序的运行时间,对比采用不同方案时程序的运行 ...

随机推荐

FIFO深度
async fifo的full和empty的判断: 1)binary进制,MSB相同时,LSB也相同,empty: MSB不同时,LSB相同,full 2)gray code,MSB相同时,LSB也相 ...
Orchard使用中的坎坎坷坷
千万不要删除内容类型为 Page 的 Welcome to Orchard!,删除之后的问题就大发了,首页就打不开. 如果没发布也会出现首页打不开的现象!!!
Windows便笺快捷键
便笺快捷键便笺快捷键多数与Office相同 Ctrl+N 新建 Alt+F4 关闭便笺,下次打开内容还在 Ctrl+D 删除 Ctrl+E 居中 Ctrl+R 右对齐 Ctrl+L 左对齐 Ctrl ...
Linq join
MXS&Vincene ─╄OvЁ &0000022─╄OvЁ MXS&Vincene MXS&Vincene ─╄OvЁ:今天很残酷,明天更残酷,后天很美好, ...
Scala入门学习笔记三--数组使用
前言本篇主要讲Scala的Array.BufferArray.List,更多教程请参考:Scala教程本篇知识点概括若长度固定则使用Array,若长度可能有变化则使用ArrayBuffer 提 ...
机器学习实战-K-nearest neighbors 算法的优缺点
K临近算法是基于实例的学习,使用算法的时候我们必须要有接近分类结果的实例训练样本数据. 优点:精度高,对异常值不敏感缺点: 时间复杂度和空间复杂度比较大.(如果训练样本数据集比较大,需要大量的空间来 ...
Android网络框架源码分析一---Volley
转载自 http://www.jianshu.com/p/9e17727f31a1?utm_campaign=maleskine&utm_content=note&utm_medium ...
HTML 事件属性(下)
HTML 事件属性(下) 一:键盘事件 (Keyboard Events)二:鼠标事件 (Mouse Events) 一:键盘事件 (Keyboard Events)在下列元素中无效:base.bdo ...
Visual Studio的Web Performance Test提取规则详解（1）
总结 Visual Studio的Web Performance Test是基于HTTP协议层的,它不依赖于浏览器,通过直接接收,发送HTTP包来和Web服务器交互.Web Performance T ...
[问题2015S10] 复旦高等代数 II（14级）每周一题（第十一教学周）
[问题2015S10] 设 \(A\) 为 \(n\) 阶实方阵, 证明: 存在 \(n\) 阶非异实对称阵 \(R\), 使得 \(A'=R^{-1}AR\), 即 \(A\) 可通过非异实对称阵 ...

c++英文单词频度统计程序

c++英文单词频度统计程序的更多相关文章

随机推荐

热门专题