需求:

1.设计一个词频统计软件,统计给定英文文章的单词频率。

2.文章中包含的标点不计入统计。

3.将统计结果以从大到小的排序方式输出。

设计:

1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的。

2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本)。

3.使用fopen函数读取指定的文档。

4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理。

5.采用快速排序法对统计结果进行排序。

5.将整个统计结果循环输出。

部分代码:

结构体定义:

struct fre_word
{
int num;
char a[];
};

分配初始内存:

struct fre_word *w;
w=(struct fre_word *)malloc(*p*sizeof(struct fre_word));//给结构体分配初始内存

读取文本:

printf("输入读入文件的名字:");
scanf("%s", filename); //输入需要统计词频的文件名
if((fp=fopen(filename, "r"))==NULL)
{
printf("无法打开文件\n");
exit();
}

单词匹配:

/****************将单词出现次数设置为1****************************/
for(i=;i<;i++)
{
(w+i)->num=;
}
/****************单词匹配****************************************/
i=;
while(!feof(fp))//文件尚未读取完毕
{
ch=fgetc(fp);
(w+i)->a[j]='\0';
if(ch>=&&ch<=||ch>=&&ch<=) //ch若为字母则存入
{
(w+i)->a[j]=ch;
j++;
flag=; //设标志位判断是否存在连续标点或者空格
}
else if(!(ch>=&&ch<=||ch>=&&ch<=)&&flag==) //ch若不是字母且上一个字符为字母
{
i++;
j=;
flag=;
for(m=;m<i-;m++) //匹配单词,若已存在则num+1
{
if(stricmp((w+m)->a,(w+i-)->a)==)
{
(w+m)->num++;
i--;
}
}
}
/****************动态分配内存****************************************/
if(i==(p*)) //用i判断当前内存已满
{
p++;
w=(struct fre_word*)realloc(w,*p*(sizeof(struct fre_word)));
for(n=i;n<=*p;n++) //给新分配内存的结构体赋初值
(w+n)->num=; }
}

快速排序:

void quick(struct fre_word *f,int i,int j)
{
int m,n,temp,k;
char b[];
m=i;
n=j;
k=f[(i+j)/].num; //选取的参照
do
{
while(f[m].num>k&&m<j) m++; // 从左到右找比k小的元素
while(f[n].num<k&&n>i) n--; // 从右到左找比k大的元素
if(m<=n)
{ //若找到且满足条件,则交换
temp=f[m].num;
strcpy(b,f[m].a);
f[m].num=f[n].num;
strcpy(f[m].a,f[n].a);
f[n].num=temp;
strcpy(f[n].a,b);
m++;
n--;
}
}
while(m<=n);
if(m<j) quick(f,m,j); //运用递归
if(n>i) quick(f,i,n);
}

结果输出:

    for(n=;n<=i;n++)
{
printf("文档中出现的单词:");
printf("%-18s",(w+n)->a);
printf("其出现次数为:");
printf("%d\n",(w+n)->num);
}

测试用例:

看了之前同学的博客以及老师的评论,就使用了较长的文本进行测试,用的是奥巴马就职演讲稿。

部分测试结果:

c语言实现词频统计的更多相关文章

  1. C语言实现词频统计——第二版

    原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...

  2. (改进)Python语言实现词频统计

    需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分 ...

  3. C语言词频统计设计

    项目需求: 1.设计一个词频统计小软件,对给定的英文文章进行单词频率的统计. 2.文章中相应的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为功能相对简单,采用C语言直接进 ...

  4. 个人项目-词频统计(语言:C++)

    词频统计 (个人项目) 要求 (1). 实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4字符以上含4字符)的出现频率. 附加要求:读入一段文本文件,统计该文本文件中单词的频率. (2) ...

  5. 作业3-个人项目<词频统计>

    上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字 ...

  6. python词频统计及其效能分析

    1) 博客开头给出自己的基本信息,格式建议如下: 学号2017****7128 姓名:肖文秀 词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequenc ...

  7. HW—词频统计

    第一次个人作业——词频统计 第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求 二.需求分析及时间估计 三.实现思路及过程 四.测试用例.时间性能分析及 ...

  8. 1st 英文文章词频统计

    英文文章词频统计: 功能:统计一篇英文文章的单词总数及出现频数并输出,之后排序,输出频数前十的单词及其频数. 实现方法:使用C语言,用fopen函数读入txt文件,fscanf函数逐个读入单词,结构体 ...

  9. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

随机推荐

  1. JAVA:借用OpenOffice将上传的Word文档转换成Html格式

    为什么会想起来将上传的word文档转换成html格式呢?设想,如果一个系统需要发布在页面的文章都是来自word文档,一般会执行下面的流程:使用word打开文档,Ctrl+A,进入发布文章页面,Ctrl ...

  2. javascript模块化编程(AMD规范的加载器)

    关于AMD规范可以参考阮一峰的这篇文章Javascript模块化编程(二):AMD规范 简单来说,AMD规范就是异步方式加载模块的一种方式,避免因为模块加载过慢而导致浏览器“假死”. 先贴一个学习地址 ...

  3. 将war文件解压到指定目录

    问:如何将.war文件解压到指定目录? 答:jar命令没有这样的选项. eg:将abc.war解压到当前文件夹? 答:进入目标文件即abc.war文件所在的文件夹,按住shift键并在该文件夹空白处点 ...

  4. linux下的chmod,chown和chgrp

    对于linux的权限掌握以下几个命令就可以非常熟练的操作系统中的各种权限了. 使用权限 : 所有使用者 使用方式 : chmod [-cfvR] [--help] [--version] mode f ...

  5. Struts2 - Rest(1)

    Struts2提供了一个restful的插件:struts2-rest-plugin-2.3.16.1.jar 这个插件可以把Struts2当做restful来使用,不过它的rest功能目前来说有点“ ...

  6. Angular学习(8)- 路由

    示例: <!DOCTYPE html> <html ng-app="MyApp"> <head> <title>Study 12&l ...

  7. usb由于其配置信息(注册表中的)不完整或已损坏,Windows 无法启动这个硬件设备

    在设备管理器的usb设备的属性中,显示提示“由于其配置信息(注册表中的)不完整或已损坏,Windows 无法启动这个硬件设备”.注册表坏了.经过查询,解决方法如下: 方法:打开注册表编辑器(开始--& ...

  8. js常见数字处理整理

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <hea ...

  9. Linux从逻辑地址到物理地址

    转自:http://blog.chinaunix.net/uid-24774106-id-3427836.html 我们都知道,动态共享库里面的函数的共享的,这也是动态库的优势所在,就是节省内存.C ...

  10. 106. Construct Binary Tree from Inorder and Postorder Traversal

    Given inorder and postorder traversal of a tree, construct the binary tree. Note:You may assume that ...