需求:

1.设计一个词频统计软件,统计给定英文文章的单词频率。

2.文章中包含的标点不计入统计。

3.将统计结果以从大到小的排序方式输出。

设计:

1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的。

2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本)。

3.使用fopen函数读取指定的文档。

4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理。

5.采用快速排序法对统计结果进行排序。

5.将整个统计结果循环输出。

部分代码:

结构体定义:

struct fre_word
{
int num;
char a[];
};

分配初始内存:

struct fre_word *w;
w=(struct fre_word *)malloc(*p*sizeof(struct fre_word));//给结构体分配初始内存

读取文本:

printf("输入读入文件的名字:");
scanf("%s", filename); //输入需要统计词频的文件名
if((fp=fopen(filename, "r"))==NULL)
{
printf("无法打开文件\n");
exit();
}

单词匹配:

/****************将单词出现次数设置为1****************************/
for(i=;i<;i++)
{
(w+i)->num=;
}
/****************单词匹配****************************************/
i=;
while(!feof(fp))//文件尚未读取完毕
{
ch=fgetc(fp);
(w+i)->a[j]='\0';
if(ch>=&&ch<=||ch>=&&ch<=) //ch若为字母则存入
{
(w+i)->a[j]=ch;
j++;
flag=; //设标志位判断是否存在连续标点或者空格
}
else if(!(ch>=&&ch<=||ch>=&&ch<=)&&flag==) //ch若不是字母且上一个字符为字母
{
i++;
j=;
flag=;
for(m=;m<i-;m++) //匹配单词,若已存在则num+1
{
if(stricmp((w+m)->a,(w+i-)->a)==)
{
(w+m)->num++;
i--;
}
}
}
/****************动态分配内存****************************************/
if(i==(p*)) //用i判断当前内存已满
{
p++;
w=(struct fre_word*)realloc(w,*p*(sizeof(struct fre_word)));
for(n=i;n<=*p;n++) //给新分配内存的结构体赋初值
(w+n)->num=; }
}

快速排序:

void quick(struct fre_word *f,int i,int j)
{
int m,n,temp,k;
char b[];
m=i;
n=j;
k=f[(i+j)/].num; //选取的参照
do
{
while(f[m].num>k&&m<j) m++; // 从左到右找比k小的元素
while(f[n].num<k&&n>i) n--; // 从右到左找比k大的元素
if(m<=n)
{ //若找到且满足条件,则交换
temp=f[m].num;
strcpy(b,f[m].a);
f[m].num=f[n].num;
strcpy(f[m].a,f[n].a);
f[n].num=temp;
strcpy(f[n].a,b);
m++;
n--;
}
}
while(m<=n);
if(m<j) quick(f,m,j); //运用递归
if(n>i) quick(f,i,n);
}

结果输出:

    for(n=;n<=i;n++)
{
printf("文档中出现的单词:");
printf("%-18s",(w+n)->a);
printf("其出现次数为:");
printf("%d\n",(w+n)->num);
}

测试用例:

看了之前同学的博客以及老师的评论,就使用了较长的文本进行测试,用的是奥巴马就职演讲稿。

部分测试结果:

c语言实现词频统计的更多相关文章

  1. C语言实现词频统计——第二版

    原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果 新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...

  2. (改进)Python语言实现词频统计

    需求: 1.设计一个词频统计的程序. 2.英语文章中包含的英语标点符号不计入统计. 3.将统计结果按照单词的出现频率由大到小进行排序. 设计: 1.基本功能和用法会在程序中进行提示. 2.原理是利用分 ...

  3. C语言词频统计设计

    项目需求: 1.设计一个词频统计小软件,对给定的英文文章进行单词频率的统计. 2.文章中相应的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为功能相对简单,采用C语言直接进 ...

  4. 个人项目-词频统计(语言:C++)

    词频统计 (个人项目) 要求 (1). 实现一个控制台程序,给定一段英文字符串,统计其中各个英文单词(4字符以上含4字符)的出现频率. 附加要求:读入一段文本文件,统计该文本文件中单词的频率. (2) ...

  5. 作业3-个人项目<词频统计>

    上了一天的课,现在终于可以静下来更新我的博客了.       越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”.                词频统计 单词: 包含有4个或4个以上的字 ...

  6. python词频统计及其效能分析

    1) 博客开头给出自己的基本信息,格式建议如下: 学号2017****7128 姓名:肖文秀 词频统计及其效能分析仓库:https://gitee.com/aichenxi/word_frequenc ...

  7. HW—词频统计

    第一次个人作业——词频统计 第一次做这种大作业,明显感觉陌生,各种规范和技能也是第一次使用,希望自己好运. 目录:一.基本要求 二.需求分析及时间估计 三.实现思路及过程 四.测试用例.时间性能分析及 ...

  8. 1st 英文文章词频统计

    英文文章词频统计: 功能:统计一篇英文文章的单词总数及出现频数并输出,之后排序,输出频数前十的单词及其频数. 实现方法:使用C语言,用fopen函数读入txt文件,fscanf函数逐个读入单词,结构体 ...

  9. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

随机推荐

  1. bing统计【转自CSDN博客】

    文章来源:http://blog.csdn.net/aa512690069/article/details/17918799 其原文是微软一个小题目:http://hero.csdn.net/Ques ...

  2. OpenJudge计算概论-整数奇偶排序

    /*===================================== 整数奇偶排序 总时间限制: 1000ms 内存限制: 65536kB 描述 输入10个整数,彼此以空格分隔 重新排序以后 ...

  3. Tkinter单选框及滚动条

    界面:左侧是单选框,右侧是信息显示框,下方是按扭 功能:点击开始爬取按扭,则会自动执行函数,显示在文本框中 indicatoron = 0 改变单选框按扭样式 效果图一: 效果图二: 效果图三: 示例 ...

  4. Oracle对索引列同时使用多个聚合函数的性能问题

    Oracle某一数据表tkk715(数据量在一千万左右),对一个索引字段做获取最大值与最小值的聚合函数操作,响应时间较长(超过3秒): 将SQL改写为分别取最大.最小的聚合值,IO和响应时间显著下降到 ...

  5. diamond operator is not supported in -source 1.5

    在mvn install编译的时候出现了,错误 diamond operator is not supported in -source 1.5 的错误信息: 解决方法:在pom.xml文件里面添加: ...

  6. MySQL explain key_len 大小的计算

    总结: 变长字段需要额外的2个字节,固定长度字段不需要额外的字节.而null都需要1个字节的额外空间,所以以前有个说法:索引字段最好不要为NULL,因为NULL让统计更加复杂,并且需要额外一个字节的存 ...

  7. IOS开发—数据库的使用

    1.首先封装方法(建一个DataBase类封装) 2.实现DataBase类的方法 3.第一步先建立一个表 4.进行插入.删除.更新 插入的sql语句:@"insert into user ...

  8. 剑指offer系列22--二叉树中和为某一值的路径

    22[题目]输入一颗二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径. * 路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径 * [思路]只要从根结点到叶结点一条一条遍 ...

  9. Ubuntu防火墙 UFW 设置

    Ubuntu防火墙 UFW 设置 1.安装 sudo apt-get install ufw 2.启用 sudo ufw enable sudo ufw default deny 运行以上两条命令后, ...

  10. 黄聪:wordpress如何使用wp_rewrite实现自定义伪静态,非301重定向。

    今天,想通过wordpress实现 http://hcsem.com/a?h-1 伪静态为 http://hcsem.com/a-1.html 找了很多资料,终于搞定. 只需要在functions.p ...