c++实现文本中英文单词和汉字字符的统计
源代码下载:http://download.csdn.net/detail/nuptboyzhb/4987141
1.统计文本中汉字的频数,为后续的文本分类做基础。对于汉字的统计,需要判断读取的是否为汉字。源代码如下:
[C++ code]
- /*
- *@author:郑海波 http://blog.csdn.net/NUPTboyZHB
- *参考:实验室小熊
- *注:有删改
- */
- #pragma warning(disable:4786)
- #include <iostream>
- #include <vector>
- #include <fstream>
- #include <string>
- #include <map>
- #include <queue>
- #include <ctime>
- using namespace std;
- void topK(const int &K)
- {
- double t=clock();
- ifstream infile("test.txt");
- if (!infile)
- cout<<"can not open file"<<endl;
- string s="";
- map<string,int>wordcount;
- unsigned char temp[2];
- while(true)//国标2312
- {
- infile>>temp[0];
- if(infile.eof()) break;
- if (temp[0]>=0xB0)//GB2312下的汉字,最小是0XB0
- {
- s+=temp[0];
- infile>>temp[1];
- s+=temp[1];
- }
- else//非汉字字符不统计
- {
- s="";
- continue;
- }
- wordcount[s]++;
- s="";
- }
- cout<<"单词种类:"<<wordcount.size()<<endl;
- //优先队列使用小顶堆,排在前面的数量少,使用">";
- priority_queue< pair< int,string >,vector< pair< int,string > >,greater< pair< int,string> > > queueK;
- for (map<string,int>::iterator iter=wordcount.begin(); iter!=wordcount.end(); iter++)
- {
- queueK.push(make_pair(iter->second,iter->first));
- if(queueK.size()>K)
- queueK.pop();
- }
- pair<int,string>tmp;
- //将排在后面的数量少,排在前面的数量多
- priority_queue< pair< int,string >,vector< pair< int,string > >,less< pair< int,string> > > queueKless;
- while (!queueK.empty())
- {
- tmp=queueK.top();
- queueK.pop();
- queueKless.push(tmp);
- }
- while(!queueKless.empty())
- {
- tmp=queueKless.top();
- queueKless.pop();
- cout<<tmp.second<<"\t"<<tmp.first<<endl;
- }
- cout<<"< Elapsed Time: "<<(clock()-t)/CLOCKS_PER_SEC<<" s>"<<endl;
- }
- int main()
- {
- int k=0;
- cout<<"http://blog.csdn.net/NUPTboyZHB\n";
- while (true)
- {
- cout<<"查看前K个频率最高的汉字,K=";
- cin>>k;
- if(k<=0)break;
- topK(k);
- }
- return 0;
- }
[图1]

2.统计英文单词的出现频率。这比统计汉字更加的容易,因为单词和单词之间是用空格分开的,所以,直接将单词保存到string中即可。
[c++ code]
- /*
- *@author:郑海波 http://blog.csdn.net/NUPTboyZHB
- *参考:实验室小熊
- *注:有删改
- */
- #pragma warning(disable:4786)
- #include <iostream>
- #include <vector>
- #include <fstream>
- #include <string>
- #include <map>
- #include <queue>
- #include <ctime>
- using namespace std;
- void topK(const int &K)
- {
- double t=clock();
- ifstream infile;
- infile.open("test.txt");
- if (!infile)
- cout<<"can not open file"<<endl;
- string s;
- map<string,int>wordcount;
- while(true)
- {
- infile>>s;
- if(infile.eof()) break;
- wordcount[s]++;
- }
- cout<<"单词种类:"<<wordcount.size()<<endl;
- //优先队列使用小顶堆,排在前面的数量少,使用">";
- priority_queue< pair< int,string >,vector< pair< int,string > >,greater< pair< int,string> > > queueK;
- for (map<string,int>::iterator iter=wordcount.begin(); iter!=wordcount.end(); iter++)
- {
- queueK.push(make_pair(iter->second,iter->first));
- if(queueK.size()>K)
- queueK.pop();
- }
- pair<int,string>tmp;
- priority_queue< pair< int,string >,vector< pair< int,string > >,less< pair< int,string> > > queueKless;
- while (!queueK.empty())
- {
- tmp=queueK.top();
- queueK.pop();
- queueKless.push(tmp);
- }
- while(!queueKless.empty())
- {
- tmp=queueKless.top();
- queueKless.pop();
- cout<<tmp.second<<"\t"<<tmp.first<<endl;
- }
- cout<<"< Elapsed Time: "<<(clock()-t)/CLOCKS_PER_SEC<<" >"<<endl;
- }
- int main()
- {
- int k=0;
- cout<<"http://blog.csdn.net/NUPTboyZHB\n";
- while (true)
- {
- cout<<"PUT IN K: ";
- cin>>k;
- if(k<=0)break;
- topK(k);
- }
- return 0;
- }
[图2]

参考:实验室小熊
c++实现文本中英文单词和汉字字符的统计的更多相关文章
- 题目--统计一行文本的单词个数(PTA预习题)
PTA预习题——统计一行文本的单词个数 7-1 统计一行文本的单词个数 (15 分) 本题目要求编写程序统计一行字符中单词的个数.所谓“单词”是指连续不含空格的字符串,各单词之间用空格分隔,空格数可以 ...
- 《c程序设计语言》读书笔记--统计 行数、单词数、字符数
#include <stdio.h> int main() { int lin = 0,wor = 0,cha = 0; int flag = 0; int c; while((c = g ...
- C语言输出单个汉字字符
#include "stdio.h" #include "windows.h" int main() { ] = { "多字节字符串!OK!" ...
- shell统计文本中单词的出现次数
Ubuntu14.04 给定一个文本,统计其中单词出现的次数 方法1 # solution 1 grep与awk配合使用,写成一个sh脚本 fre.sh sh fre.sh wordfretest.t ...
- JS实现文本中查找并替换字符
JS实现文本中查找并替换字符 效果图: 代码如下,复制即可使用: <!DOCTYPE html><html> <head> <style type=" ...
- java统计文本中单词出现的个数
package com.java_Test; import java.io.File; import java.util.HashMap; import java.util.Iterator; imp ...
- C 循环统计输入的单词个数和字符长度
C 循环统计输入的单词个数和字符长度 #include <stdio.h> #include <Windows.h> int main(void) { ]; ; ; print ...
- linux wc 的用法-linux 下统计行数、单词数、字符个数
linux wc 的用法-linux 下统计行数.单词数.字符个数 wc : wc -l 统计有多少行 wc -w 统计有多少个单词 wc -c 统计有多少个字符
- 华为oj之字符个数统计
题目:字符个数统计 热度指数:4720 时间限制:1秒 空间限制:32768K 本题知识点: 字符串 题目描述 编写一个函数,计算字符串中含有的不同字符的个数.字符在ACSII码范围内(0~127). ...
随机推荐
- 在Ubuntu下配置Apache多域名服务器
1. 目标: 在本机 实现访问不同域名 可以访问不同的目录. 即:访问a.com 进入 /var/www/a 目录下的程序,访问b.com 进入/var/www/b目录下的程序. 2.遇到的问题: / ...
- Sql Server 维护计划 备份覆盖
之前在设置服务器Sql Server 维护计划 备份的sql server 数据库,都是累加的,后来也没有仔细看过,后台回过头来考虑到服务器的存储空间,只好做sql server 数据 ...
- Query 快速入门教程
Query 快速入门教程 http://www.365mini.com/page/jquery-quickstart.htm#what_is_jquery jquery常用方法及使用示例汇总 http ...
- 暑假集训(4)第三弹 -----递推(Hdu1799)
问题描述:还记得正在努力脱团的小A吗? 他曾经最亲密的战友,趁他绘制贤者法阵期间,暗中设下鬼打墙将小A 围困,并准备破坏小A正在绘制的法阵.小A非常着急.想阻止他的行动.而要阻止他,必须先破解鬼打墙. ...
- (hdu)1257 最少拦截系统
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=1257 Problem Description 某国为了防御敌国的导弹袭击,发展出一种导弹拦 ...
- Poj OpenJudge 百练 2389 Bull Math
1.Link: http://poj.org/problem?id=2389 http://bailian.openjudge.cn/practice/2389/ 2.Content: Bull Ma ...
- 基于TLS的反调试技术
TLS(Thread Local Storage 线程局部存储) 一个进程中的每个线程在访问同一个线程局部存储时,访问到的都是独立的绑定于该线程的数据块.在PEB(进程环境块)中TLS存储槽共64个( ...
- Ueditor设置默认字体
其实很简单,只需要将ueditor.all.js 以及 ueditor.all.min.js 两个文件中的字体改掉即可 修改方法: 在ueditor.all.js中搜索:设置默认字体和字号: 在ued ...
- [DevExpress]ChartControl之滚动条示例
关键代码: /// <summary> /// 设置ChartControl滚动条[默认X,Y轴都出现] /// </summary> /// <param name=& ...
- [原创] linux课堂-学习笔记-课程3.Linux目录结构介绍及内核与shell分析
一.目录说明 1.1 bin 一般用户,可执行的系统内置命令 1.2 sbin 系统管理员,可执行的系统内置命令 1.3 boot 启动文件目录,启动有关的文件都保存在此 1.4 dev 设备管理文件 ...