第一讲先从一个实例开始——我们需要完成一个遍历文件并统计单词出现次数的任务。分解功能:首先,按行读取文件并舍弃可能的空行。其次,将每一行都按照空格划分单词。因为可能存在标点符号,我们还需要将标点符号都删除。最后把行首或专有名词中出现的大写字母统一转换。最后将所有获取的字母放到一个关联容器中(map<string, int>)统计出现的次数。

一、从文件中读取并按行分割

(1)标准方法与参数

std::getline(basic_istream<charT,traits>& is, basic_string<charT,traits,Alloc>& str, charT delim)

参数1.输入流

参数2.接受字符串

*参数3.分割符

(2)代码实例

// 文件输入流
ifstream ifs("hello.txt");
// 行字符串向量类型
vector<string> paragraphs; string temp;
// 遍历全文
while(std::getline(ifs, temp) {
paragraphs.push_back(temp);
}

二、以空格分隔字符串

(1)标准方法与参数

find_first_of (const basic_string& str, size_type pos = 0) const

参数1.字符串

*参数2.起始位置

substr (size_type pos = 0, size_type len = npos) const

*参数1.起始位置

*参数2.长度

(2)代码实例

const string key = " "; // 空格
vector<string> words; // 单词集合
string line; // 行 string::size_type pos = , prev = ; // 系统相关变量。记录当前查找到空格的位置和前一个单词的起始位置。 while((pos = line.find_first_of(key, line)) != string::npos) {
words.push_back(line.substr(pos, pos-prev));
prev = ++pos;
}

三、大小写转换

(1)标准方法与参数

int tolower (int c)

参数.大写字母

返回.小写字母

(2)代码实例

string caps("ABCDEFGHIJKLMNOPQRSTUVWXYZ"); // 大写字母集合
string::size_type pos = ;
string word;
while((pos = word.find_first_of(pos, caps)) != string::npos) {
w[pos] = tolower(w[pos]); // 用小写字母替换对应的大写
}

四、计数

(1)标准方法与参数

pair<iterator,bool> insert (const value_type& val)

参数1.value_type<K, V>(k, v) 插入值

*向map对象插入新值可以使用索引的方式,如map<string, int> m; m["hello"] = 37; 但是这会发生以下的事情,从而导致严重的性能损失:

  1. 一个未命名的临时string 对象被构造并传递给与map 类相关联的下标操作符这个对象用“hello”初始化;

  2. 一个新的键/值对被插入到m中当然键是一个“hello”对象持有Anna但是值是0,而不是37;

  3. 插入完成接着值被赋为37;

所以推荐做法是使用insert方法。

(2)代码实例

map<string, int> m;
m.insert(map<string, int>::value_type("hello", ));

五、完整代码

.h

#ifndef TEXTUTILS_H
#define TEXTUTILS_H
#include <string> // string getline
#include <vector> // vector
#include <fstream> // ifstream
#include <iostream> // cout endl
#include <stdlib.h> // exit
#include <locale> // tolower
#include <map> // map using namespace std; class TextUtils
{
public:
TextUtils();
virtual ~TextUtils();
public:
// 静态方法:单词统计
static map<string, int>* wordStatistics(string filename, string filter = ",.:;?\"!");
private:
// 按照段落划分
void paragraphs(ifstream& ifs, vector<string>* p);
// 获取单词集合
void words(vector<string>* p, vector<string>* w, const string filter = ",.:;?\"!");
// 小写替换
void lower(vector<string>* w);
// 计数
void counter(map<string, int> *out, vector<string> *in);
}; #endif // TEXTUTILS_H

.cpp

#include "TextUtils.h"

map<string, int>* TextUtils::wordStatistics(string filename, string filter) {
TextUtils utils;
ifstream fin(filename.c_str(), ios::in);
// 判断文件是否存在
if(!fin) {
exit(-);
}
// 声明段落容器
vector<string> p;
utils.paragraphs(fin, &p);
// 声明字母容器
vector<string> w;
utils.words(&p, &w);
// 大小写转换
utils.lower(&w);
// 声明返回指针
map<string, int> *m = new map<string, int>;
utils.counter(m, &w); return m;
} void TextUtils::paragraphs(ifstream& ifs, vector<string>* p) {
string temp;
while(getline(ifs, temp, '/n')) {
if(temp.size()) p->push_back(temp);
}
} void TextUtils::words(vector<string>* p, vector<string>* w, const string filter) {
for(vector<string>::iterator it=p->begin(); it != p->end(); ++it) {
string paragraph = *it;
string::size_type pos = , prev_pos = ;
while((pos = paragraph.find_first_of(' ', pos)) != string::npos) {
w->push_back(paragraph.substr(prev_pos, pos-prev_pos));
prev_pos = ++pos;
}
w->push_back(paragraph.substr(prev_pos, pos-prev_pos));
} // 遍历字母中的标点,删除
for(vector<string>::iterator it = w->begin(); it != w->end(); ++it) {
string::size_type pos = ;
while((pos = (*it).find_first_of(filter, pos)) != string::npos) {
(*it).erase(pos, );
}
}
} void TextUtils::lower(vector<string>* w) {
string caps("ABCDEFGHIJKLMNOPQRSTUVWXYZ");
for(vector<string>::iterator it = w->begin(); it != w->end(); ++it) {
string::size_type pos = ;
while((pos = (*it).find_first_of(caps, pos)) != string::npos) {
(*it)[pos] = tolower((*it)[pos]);
}
}
} void TextUtils::counter(map<string, int> *out, vector<string> *in) {
for(vector<string>::iterator it = in->begin(); it != in->end(); ++it) {
// 如果单词不存在,则在容器中插入新值。否则做自增操作
if(!out->count(*it)) {
out->insert(map<string, int>::value_type(*it, ));
} else {
++((*out)[*it]); // ++i的效率高于i++
}
}
}

总结:通过一个不难么简单例子作为C++学习的启蒙或许对有些初学者来说不那么友好。不过,我之所谓选择已这个例子因为它恰恰展现了这门语言的特点:高效。

C++学习笔记(一)——一个字符串分割和统计的工具(TextUtils)的更多相关文章

  1. python3.4学习笔记(十五) 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)

    python3.4学习笔记(十五) 字符串操作(string替换.删除.截取.复制.连接.比较.查找.包含.大小写转换.分割等) python print 不换行(在后面加上,end=''),prin ...

  2. 【python学习笔记】3.字符串使用

    [python学习笔记]3.字符串使用 字符串是一种序列,素有标准的序列操作对字符串用样适用,字符串是不可以改变 格式化操作符,%,左侧是格式化字符串,右侧是被格式的值,可以是一个值.元组.字典 数值 ...

  3. ASP.NET MVC Web API 学习笔记---第一个Web API程序

    http://www.cnblogs.com/qingyuan/archive/2012/10/12/2720824.html GetListAll /api/Contact GetListBySex ...

  4. matlab学习笔记10_5 通用字符串操作和比较函数

    一起来学matlab-matlab学习笔记10 10_5 通用字符串操作和比较函数 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考书籍 <matlab 程序设计与综合应用>张 ...

  5. python学习笔记(二)、字符串操作

    该一系列python学习笔记都是根据<Python基础教程(第3版)>内容所记录整理的 1.字符串基本操作 所有标准序列操作(索引.切片.乘法.成员资格检查.长度.最小值和最大值)都适用于 ...

  6. 多线程编程学习笔记——编写一个异步的HTTP服务器和客户端

    接上文 多线程编程学习笔记——使用异步IO 二.   编写一个异步的HTTP服务器和客户端 本节展示了如何编写一个简单的异步HTTP服务器. 1.程序代码如下. using System; using ...

  7. python3学习笔记——数字、字符串、列表、字典、元组

    什么是python解释器? python代码在解释器中运行.解释器是代码与计算机硬件之间的软件逻辑层. python的执行过程                                      ...

  8. c语言学习笔记 - 指针和字符串

    前面学习了字符串是一种字符数组,又知道了指针变量和数组的关系,这里来看一下指针和字符串的关系. #include <stdio.h> int main(void){ char str = ...

  9. python学习笔记20(字符串格式化)

    Python中内置有对字符串进行格式化的操作% 模板 格式化字符串时,Python使用一个字符串作为模板.模板中有格式符,这些格式符为真实值预留位置,并说明真实数值应该呈现的格式.Python用一个t ...

随机推荐

  1. web前端----JavaScript的BOM

    一.引入 到目前为止,我们已经学过了JavaScript的一些简单的语法.但是这些简单的语法,并没有和浏览器有任何交互. 也就是我们还不能制作一些我们经常看到的网页的一些交互,我们需要继续学习BOM和 ...

  2. 解决input标签placeholder属性浏览器兼容性问题的一种方法

    为文本框input添加文字输入提示,H5为input提供了一个placeholder属性.在支持H5的浏览器中,用此属性设置输入提示,简单方便,但是对于IE8以下版本,都不支持placeholder属 ...

  3. Linux学习笔记之Centos7安装GNOME桌面环境

    最小化安装Centos7,系统默认是命令行界面,如果像我一样有特殊需求,这时就需要我们手动来安装用户图形界面了. 1.查看一下当前的运行级别和可以安装的group. systemctl get-def ...

  4. 树(Heap)

    对于大量的输入数据,链表的线性访问时间太慢,不宜使用——<数据结构与算法分析——C 语言描述> p 65 对于大量的输入数据,适合用树结构,大部分操作都是 O( log N ). 二叉树 ...

  5. 01: Centos7 常用命令

    1.1 centos7中防火墙相关命令 1.查看状态 1.  getenforce           # 查看内核防火墙状态(disabled标识关闭) 2.  systemctl status f ...

  6. 20145334赵文豪网络对抗Web安全基础实践

    1.SQL注入攻击原理,如何防御? SQL注入攻击就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意SQL命令的目的. 对于SQL注入攻击的防范,我觉 ...

  7. 超频真的不难!G3258超频4.5GHz全攻略

    奔腾G3258搭配主板详解 [pconline 应用]目前DIY市场上最火热的装机组合莫过于奔腾20周年纪念版处理器G3258搭配B85芯片组主板,只要通过适当的超频,相对较低投入也能来不错的性能体验 ...

  8. Timer,TimerTask,Handler

    新建一个定时器线程,通过此线程每一秒发送数据到Handler,然后通过Handler来修改UI. 1.获得Handler,Timer,TimerTask对象. Handler handler=new ...

  9. 在Visual C#中使用XML指南之读取XML

    网站:http://www.yesky.com/155/1915155all.shtml#p1915155  

  10. 高斯消元&&luogu3389

    高斯消元(Gauss) 高斯消元和我们做二元一次方程组差不多 流程: 1.把系数和右边的值就是用二维数组存下来->转化成矩阵 我们的目标是把这个矩阵装换成 上三角的形式 对角线系数全部为1,1下 ...