c++实现之 -- 汉语词语的简单处理

好了，我们现在已经会怎样读入了，然后就是研究一下如何存储等一些细节上的的问题了。

首先，比较函数是不能传入char*的地址的，但是可以接受一个string类。

然而，如果是两个比较长的string类，要进行比较的话，时间复杂度会上升至O(min（length）)，非常不合算。于是采用双哈希的办法，用h1、h2两个哈希值来表示特定字符串，冲突概率可以下降至基本忽略不计。不难发现双哈希的单词比较复杂度是O(2)的，大大减少了时间复杂度。

然后，就是采用什么容器进行存储。一般有两种：（不妨设哈希的使用的素数分别为p1和p2）

第一种是二维数组，第一维表示h1，第二维表示h2。为了节省空间第二维用vector进行存储，于是插入和查询的时间复杂度都是O(log(p2))。

第二种嘛，直接丢到map里，插入、查询的时间复杂度都是O(log(cnt)) （其中cnt表示不同单词个数）

于是我直接用了第二种，因为实现起来简单，而且复杂度基本相同。（因为vector常数大）

另外，c++的cin读入是非常喜闻乐见的慢，所以使用" ios::sync_with_stdio(false);"这句话关闭cin与stdio之间的同步缓冲，于是cin的速度和scanf就相差无几了。

 #include <cstdio>

 #include <iostream>

 #include <string>

 #include <cstring>

 #include <algorithm>

 #include <map>

 #define TF second

 using namespace std;

 const int tot_file = ;

 const int mod1 = ;

 const int mod2 = ;

 const int bin =  << ;

 struct Word {

     string st;

     int h1, h2;

     inline bool operator < (const Word &x) const {

         return h1 == x.h1 ? h2 < x.h2 : h1 < x.h1;

     }

     #define x (int) st[i]

     #define Weight 3001

     inline void calc_hash() {

         int len = st.length(), tmp, i;

         for (i = tmp = ; i < len; ++i)

             ((tmp *= Weight) += (x <  ? x + bin : x)) %= mod1;

         h1 = tmp;

         for (i = tmp = ; i < len; ++i)

             ((tmp *= Weight) += (x <  ? x + bin : x)) %= mod2;

         h2 = tmp;

     }

     #undef x

     #undef Weight

 };

 typedef map <Word, int> map_for_words;

 typedef map_for_words :: iterator iter_for_words;

 map_for_words passage;

 Word w;

 string st;

 void read_in() {

     ios::sync_with_stdio(false);

     while (cin >> w.st) {

         w.calc_hash();

         passage[w] += ;

     }

 }

 int main() {

     freopen("test.in", "r", stdin);

     read_in();

     iter_for_words it;

     for (it = passage.begin(); it != passage.end(); ++it)

         cout << it -> first.st << ' ' << it -> TF << endl;

     return ;

 }

效果（貌似还可以的说）：

输入：

输出：

（不要问我这界面怎么那么搞笑。。。这是终端的说）

c++实现之 -- 汉语词语的简单处理的更多相关文章

基于TF-IDF值的汉语语义消歧算法
RT,学校课题需要233,没了话说,窝直接做个链接的集合好了,方便以后查找特征值提取之 -- TF-IDF值的简单介绍汉语语义消歧之 -- 句子相似度汉语语义消歧之 -- 词义消歧简介 c++ ...
19-python 自己建立词库并实现文章汉语词频统计
首先在网上下载一个汉语词典的txt文件, 汉语词典 1.用正则去掉词语的解释,即提取出所有汉语词语: import re def getHanYuCi(st): p = re.compile(r'[. ...
从海量文本中统计出前k个频率最高的词语
现有如下题目:有一个海量文本,存储的是汉语词语,要求从中找出前K个出现频率最高的词语,写出最优算法,兼顾时间和空间复杂度. 思路分析:熟悉搜索引擎的程序员,应该不是难题.用传统的HashMap是无法解 ...
sentence patterns
第四部分推理题 1.世界上每个角落的每个人都有立场,都有背景,都有推理性,能推理出一个人语言的真意,才成就了真正的推理能力: 2.换言之,如果你能通过一个人的说话推理出其身份职业,你的推理能 ...
大家一起来找茬（BUG）
大家一起来找茬(BUG) ----------目录---------- 一.上手体验 1.主界面 2.功能二.程序的 BUG 三.必应词典的 BUG 1."每日一句"里的句子不能 ...
基于Android应用《玩转英语》（总报告）
基于Android应用<玩转英语> 摘要 ...
html和css的重难点知识
目录 html总难点总结: 1. 块级标签与内联标签的区别 1.1 块级标签: 1.2 内联标签: 2. 选择器 2.1 定义 2.2 选择器的分类 2.1 选择器的分类 3. css中margin, ...
CSS padding margin border属性详解
图解CSS padding.margin.border属性W3C组织建议把所有网页上的对像都放在一个盒(box)中,设计师可以通过创建定义来控制这个盒的属性,这些对像包括段落.列表.标题.图片以及层. ...
CSS中的margin、border、padding区别
CSS padding margin border属性详解图解CSS padding.margin.border属性W3C组织建议把所有网页上的对像都放在一个盒(box)中,设计师可以通过创建定义来 ...

随机推荐

hdu 5693 朋友博弈
朋友 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Problem Descr ...
老笔记本_Win7_U盘_ReadyBoost
老笔记本 Win7 U盘 ReadyBoost 值得尝试
mysql 主主复制的配置流程
1.先关闭B,把A的数据导出来,mysqldump -hlocalhost -uroot -p123456 --database ibprpu >ibprpu.sql2.关闭A,启动B,进入my ...
Lua了解 & 为什么游戏开发用Lua
参考这篇文章 https://www.zhihu.com/question/21717567 看来就是网易风云为了让人写外挂不方便而采用的冷门语言.当然冷门的语言不代表不好用啦. Lua 虚拟机小,嵌 ...
git代码提交方式
https://my.oschina.net/tearlight/blog/193921 <a>github的提交方式 (1)git add .----------------- ...
LayoutParams使用
LayoutParams继承于Android.View.ViewGroup.LayoutParams. LayoutParams相当于一个Layout的信息包,它封装了Layout的位置. ...
XP系统电脑带安卓手机上网教程（无需adhoc补丁）
XP系统电脑带安卓手机上网教程(无需adhoc补丁) WIN7系统可以虚拟wifi热点,安卓手机连上这个热点就能上网.XP系统虚拟出来的wifi热点是adhoc形式的,原生的安卓系统并不支持adhoc ...
php 使用 restler 框架构建 restfull api
php 使用 restler 框架构建 restfull api restler 轻量级,小巧,构建restfull api非常方便! 官网:http://restler3.luracast.com/ ...
img src 使用 base64 图片数据
img src 使用 base64 图片数据在网页上显示一张图片通常是 <img src="xxx.png" > 或 <img src="www.ur ...
ADO
目录第1章基础 1 1.1 引入ADO库文件 1 1.1.1 版本 1 1.2 初始化OLE/COM库环境 2 1.3 comdef.h 2 1.3.1 字符串编码 ...

c++实现之 -- 汉语词语的简单处理

c++实现之 -- 汉语词语的简单处理的更多相关文章

随机推荐

热门专题