大数据量情况下求top N的问题

上周五的时候去参加了一个面试，被问到了这个问题。问题描述如下：

假如存在一个很大的文件，文件中的每一行是一个字符串。请问在内存有限的情况下（内存无法加载这个文件中的所有内容），如何计算出出现频率最高的前100名字符串？

由于面试之前在学习hbase时了解了一下布隆过滤器（对bitmap的扩展使用），所以当时立刻想到用bitmap去解决这个问题，但是考虑到bitmap无法对出现的单词计数的。所以我当时的回答是：

首先实例化一个数组，然后读取文件对每一行的字符串进行hash得到一个数值，然后将数组下标为这个数值的值+1，最后再将这个数组排序并取出前100名。

后面想想自己的回答简直是驴头不对马嘴，我的答案并没有解决面试官的问题，可想而知我的面试注定失败。事后自己总结了一下，为什么面试的时候会作出这样的回答？

面试的时候没有仔细想清楚面试官的问题，就匆忙回答。
平时研究问题的时候，只徒留表面没有深入，或者是自以为自己弄清楚了就把它抛之脑后了。没有实际编码操作并对其进行总结和记录。
懒！在听完面试官的问题后懒的思考，没有理清思路，胡乱回答自己学习过的算法，而且是没有深入理解并且没有实际应用过的算法。

知错能改才是最重要的，希望自己在未来的工作学习中能够踏踏实实，静下心来好好研究技术，多总结多记录。

接下来总结一下正确的答案，其实是在我看了编程珠玑的第一张后想到的答案。如果早些看了这本书那么这次面试可能就不会这么糟糕了。在看了第一张以后，我对大数据的处理方法的总结是四个字：分而治之。所谓分而治之就是把大文件拆分成多个内存能够一次性容纳的小文件，然后依次处理所有小文件，最后对小文件归并处理。具体到这个面试题：

假设分成n个小文件。读取大文件，对每一行hash得到hash值h，把这行写入第h/n个文件中。这样做是为了保证相同的字符串一定被分到相同的文件中。如果小文件依然比内存大，那么我们再对其进行相同的操作（把小文件分成更小的文件，直到可以被内存一次性装载为止）。
对所有小文件进行统计计算（如利用HashMap）并排序，然后将结果写入新的文件。文件内容是：字符串，出现次数。
读取所有新生成的文件中的前几条记录并排序，最后输出top N。

感觉这个很像Hadoop里的map reduce。把大文件分成很多小文件分配给map task，再由reduce task统计map的输出，最后得出所需结果。

大数据量情况下求top N的问题的更多相关文章

phpExcel导入大数据量情况下内存溢出解决方案
PHPExcel版本:1.7.6+ 在不进行特殊设置的情况下,phpExcel将读取的单元格信息保存在内存中,我们可以通过 PHPExcel_Settings::setCacheStorageMeth ...
phpExcel大数据量情况下内存溢出解决
版本:1.7.6+ 在不进行特殊设置的情况下,phpExcel将读取的单元格信息保存在内存中,我们可以通过 PHPExcel_Settings::setCacheStorageMethod() 来设置 ...
大数据量情况下高效比较两个list
比如,对两个list<object>进行去重,合并操作时,一般的写法为两个for循环删掉一个list中重复的,然后再合并. 如果数据量在千条级别,这个速度还是比较快的.但如果数据量超过20 ...
MYSQL的大数据量情况下的分页查询优化
最近做的项目需要实现一个分页查询功能,自己先看了别人写的方法:  <select id="queryMonitorFolder" param ...
C#拼接SQL语句，SQL Server 2005+，多行多列大数据量情况下，使用ROW_NUMBER实现的高效分页排序
/// <summary>/// 单表(视图)获取分页SQL语句/// </summary>/// <param name="tableName"&g ...
大数据量冲击下Windows网卡异常分析定位
背景 mqtt的服务端ActiveMQ在windows上,多台PC机客户端不停地向MQ发送消息. 现象观察MQ自己的日志data/activemq.log里显示,TCP链接皆异常断开.此时尝试从服务 ...
大数据量场景下storm自定义分组与Hbase预分区完美结合大幅度节省内存空间
前言:在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗.大量的预分 ...
java 导出Excel 大数据量，自己经验总结！
出处: http://lyjilu.iteye.com/ 分析导出实现代码,XLSX支持: /** * 生成<span style="white-space: normal; back ...
MySQL数据库如何解决大数据量存储问题
利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开 ...

随机推荐

二十七、oracle 例外
一.例外分类oracle将例外分为预定义例外.非预定义例外和自定义例外三种.1).预定义例外用于处理常见的oracle错误.2).非预定义例外用于处理预定义例外不能处理的例外.3).自定义例外用于处理 ...
android 调用.NET WebServices
下载Ksoap2.jar, import org.ksoap2.SoapEnvelope;import org.ksoap2.serialization.*;import org.ksoap2.tra ...
javascript 日期对象
1.日期对象定义 var Udate=new Date();//获得当前日期 2.Date对象中处理时间和日期的常用方法: 3.返回/设置年份 var mydate=new Date();//当前时间 ...
HBase表删除问题
HBase shell下用list命令查看表,出现错误:找不到表格式化zookeeper,删除.opt/zookeeper下除了myid的文件重启集群再进入HBase shell,list可以查 ...
安装CocoaPods流程及常见问题(Xcode->homebrew->RVM->Ruby->CocoaPods)
一.HomeBrew 1.(转)HomeBrew的安装和简单使用 http://blog.csdn.net/maojudong/article/details/7918291 2.homebrew的简 ...
mac下搭建cordova开发环境
Apache Cordova 原名叫PhoneGap.是一个用基于HTML,CSS和JavaScript的,创建移动跨平台移动应用程序的快速开发平台.PhoneGap最初由Nitobi开发,2011年 ...
Oracle第一天
Oracle第一天 v3.1 整体安排(3天) 第一天:Oracle的安装配置(服务端和客户端),SQL增强(单表查询). 第二天:SQL增强(多表查询.子查询.伪列-分页),数据库对象(表.约束.序 ...
手机端跳转和pc端跳转
http://jingyan.baidu.com/article/cdddd41c61823e53cb00e198.html 参考网址浏览:11532 | 更新:2014-04-22 16:51 第 ...
dubbo 分布式架构学习视频链接
http://www.roncoo.com/course/view/f614343765bc4aac8597c6d8b38f06fd 书籍大型分布式网站架构设计与实践 http://item.jd. ...
Linux随笔(安装ftp,安装jdk,安装 tomcat,安装redis,安装MySQL)
su: authentication failure 解决办法:sudo passwd root 更改密码即可确认虚拟机用到的联网方式是桥接模式,不然Windows是ping不通Linux的,确保 ...

大数据量情况下求top N的问题

大数据量情况下求top N的问题的更多相关文章

随机推荐

热门专题