借网上盛传2000w记录介绍多进程处理
2000w的数据在网上搞得沸沸扬扬,作为技术宅的我们也来凑凑热闹.
据了解网上有两个版一个是数据库文件另一个是CSV文件的,前者大小有好几个G后者才几百M.对于不是土豪的我们当然下载几百M的.至于在哪下载,请各位发挥吊丝精神GOOGLE一下吧,我们这里只探讨技术,呵呵.
下载后解压的文件如下:
数据被拆分为11个CSV文件,这样我们可以写一个简单的程序对这些文件进行简单的搜索,如搜索姓名,手机号或身份证等.一般我们会采用多线程进行处理,最简单就是每个线程处理一个文件,这个相信大家都会...所以我们这里不讨论多线程,而是多进程.说到多进程处理相对于多线程有什么好处?以下是本人的一些劣见,有什么不妥请指正:
- 多进程占有独立的内存空间,不用担心数据同步问题
- 多进程处理时,当一个进程崩掉时不影响别的进程运行
- 多进程处理能更好的利用系统资源,特别在多核的机子上时
- 大家补充...
现在我们将采用多进程对有2000w记录的文本文件进行简单的搜索,为什么说是简单搜索,因为我们不追求搜索效率,只要达到搜索目的,并不那么慢就OK了.不知大家对一次关键字搜索5分钟左右能不能接受?不过不接受也没办法,我们这里不研究算法,只介绍多进程处理.
JVMPart是一个开源的Java多进程处理工具,中文应该叫JVM分拆/割吧,不过我觉得叫"双P"更合适,因为里面要实现关键的两个接口——Partitioner和Processor.更多请了解:https://code.google.com/p/jvmpart/
JVMPart使用非常简单,只要实现Partitioner和Processor两个接口.Partitioner的作用就是决定数据怎么分拆,并把分拆出来的参数传给Processor,Processor就是利用Partitioner传过来的参数进行具体的处理.就我们要实现的这个搜索,Partitiner就是读取CSV目录里的文件并把文件路径和关键字传给Processor,Processor就根据文件路径读取文件并利用关键字搜索该文件找到了就显示出来.下面是"双P"的代码实现:
Partitioner:
public class Hotel2000WPartitioner extends SimplePartitioner {
private String keyword = null;
private String dir = null;
private String[] filenames = null;
public Hotel2000WPartitioner(String dir, String keywords) {
this.dir = dir;
this.filenames = findFilenames(new File(dir));
this.keyword = keywords;
}
private static String[] findFilenames(File dir) {
String[] filenames = dir.list(new FilenameFilter() {
public boolean accept(File dir, String filename) {
return filename.toUpperCase().endsWith("CSV");
}
});
return filenames;
}
/**
* 决定分为几个进程处理
*/
@Override
public int getTotalProcessor() {
return filenames.length;
}
/**
* 把参数传给Processor
*/
@Override
public Map<String, Object> processorParams(int index) {
Map<String, Object> params = new HashMap<String, Object>();
params.put("filename", dir+File.separator+filenames[index]);
params.put("keyword", keyword);
return params;
}
}
Processor:
public class Hotel2000WProcessor extends AbsProcessor {
/**
* 读取文件并利用关键字搜索该文件
*/
@Override
public void doExecute() throws JvmProcessException {
String keyword = getParams().get("keyword");
String filename = getParams().get("filename");
File f = new File(filename);
BufferedReader dr = null;
try {
dr = new BufferedReader(new InputStreamReader(
new FileInputStream(f), "UTF-8"));
while (dr.readLine() != null) {
String line = dr.readLine();
if(line!=null&&line.indexOf(keyword)!=-1) {
System.out.println(line);
}
}
} catch (IOException e) {
e.printStackTrace();
} finally {
if(dr!=null)
try {
dr.close();
} catch (IOException e) {
}
}
}
}
使用JVMPart工具运行:
public static void main(String[] args) throws JvmProcessException {
String dir = "D:\\我的文档\\下载\\2000W";
String keyword = "土豪";
JvmProcessPatitionHandler handler = null;
// 同时并发三个进程,当其中一个运行完成都踢出另一个运行
handler = new JvmProcessPatitionHandler(Hotel2000WProcessor.class, 3);
Hotel2000WPartitioner partitioner = new Hotel2000WPartitioner(dir, keyword);
System.out.println("搜索中,请稍后...");
long time = System.currentTimeMillis();
handler.handle(partitioner);
System.out.println("花费时间(分):"+((System.currentTimeMillis()-time)/(1000*60)));
}
当程序运行时,我们可以通过任务管理器看到有四个java进程在运行(其中一个为主进程).如图:

至此, 我们对2000w数据的搜索已完成,多进程处理就这么简单.运行截图如下(2000w数据果然厉害,土豪也能找到,哈哈):

下面附件如果你是WIN32的系统不用安装JRE,直接运行即可. WIN64没测试,如不能运行请自行安装64位JRE再运行.
附件使用方式(前提你已下载了CSV版的数据):
1.解压后,把程序Hotel2000W拷到CSV文件所在目录(这一步不做也可以,程序将提示输入CSV目录)
2.双击run.bat
3.按提示输入搜索关键字(姓名,手机或身份证等)
4.等待搜索结果,如果找到将在屏幕中出现
附件:http://pan.baidu.com/s/19qqvU
注:此为本人在博客园的处女作,希望大家多顶几下,以示鼓励!
借网上盛传2000w记录介绍多进程处理的更多相关文章
- 从头开始编写一个Orchard网上商店模块(1) - 介绍
原文地址:http://skywalkersoftwaredevelopment.net/blog/writing-an-orchard-webshop-module-from-scratch-par ...
- Log4Net日志记录介绍
原文地址 : http://www.cnblogs.com/wolf-sun/p/3347373.html#3009010 简介 log4net库是Apache log4j框架在Microsoft . ...
- 执行maven install跳过执行maven test方法(网上搜的记录一下,方面以后使用)
直接在pom文件加上这段配置就可以了 <plugin> <groupId>org.apache.maven.plugins</groupId> ...
- python记录_day30 多进程
1.什么是进程 进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础. 同一个程序执行两次,就会产生两个进程 ## 进程调度算 ...
- 【数据库】_由2000W多条开房数据引发的思考、实践----给在校生的一个真实【练耙场】,同学们,来开始一次伟大的尝试吧。
× 缘起---闲逛博客园 前几天的时候,在某一QQ群看到一条消息“XXX酒店开房XXXBTXX迅雷BT下载”,当时是一目十行的心态浏览,目光掠过时, 第一反应我想多了~以为是XX种子(你懂的~ ...
- SQLite介绍、学习笔记、性能测试
SQLite介绍.学习笔记.性能测试 哪些人,哪些公司或软件在用SQLite: Nokia's Symbian,Mozilla,Abobe,Google,阿里旺旺,飞信,Chrome,FireFox可 ...
- Orchard网上商店模块
从头开始编写一个Orchard网上商店模块(1) - 介绍 原文地址:http://skywalkersoftwaredevelopment.net/blog/writing-an-orchard-w ...
- 数据同步canal服务端介绍
1.下载安装包 canal&github的地址,最权威的学习canal相关知识的地方 https://github.com/alibaba/canal 在下面的wiki列表中找到AdminGu ...
- python的多线程和多进程(一)
在进入主题之前,我们先学习一下并发和并行的概念: --并发:在操作系统中,并发是指一个时间段中有几个程序都处于启动到运行完毕之间,且这几个程序都是在同一个处理机上运行.但任一时刻点上只有一个程序在处理 ...
随机推荐
- 一个想法(续二):换个角度思考如何解决IT企业招聘难的问题!
前言: 上一篇文章:一个想法:成立草根技术联盟对开发人员进行技术定级解决企业员工招聘难问题! 当时写文的思维,是从一个公益组织的角度的思考. 因此,有不少关于从利出发的反方观点,的确是值的思考! 任何 ...
- java面试笔试谈
例一: public class Inc { public static void main(String[] args) { Inc inc=new Inc(); int i=5; inc.ferm ...
- HBase-分布式安装
HBase的安装很简单,也是分为单机伪分布式和分布式 先保证hadoop环境JDK环境,我的是2.2.0和1.6_45 1.确定hadoop正常 2.上传HBase并解压,我用的是和hadoop2.2 ...
- Krypton Factor
Krypton Factor Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)To ...
- B - 一行盒子
Description 你有一行盒子,从左到右依次编号为1, 2, 3,…, n.你可以执行四种指令: 1 X Y表示把盒子X移动到盒子Y左边(如果X已经在Y的左边则忽略此指令).2 X Y表示把盒子 ...
- A+B Problem(V)
描述 做了A+B Problem之后,Yougth感觉太简单了,于是他想让你求出两个数反转后相加的值.帮帮他吧 输入 有多组测试数据.每组包括两个数m和n,数据保证int范围,当m和n同时为0是表示输 ...
- byte[] bytes和string转换
public static string ToHexString ( byte[] bytes ) // 0xae00cf => "AE00CF " { ...
- oracle索引、 管理权限和角色
索引 1 单列索引create index 索引名 on 表名(列名): 2复合索引在同一张表上可以有多个索引,但是要求列的组合必须不同.create index 索引名 on 表名(列名1, 列名2 ...
- SRM 584 第一次玩TopCoder。。。只水题一道。。。
第一次topcoder,以前老感觉没有资格去做tc,cf什么的,现在已经慢慢接触了. 感觉还可以,还是有让我们这些蒻菜安慰的水题. tc的确很好玩,用客户端比赛,还有各种规则,而且还是只编写一个类提交 ...
- Windows Azure 微软公有云体验(三) IIS中文编码解决方案
Windows Azure 微软公有云已经登陆中国有一段时间了,现在是处于试用阶段,Windows Azure的使用将会给管理信息系统的开发.运行.维护带来什么样的新体验呢? Windows Azur ...