《java提高数据导入效率优化思路》
写在前边的实现需求:
1.总共10万个电话号码;
2.电话号码中有重复和错误;
3.查找出正确的号码(不重复);
一、优化前的实现方式:
1.先用正则过滤一遍10万条数据,找出错误的;
2.用List.Contains验证重复数据,List.Add添加不重复数据;
3.最终从List中取出正确的数据。
public class appMain {
final static int _capacity = 1000000;
final static Random rand = new Random(System.currentTimeMillis() + _capacity);
static ArrayList<String> list = new ArrayList<String>(_capacity);
static ArrayList<String> newlist = new ArrayList<String>(_capacity);
public static void main(String[] args) throws InterruptedException {
long ts = System.currentTimeMillis();
int modVal = _capacity / 3;
for (int i = 0; i < _capacity; i++) {
rand.setSeed(i);
list.add(Integer.toString(Math.abs(rand.nextInt() % modVal)));
}
ts = System.currentTimeMillis() - ts;
System.out.println("生成时间 :" + ts);
test1();
}
static void test1() {
newlist.clear();
int repetition = 0;
long ts = System.currentTimeMillis();
for (String s : list) {
if (!newlist.contains(s))
newlist.add(s);
else {
repetition++;
}
}
ts = System.currentTimeMillis() - ts;
System.out.println("------ 插入检查方法 -------");
System.out.println("查找时间 :" + ts);
System.out.println("重复 :" + repetition);
System.out.println("正确 :" + newlist.size());
}
}
优化前执行结果:
/*
条件:capacity = 100000
结果:
生成时间 :33
------ 插入检查方法 -------
查找时间 :6612
重复 :76871
正确 :23129
------ 排序检查方法 -------
查找时间 :91
重复 :76871
正确 :23129
*/
使用以上方式做导入的话数据量一旦超过5w以上马上出现假死状态,故肯定不可取,所以有了下边的优化。
二、优化后的实现方式:
1.先对10万数据排序;
2.对比前后两条数据(这个我之后会详细说明为什么这么做);
3.筛选出正确数据。
public class appMain {
final static int _capacity = 1000000;
final static Random rand = new Random(System.currentTimeMillis() + _capacity);
static ArrayList<String> list = new ArrayList<String>(_capacity);
static ArrayList<String> newlist = new ArrayList<String>(_capacity);
public static void main(String[] args) throws InterruptedException {
long ts = System.currentTimeMillis();
int modVal = _capacity / 3;
for (int i = 0; i < _capacity; i++) {
rand.setSeed(i);
list.add(Integer.toString(Math.abs(rand.nextInt() % modVal)));
}
ts = System.currentTimeMillis() - ts;
System.out.println("生成时间 :" + ts);
test2();
}
static void test2() {
newlist.clear();
int repetition = 0;
long ts = System.currentTimeMillis();
Collections.sort(list);
String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
if (str.equals(list.get(i))) {
repetition++;
continue;
}
newlist.add(str);
str = list.get(i);
}
newlist.add(str);
ts = System.currentTimeMillis() - ts;
System.out.println("------ 排序检查方法 -------");
System.out.println("查找时间 :" + ts);
System.out.println("重复 :" + repetition);
System.out.println("正确 :" + newlist.size());
}
}
优化后执行结果:
/*
条件:capacity = 1000000
结果:
生成时间 :392
------ 插入检查方法 -------
查找时间 :1033818
重复 :703036
正确 :296964
------ 排序检查方法 -------
查找时间 :1367
重复 :703036
正确 :296964
*/
当数据量达到10万条的时候,查找时间比差不多90倍的差距了;当数据量达到100万时,我这边测试数据已经卡死在test1(),而test2()依然能在数十秒内反馈结果。
下边来简单解剖下源码:
Collections.sort(list);
String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
if (str.equals(list.get(i))) {
repetition++;
continue;
}
newlist.add(str);
str = list.get(i);
}
Line 1:排序,加入list排序后的结果是[1,2,2,3,3,3,4,4,4,4,5,5,5,5,5]
Line 2:初始str = 1;
从Line 4开始进入循环:
Line 5:判断str是否和当先selector值相等(暂借我们认为list.get(i)是一个指针),如果相等则跳过以下步骤进入下一个循环
Line 9:将str = 1,加入newlist尾
Line10:将当前selector值赋给str,此时str=2,进入下一个循环
...
这种语言解释我个人觉得特别麻烦,我还是写段代码让程序告诉你它怎么执行的。
public class appList {
static ArrayList<String> list = new ArrayList<String>();
static ArrayList<String> newlist = new ArrayList<String>();
public static void main(String[] args) {
for (int i = 1; i < 5 + 1; i++) {
for (int j = 0; j < i; j++) {
list.add(Integer.toString(i));
}
}
System.out.println("list初始值 " + list.toString());
// print输出值 [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5]
String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
Print(i);
if (str.equals(list.get(i))) {
PrintNew();
continue;
}
newlist.add(str);
System.out.println("add\t" + str);
str = list.get(i);
PrintNew();
}
newlist.add(str);
System.out.println("add\t" + str);
PrintNew();
System.out.println("newlist值 " + newlist.toString());
// print输出值 [1, 2, 3, 4, 5]
}
static void PrintNew(){
StringBuilder stringBuilder = new StringBuilder();
stringBuilder.append("newlist\t");
for (int i = 0; i < newlist.size(); i++) {
stringBuilder.append(newlist.get(i));
stringBuilder.append(",");
}
System.out.println(stringBuilder.toString());
System.out.println();
}
static void Print(int pos) {
StringBuilder stringBuilder = new StringBuilder();
stringBuilder.append("list\t");
for (int i = 0; i < list.size(); i++) {
if (i == pos) {
stringBuilder.append("[");
stringBuilder.append(list.get(i));
stringBuilder.append("],");
} else {
stringBuilder.append(list.get(i));
stringBuilder.append(",");
}
}
System.out.println(stringBuilder.toString());
}
执行结果:
list初始值 [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5]
list 1,[2],2,3,3,3,4,4,4,4,5,5,5,5,5,
add 1
newlist 1, list 1,2,[2],3,3,3,4,4,4,4,5,5,5,5,5,
newlist 1, list 1,2,2,[3],3,3,4,4,4,4,5,5,5,5,5,
add 2
newlist 1,2, list 1,2,2,3,[3],3,4,4,4,4,5,5,5,5,5,
newlist 1,2, list 1,2,2,3,3,[3],4,4,4,4,5,5,5,5,5,
newlist 1,2, list 1,2,2,3,3,3,[4],4,4,4,5,5,5,5,5,
add 3
newlist 1,2,3, list 1,2,2,3,3,3,4,[4],4,4,5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,[4],4,5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,4,[4],5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,4,4,[5],5,5,5,5,
add 4
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,[5],5,5,5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,[5],5,5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,5,[5],5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,5,5,[5],
newlist 1,2,3,4, add 5
newlist 1,2,3,4,5, newlist值 [1, 2, 3, 4, 5]
《java提高数据导入效率优化思路》的更多相关文章
- 简单物联网:外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
- 利用ssh反向代理以及autossh实现从外网连接内网服务器
前言 最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
- 外网访问内网Docker容器
外网访问内网Docker容器 本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
- 外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
- 外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
- 怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
- 怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库 本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
- 怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库 本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
- 怎样从外网访问内网DB2数据库
外网访问内网DB2数据库 本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库 默认安装的DB2 ...
- 怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库 本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...
随机推荐
- 【NOIP 2009】最优贸易
描述 C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市.任意两个城市之间最多只有一条道路直接相连.这 m 条道路中有一部分为单向通行的道路,一部分为双向通行的道路,双向通 ...
- Fxx and game hdu 5945 单调队列dp
dfs你怕是要爆炸 考虑dp; 很容易想到 dp[ i ] 表示到 i 时的最少转移步数: 那么: dp[ i ]= min( dp[ i ],dp[ i-j ]+1 ); 其中 i-t<=j& ...
- manjaro linux KDE桌面网易云音乐点击托盘图标无反应
这是一个很奇怪的问题,它的解决方法更奇怪... 找到网易云,右键,选择“编辑应用程序” 在打开的窗口中选中应用程序一栏 将“命令”的内容替换为: 1 env XDG_CURRENT_DESKTOP=D ...
- springloud系列搭建注册中心
首先搭建父工程: 点击next父工程就搭建完成; pom.xml文件: <?xml version="1.0" encoding="UTF-8"?> ...
- DRAM与SRAM
传送门:https://www.cnblogs.com/nano94/p/4014082.html 关于内存的补充知识传送门:https://blog.csdn.net/Hello_Sue/artic ...
- POJ1052 Plato's Blocks
题目来源:http://poj.org/problem?id=1052 题目大意: 把1*1*1的小立方体通过粘接相邻面组成大的立方体的形状.如下图所示: 一层一层地堆叠,立方体从三个方向的投影会分别 ...
- 1005 继续(3n+1)猜想(25 分)
卡拉兹(Callatz)猜想已经在1001中给出了描述.在这个题目里,情况稍微有些复杂. 当我们验证卡拉兹猜想的时候,为了避免重复计算,可以记录下递推过程中遇到的每一个数.例如对 n=3 进行验证的时 ...
- hau 1870 愚人节的礼物(栈)
愚人节的礼物 Time Limit: 5000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Subm ...
- rhcs红帽插件及 轮循
server1:yum install luci ricci -yecho westos | passwd -stdin ricci/etc/init.d/ricci startchkconfig ...
- C:foreEach
c:forEach用法 <c:foreach>用法 <c:foreach>类似于for和foreach循环 以下是我目前见过的用法:1.循环遍历,输出所有的元素.& ...