写在前边的实现需求:

1.总共10万个电话号码;

2.电话号码中有重复和错误;

3.查找出正确的号码(不重复);

一、优化前的实现方式:

1.先用正则过滤一遍10万条数据,找出错误的;

2.用List.Contains验证重复数据,List.Add添加不重复数据;

3.最终从List中取出正确的数据。

 public class appMain {
final static int _capacity = 1000000;
final static Random rand = new Random(System.currentTimeMillis() + _capacity);
static ArrayList<String> list = new ArrayList<String>(_capacity);
static ArrayList<String> newlist = new ArrayList<String>(_capacity); public static void main(String[] args) throws InterruptedException {
long ts = System.currentTimeMillis();
int modVal = _capacity / 3;
for (int i = 0; i < _capacity; i++) {
rand.setSeed(i);
list.add(Integer.toString(Math.abs(rand.nextInt() % modVal)));
}
ts = System.currentTimeMillis() - ts;
System.out.println("生成时间 :" + ts); test1();
} static void test1() {
newlist.clear();
int repetition = 0;
long ts = System.currentTimeMillis();
for (String s : list) {
if (!newlist.contains(s))
newlist.add(s);
else {
repetition++;
}
}
ts = System.currentTimeMillis() - ts;
System.out.println("------ 插入检查方法 -------");
System.out.println("查找时间 :" + ts);
System.out.println("重复 :" + repetition);
System.out.println("正确 :" + newlist.size());
}
}

优化前执行结果:

/*
条件:capacity = 100000
结果:
生成时间 :33
------ 插入检查方法 -------
查找时间 :6612
重复 :76871
正确 :23129
------ 排序检查方法 -------
查找时间 :91
重复 :76871
正确 :23129
*/

使用以上方式做导入的话数据量一旦超过5w以上马上出现假死状态,故肯定不可取,所以有了下边的优化。

二、优化后的实现方式:

1.先对10万数据排序;

2.对比前后两条数据(这个我之后会详细说明为什么这么做);

3.筛选出正确数据。

 public class appMain {
final static int _capacity = 1000000;
final static Random rand = new Random(System.currentTimeMillis() + _capacity);
static ArrayList<String> list = new ArrayList<String>(_capacity);
static ArrayList<String> newlist = new ArrayList<String>(_capacity); public static void main(String[] args) throws InterruptedException {
long ts = System.currentTimeMillis();
int modVal = _capacity / 3;
for (int i = 0; i < _capacity; i++) {
rand.setSeed(i);
list.add(Integer.toString(Math.abs(rand.nextInt() % modVal)));
}
ts = System.currentTimeMillis() - ts;
System.out.println("生成时间 :" + ts); test2();
} static void test2() {
newlist.clear();
int repetition = 0;
long ts = System.currentTimeMillis(); Collections.sort(list);
String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
if (str.equals(list.get(i))) {
repetition++;
continue;
}
newlist.add(str);
str = list.get(i);
}
newlist.add(str); ts = System.currentTimeMillis() - ts;
System.out.println("------ 排序检查方法 -------");
System.out.println("查找时间 :" + ts);
System.out.println("重复 :" + repetition);
System.out.println("正确 :" + newlist.size());
}
}

优化后执行结果:

/*
条件:capacity = 1000000
结果:
生成时间 :392
------ 插入检查方法 -------
查找时间 :1033818
重复 :703036
正确 :296964
------ 排序检查方法 -------
查找时间 :1367
重复 :703036
正确 :296964
*/

当数据量达到10万条的时候,查找时间比差不多90倍的差距了;当数据量达到100万时,我这边测试数据已经卡死在test1(),而test2()依然能在数十秒内反馈结果。

下边来简单解剖下源码:

 Collections.sort(list);
String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
if (str.equals(list.get(i))) {
repetition++;
continue;
}
newlist.add(str);
str = list.get(i);
}

Line 1:排序,加入list排序后的结果是[1,2,2,3,3,3,4,4,4,4,5,5,5,5,5]

Line 2:初始str = 1;

从Line 4开始进入循环:

Line 5:判断str是否和当先selector值相等(暂借我们认为list.get(i)是一个指针),如果相等则跳过以下步骤进入下一个循环

Line 9:将str = 1,加入newlist尾

Line10:将当前selector值赋给str,此时str=2,进入下一个循环

...

这种语言解释我个人觉得特别麻烦,我还是写段代码让程序告诉你它怎么执行的。

 public class appList {
static ArrayList<String> list = new ArrayList<String>();
static ArrayList<String> newlist = new ArrayList<String>(); public static void main(String[] args) {
for (int i = 1; i < 5 + 1; i++) {
for (int j = 0; j < i; j++) {
list.add(Integer.toString(i));
}
}
System.out.println("list初始值 " + list.toString());
// print输出值 [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5] String str = list.get(0);
int max = list.size();
for (int i = 1; i < max; i++) {
Print(i);
if (str.equals(list.get(i))) {
PrintNew();
continue;
}
newlist.add(str);
System.out.println("add\t" + str);
str = list.get(i);
PrintNew();
} newlist.add(str);
System.out.println("add\t" + str);
PrintNew(); System.out.println("newlist值 " + newlist.toString());
// print输出值 [1, 2, 3, 4, 5]
} static void PrintNew(){
StringBuilder stringBuilder = new StringBuilder();
stringBuilder.append("newlist\t");
for (int i = 0; i < newlist.size(); i++) {
stringBuilder.append(newlist.get(i));
stringBuilder.append(",");
}
System.out.println(stringBuilder.toString());
System.out.println();
}
static void Print(int pos) {
StringBuilder stringBuilder = new StringBuilder();
stringBuilder.append("list\t");
for (int i = 0; i < list.size(); i++) {
if (i == pos) {
stringBuilder.append("[");
stringBuilder.append(list.get(i));
stringBuilder.append("],");
} else {
stringBuilder.append(list.get(i));
stringBuilder.append(",");
}
}
System.out.println(stringBuilder.toString());
}

执行结果:

list初始值 [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5]
list 1,[2],2,3,3,3,4,4,4,4,5,5,5,5,5,
add 1
newlist 1, list 1,2,[2],3,3,3,4,4,4,4,5,5,5,5,5,
newlist 1, list 1,2,2,[3],3,3,4,4,4,4,5,5,5,5,5,
add 2
newlist 1,2, list 1,2,2,3,[3],3,4,4,4,4,5,5,5,5,5,
newlist 1,2, list 1,2,2,3,3,[3],4,4,4,4,5,5,5,5,5,
newlist 1,2, list 1,2,2,3,3,3,[4],4,4,4,5,5,5,5,5,
add 3
newlist 1,2,3, list 1,2,2,3,3,3,4,[4],4,4,5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,[4],4,5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,4,[4],5,5,5,5,5,
newlist 1,2,3, list 1,2,2,3,3,3,4,4,4,4,[5],5,5,5,5,
add 4
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,[5],5,5,5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,[5],5,5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,5,[5],5,
newlist 1,2,3,4, list 1,2,2,3,3,3,4,4,4,4,5,5,5,5,[5],
newlist 1,2,3,4, add 5
newlist 1,2,3,4,5, newlist值 [1, 2, 3, 4, 5]

《java提高数据导入效率优化思路》的更多相关文章

  1. 简单物联网:外网访问内网路由器下树莓派Flask服务器

    最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...

  2. 利用ssh反向代理以及autossh实现从外网连接内网服务器

    前言 最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...

  3. 外网访问内网Docker容器

    外网访问内网Docker容器 本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...

  4. 外网访问内网SpringBoot

    外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...

  5. 外网访问内网Elasticsearch WEB

    外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...

  6. 怎样从外网访问内网Rails

    外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...

  7. 怎样从外网访问内网Memcached数据库

    外网访问内网Memcached数据库 本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...

  8. 怎样从外网访问内网CouchDB数据库

    外网访问内网CouchDB数据库 本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...

  9. 怎样从外网访问内网DB2数据库

    外网访问内网DB2数据库 本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库 默认安装的DB2 ...

  10. 怎样从外网访问内网OpenLDAP数据库

    外网访问内网OpenLDAP数据库 本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...

随机推荐

  1. 2019.2.10考试T2, 多项式求exp+生成函数

    \(\color{#0066ff}{ 题目描述 }\) 为了减小文件大小,这里不写一堆题目背景了. 请写一个程序,输入一个数字N,输出N个点的森林的数量.点有标号. 森林是一种无向图,要求图中不能存在 ...

  2. luogu3172 [CQOI2015]选数 莫比乌斯反演+杜教筛

    link 题目大意:有N个数,每个数都在区间[L,H]之间,请求出所有数的gcd恰好为K的方案数 推式子 首先可以把[L,H]之间的数字gcd恰好为K转化为[(L-1)/K+1,H/K]之间数字gcd ...

  3. 树莓派使用 PPA 安装 Java 8

    前言 在树莓派上安装 Java 8,与这篇的操作类似,不过树莓派不支持用 add-apt-repository 自动添加 webupd8team 的源,所以要手动添加. 步骤 在 /etc/apt/s ...

  4. Python字符串拼接、格式化输出、深浅复制

    1.Python字符串拼接:方法挺多.挺好用的.灵活使用可使代码简洁.可读性好. #1.用4种方法,将列表li = ['I','python','like'], #里面的单词拼成: I**like** ...

  5. maven 过滤webapp下的文件

    <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-war-p ...

  6. Linux 磁盘 分区 挂载点的理解

    在Linux中一切皆文件: 虚拟文件系统(Virtual File System, 简称 VFS), 是 Linux 内核中的一个软件层,用于给用户空间的程序提供文件系统接口:同时,它也提供了内核中的 ...

  7. 洛谷1541(多维dp)

    走格子拿分数,直接弄dp[i]是到了第i格的最大得分可以发现是假的. 于是此题设f[i][j][k][t]代表四种步伐各用了几次可以得到的最大得分,到达的点可以直接算出来,就好转移了. const i ...

  8. dedecms 的采集

    http://www.360doc.com/content/14/0521/09/13870710_379547377.shtml http://www.360doc.com/content/14/0 ...

  9. java从笨鸟到菜鸟

    链接别人的笔记 http://www.cnblogs.com/cugwx/p/3536840.html

  10. Java升级替换java version "1.5.0"

    首先进行java安装 http://www.cnblogs.com/someone9/p/8670585.html 2. 然后查看版本信息,仍然是1.5.0 [root@OKC java]# java ...