1.pom.xml配置

<dependency>

      <groupId>commons-io</groupId>

       <artifactId>commons-io</artifactId>

       <version>2.4</version>

</dependency>

2.实现

package com.tangxin.kafka.service;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.LineIterator;

import org.springframework.util.StringUtils;

import java.io.*;

import java.math.BigDecimal;

import java.util.*;

/**

 * 两个csv文件数据去重

 */

public class CSVDeduplication {

    private static final String CSV_PATH = "I:\\";

    public static List<String> ids(String path) {

        List<String> result = new ArrayList<>();

        File csv = new File(path);  // CSV文件路径

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(csv);

            while (it.hasNext()) {

                String line = it.nextLine();

                if (line.trim().contains("id")) {

                    continue;

                }

                String[] arr = line.split(",");

                String id = arr[0];

                id = id.replaceAll("\"", "").trim();

                result.add(id);

            }

        } catch (Exception e) {

        } finally {

            LineIterator.closeQuietly(it);

        }

        return result;

    }

    public static void main(String[] args) throws Exception {

        String path1 = CSV_PATH+"100w.csv";

        String path2 = CSV_PATH+"300w.csv";

        List<String> ids1 = ids(path1);

        Set<String> idSet1 = new HashSet<>();

        Set<String> idSet2 = new HashSet<>();

        for (int i = 0; i < ids1.size(); i++) {

            if(StringUtils.isEmpty(ids1.get(i))){

                continue;

            }

            idSet1.add(ids1.get(i));

        }

        List<String> ids2 = ids(path2);

        for (int i = 0; i < ids2.size(); i++) {

            if(StringUtils.isEmpty(ids2.get(i))){

                continue;

            }

            idSet2.add(ids2.get(i));

        }

        System.out.println("用户100万=" + idSet1.size());

        System.out.println("用户300万=" + idSet2.size());

        BigDecimal b1 = new BigDecimal(idSet1.size());

        BigDecimal b2 = new BigDecimal(idSet2.size());

        BigDecimal b3 = b1.add(b2);

        System.out.println("用户100万和用户300万="+b3.toString());

        List<String> ids4 = new ArrayList<>();//重复数据

        Set<String> ids3 = new HashSet<>();

        Iterator<String> iterator1 = idSet1.iterator();

        while (iterator1.hasNext()){

            String t1 = iterator1.next();

            ids3.add(t1);

        }

        Iterator<String> iterator2 = idSet2.iterator();

        while (iterator2.hasNext()){

            String t1 = iterator2.next();

            ids3.add(t1);

        }

        System.out.println("用户100万和用户300万去重=" + ids3.size());

        ids1.removeAll(ids3);

        ids2.removeAll(ids3);

        ids4.addAll(ids1);

        ids4.addAll(ids2);

        System.out.println("用户100万和用户300万重复="+ids4.size());

        Set<String> fiveMillion = splitHeadData(ids3, 50000);

        System.out.println("5W用户推送数据:" + fiveMillion.size());

        List<String> staffsList = new ArrayList<>(fiveMillion);

        createCSV(staffsList,"5w.csv");

        System.out.println("剩余推送总数:" + ids3.size());

        System.out.println("============剩余总数每50w分页显示=================");

        List<List<String>> pageListTotal = pageList(ids3,500000);

        for (int i = 0; i < pageListTotal.size(); i++) {

            List<String> items = pageListTotal.get(i);

            createCSV(items,"50w"+i+".csv");

        }

    }

    public static Set<String> splitHeadData(Set<String> mySet, int size) {

        Set<String> result = new HashSet<>();

        Iterator<String> iterator = mySet.iterator();

        int count = 0;

        while (iterator.hasNext()) {

            if (count == size) {

                break;

            }

            result.add(iterator.next());

            count++;

        }

        mySet.removeAll(result);

        return result;

    }

    /**

     * 分页list的id数据

     * @return

     */

    public static List<List<String>> pageList(Set<String> totalSet, int pageSize) {

        List<List<String>> allIdList = new ArrayList<>();

        List<String> idList = new ArrayList<>();

        Iterator<String> it = totalSet.iterator();

        int count = 0;

        while (it.hasNext()) {

            String id = it.next();

            if (count > pageSize) {

                allIdList.add(idList);

                count = 0;

                idList = new ArrayList<>();

            }

            idList.add(id);

            count++;

        }

        if (idList.size() > 0) {

            allIdList.add(idList);

        }

        return allIdList;

    }

    /**

     * 创建CSV文件

     */

    public static void createCSV(List<String> list,String fileName) {

        // 表格头

        Object[] head = {"id"};

        List<Object> headList = Arrays.asList(head);

        //数据

        List<List<Object>> dataList = new ArrayList<>();

        List<Object> rowList;

        for (int i = 0; i < list.size(); i++) {

            rowList = new ArrayList<>();

            rowList.add(list.get(i));

            dataList.add(rowList);

        }

        String filePath = CSV_PATH; //文件路径

        File csvFile;

        BufferedWriter csvWriter = null;

        try {

            csvFile = new File(filePath + fileName);

            File parent = csvFile.getParentFile();

            if (parent != null && !parent.exists()) {

                parent.mkdirs();

            }

            csvFile.createNewFile();

            // GB2312使正确读取分隔符","

            csvWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(csvFile), "GB2312"), 1024);

            // 写入文件头部

            writeRow(headList, csvWriter);

            // 写入文件内容

            for (List<Object> row : dataList) {

                writeRow(row, csvWriter);

            }

            csvWriter.flush();

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            try {

                csvWriter.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    private static void writeRow(List<Object> row, BufferedWriter csvWriter) throws IOException {

        for (Object data : row) {

            StringBuffer sb = new StringBuffer();

            String rowStr = sb.append("\"").append(data).append("\",").toString();

            csvWriter.write(rowStr);

        }

        csvWriter.newLine();

    }

}

3.开始的实现思路和后面的实现思路

3.1 开始的实现思路

读取文件1.csv,数据大概有100多万读取文件2.csv，数据大概有300多万，然后用100万和300万的数据一个个去比较看哪些已经存在了，两个for循环，100万*300万=3万亿次卡着不动放弃了。

然后想着用多线程把300万数据分页成每50万来跑也是跑的很。

3.2 后面的实现思路

代码就在上面，整体思路就是通过java的Set集合来去重复，因为java单个循环处理还是很快的，注意需要配置jvm参数来跑不然会内存溢出：

VM options：

-Xms1g -Xmx1g -XX:SurvivorRatio=2 -XX:+UseParallelGC

java 两个csv文件数据去重的更多相关文章

python读取两个csv文件数据，进行查找匹配出现次数
现有需求表1 表2 需要拿表1中的编码去表2中的门票编码列匹配,统计出现的次数,由于表2编码列是区域间,而且列不是固定的,代码如下 #encoding:utf-8 ##导入两个CSV进行比对 imp ...
java读取目录下所有csv文件数据，存入三维数组并返回
package dwzx.com.get; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; ...
jmeter参数化、添加变量、生成随机数和导入csv文件数据
Remarks:本次使用jmeter版本为4.0 以下数据都在必应中演示: 添加普通变量 1.添加 User Defined Variables(用户自定义变量) 2.设置变量 3.使用变量 4.查看 ...
CSV文件数据如何读取、导入、导出到新的CSV文件中以及CSV文件的创建
CSV文件数据如何读取.导入.导出到新的CSV文件中以及CSV文件的创建一.csv文件的创建 (1)新建一个文本文档: 打开新建文本文档,进行编辑. 注意:关键字与关键字之间用英文半角逗号隔开.第一 ...
HttpRunner学习7--引用CSV文件数据
前言在之前的文章中,我们已经学习了 parameters 参数化,是在测试脚本中直接指定参数列表.这种方法简单易用,但如果我们的参数列表数据比较多,这种方法可能就不太适合了. 当数据量比较大的时候, ...
C#使用Linq to csv读取.csv文件数据
前言:今日遇到了一个需要读取CSV文件类型的EXCEL文档数据的问题,原本使用NPOI的解决方案直接读取文档数据,最后失败了,主要是文件的类型版本等信息不兼容导致.其他同事有使用linq to csv ...
C语言进行csv文件数据的读取
C语言进行csv文件数据的读取: #include <stdio.h> #include <string.h> #include <malloc.h> #inclu ...
java调用sqlldr导入csv文件数据到临时表
package cn.com.file;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File; ...
java导出生成csv文件
首先我们需要对csv文件有基础的认识,csv文件类似excel,可以使用excel打开,但是csv文件的本质是逗号分隔的,对比如下图: txt中显示: 修改文件后缀为csv后显示如下: 在java中我 ...

随机推荐

scrapy install
csf@ubuntu:~$ sudo apt install python-scrapy
AMD、CMD、CommonJs和ES6对比
一.AMD(异步模块定义) AMD(异步模块定义)是RequireJS在推广过程中对模块定义的规范化产出.AMD是一个概念,RequireJs是对这个概念的实现.比如javascript语言是对ECM ...
java Web 常见错误集锦及解决方法
只能删除pid为整数的商品,32位的pid商品不能删除? 原因onclick="agree('${s.pid}')" 括号中需要加 ' ' 删除多余的工作空间? 使用prefer ...
$.each() 循环遍历完后阻止再执行的办法
jquery each循环遍历完再执行的方法因为each是异步的所以要加计数器. query each循环遍历完再执行的方法因为each是异步的所以要加计数器.var eachcount=0; ...
bootloader 关闭看门狗
#define pWTCON 0x53000000disable_watchdog: ldr r0, =pWTCON mov r1, #0x0 str r1, [r0]
JAVA / MySql 编程——第七章 JDBC
1.JDBC:JDBA是Java数据库连接(Java DataBase Connectivity)技术的简称,提供连接各种常用数据库的能力: ●Java是通过JDBC技术实现对各种数据 ...
#Python编程从入门到实践#第二章笔记
1.变量 (1)变量名只能包含字母.数字和下划线,不能包含空格 (2)不要将python关键字与函数名作为变量名 (3)简短有描述性,避免使用小写字母l和大写字母O (4)python 始终 ...
C语言字符篇（三）字符串比较函数
#include <string.h> int strcmp(const char *s1, const char *s2); 比较字符串s1和s2 int strncmp(const ...
各种Nand的总结
1. 微观 NAND闪存NAND是非易失性存储技术,NAND闪存由多个存放以位(bit)为单位的单元构成,这些位通过电荷被打开或关闭,如何组织这些开关单元来储存在SSD上的数据,也决定了NAND闪存的 ...
Pandas 文本数据
Pandas针对字符串配备的一套方法,使其易于对数组的每个元素(字符串)进行操作. 1.通过str访问,且自动排除丢失/ NA值 # 通过str访问,且自动排除丢失/ NA值 s = pd.Serie ...

java 两个csv文件数据去重