1.pom.xml配置

<dependency>

      <groupId>commons-io</groupId>

       <artifactId>commons-io</artifactId>

       <version>2.4</version>

</dependency>

2.实现

package com.tangxin.kafka.service;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.LineIterator;

import org.springframework.util.StringUtils;

import java.io.*;

import java.math.BigDecimal;

import java.util.*;

/**

 * 两个csv文件数据去重

 */

public class CSVDeduplication {

    private static final String CSV_PATH = "I:\\";

    public static List<String> ids(String path) {

        List<String> result = new ArrayList<>();

        File csv = new File(path);  // CSV文件路径

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(csv);

            while (it.hasNext()) {

                String line = it.nextLine();

                if (line.trim().contains("id")) {

                    continue;

                }

                String[] arr = line.split(",");

                String id = arr[0];

                id = id.replaceAll("\"", "").trim();

                result.add(id);

            }

        } catch (Exception e) {

        } finally {

            LineIterator.closeQuietly(it);

        }

        return result;

    }

    public static void main(String[] args) throws Exception {

        String path1 = CSV_PATH+"100w.csv";

        String path2 = CSV_PATH+"300w.csv";

        List<String> ids1 = ids(path1);

        Set<String> idSet1 = new HashSet<>();

        Set<String> idSet2 = new HashSet<>();

        for (int i = 0; i < ids1.size(); i++) {

            if(StringUtils.isEmpty(ids1.get(i))){

                continue;

            }

            idSet1.add(ids1.get(i));

        }

        List<String> ids2 = ids(path2);

        for (int i = 0; i < ids2.size(); i++) {

            if(StringUtils.isEmpty(ids2.get(i))){

                continue;

            }

            idSet2.add(ids2.get(i));

        }

        System.out.println("用户100万=" + idSet1.size());

        System.out.println("用户300万=" + idSet2.size());

        BigDecimal b1 = new BigDecimal(idSet1.size());

        BigDecimal b2 = new BigDecimal(idSet2.size());

        BigDecimal b3 = b1.add(b2);

        System.out.println("用户100万和用户300万="+b3.toString());

        List<String> ids4 = new ArrayList<>();//重复数据

        Set<String> ids3 = new HashSet<>();

        Iterator<String> iterator1 = idSet1.iterator();

        while (iterator1.hasNext()){

            String t1 = iterator1.next();

            ids3.add(t1);

        }

        Iterator<String> iterator2 = idSet2.iterator();

        while (iterator2.hasNext()){

            String t1 = iterator2.next();

            ids3.add(t1);

        }

        System.out.println("用户100万和用户300万去重=" + ids3.size());

        ids1.removeAll(ids3);

        ids2.removeAll(ids3);

        ids4.addAll(ids1);

        ids4.addAll(ids2);

        System.out.println("用户100万和用户300万重复="+ids4.size());

        Set<String> fiveMillion = splitHeadData(ids3, 50000);

        System.out.println("5W用户推送数据:" + fiveMillion.size());

        List<String> staffsList = new ArrayList<>(fiveMillion);

        createCSV(staffsList,"5w.csv");

        System.out.println("剩余推送总数:" + ids3.size());

        System.out.println("============剩余总数每50w分页显示=================");

        List<List<String>> pageListTotal = pageList(ids3,500000);

        for (int i = 0; i < pageListTotal.size(); i++) {

            List<String> items = pageListTotal.get(i);

            createCSV(items,"50w"+i+".csv");

        }

    }

    public static Set<String> splitHeadData(Set<String> mySet, int size) {

        Set<String> result = new HashSet<>();

        Iterator<String> iterator = mySet.iterator();

        int count = 0;

        while (iterator.hasNext()) {

            if (count == size) {

                break;

            }

            result.add(iterator.next());

            count++;

        }

        mySet.removeAll(result);

        return result;

    }

    /**

     * 分页list的id数据

     * @return

     */

    public static List<List<String>> pageList(Set<String> totalSet, int pageSize) {

        List<List<String>> allIdList = new ArrayList<>();

        List<String> idList = new ArrayList<>();

        Iterator<String> it = totalSet.iterator();

        int count = 0;

        while (it.hasNext()) {

            String id = it.next();

            if (count > pageSize) {

                allIdList.add(idList);

                count = 0;

                idList = new ArrayList<>();

            }

            idList.add(id);

            count++;

        }

        if (idList.size() > 0) {

            allIdList.add(idList);

        }

        return allIdList;

    }

    /**

     * 创建CSV文件

     */

    public static void createCSV(List<String> list,String fileName) {

        // 表格头

        Object[] head = {"id"};

        List<Object> headList = Arrays.asList(head);

        //数据

        List<List<Object>> dataList = new ArrayList<>();

        List<Object> rowList;

        for (int i = 0; i < list.size(); i++) {

            rowList = new ArrayList<>();

            rowList.add(list.get(i));

            dataList.add(rowList);

        }

        String filePath = CSV_PATH; //文件路径

        File csvFile;

        BufferedWriter csvWriter = null;

        try {

            csvFile = new File(filePath + fileName);

            File parent = csvFile.getParentFile();

            if (parent != null && !parent.exists()) {

                parent.mkdirs();

            }

            csvFile.createNewFile();

            // GB2312使正确读取分隔符","

            csvWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(csvFile), "GB2312"), 1024);

            // 写入文件头部

            writeRow(headList, csvWriter);

            // 写入文件内容

            for (List<Object> row : dataList) {

                writeRow(row, csvWriter);

            }

            csvWriter.flush();

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            try {

                csvWriter.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    private static void writeRow(List<Object> row, BufferedWriter csvWriter) throws IOException {

        for (Object data : row) {

            StringBuffer sb = new StringBuffer();

            String rowStr = sb.append("\"").append(data).append("\",").toString();

            csvWriter.write(rowStr);

        }

        csvWriter.newLine();

    }

}

3.开始的实现思路和后面的实现思路

3.1 开始的实现思路

读取文件1.csv,数据大概有100多万读取文件2.csv，数据大概有300多万，然后用100万和300万的数据一个个去比较看哪些已经存在了，两个for循环，100万*300万=3万亿次卡着不动放弃了。

然后想着用多线程把300万数据分页成每50万来跑也是跑的很。

3.2 后面的实现思路

代码就在上面，整体思路就是通过java的Set集合来去重复，因为java单个循环处理还是很快的，注意需要配置jvm参数来跑不然会内存溢出：

VM options：

-Xms1g -Xmx1g -XX:SurvivorRatio=2 -XX:+UseParallelGC

java 两个csv文件数据去重的更多相关文章

python读取两个csv文件数据，进行查找匹配出现次数
现有需求表1 表2 需要拿表1中的编码去表2中的门票编码列匹配,统计出现的次数,由于表2编码列是区域间,而且列不是固定的,代码如下 #encoding:utf-8 ##导入两个CSV进行比对 imp ...
java读取目录下所有csv文件数据，存入三维数组并返回
package dwzx.com.get; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; ...
jmeter参数化、添加变量、生成随机数和导入csv文件数据
Remarks:本次使用jmeter版本为4.0 以下数据都在必应中演示: 添加普通变量 1.添加 User Defined Variables(用户自定义变量) 2.设置变量 3.使用变量 4.查看 ...
CSV文件数据如何读取、导入、导出到新的CSV文件中以及CSV文件的创建
CSV文件数据如何读取.导入.导出到新的CSV文件中以及CSV文件的创建一.csv文件的创建 (1)新建一个文本文档: 打开新建文本文档,进行编辑. 注意:关键字与关键字之间用英文半角逗号隔开.第一 ...
HttpRunner学习7--引用CSV文件数据
前言在之前的文章中,我们已经学习了 parameters 参数化,是在测试脚本中直接指定参数列表.这种方法简单易用,但如果我们的参数列表数据比较多,这种方法可能就不太适合了. 当数据量比较大的时候, ...
C#使用Linq to csv读取.csv文件数据
前言:今日遇到了一个需要读取CSV文件类型的EXCEL文档数据的问题,原本使用NPOI的解决方案直接读取文档数据,最后失败了,主要是文件的类型版本等信息不兼容导致.其他同事有使用linq to csv ...
C语言进行csv文件数据的读取
C语言进行csv文件数据的读取: #include <stdio.h> #include <string.h> #include <malloc.h> #inclu ...
java调用sqlldr导入csv文件数据到临时表
package cn.com.file;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File; ...
java导出生成csv文件
首先我们需要对csv文件有基础的认识,csv文件类似excel,可以使用excel打开,但是csv文件的本质是逗号分隔的,对比如下图: txt中显示: 修改文件后缀为csv后显示如下: 在java中我 ...

随机推荐

第30章 ADC—电压采集—零死角玩转STM32-F429系列
第30章 ADC—电压采集全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/fireg ...
ADO.NET 之断开连接层
定义: 使用ADO.NET断开连接层,就会使用System.Data命名空间的许多成员(主要是DataTable.DataTable.DataRow.DataColumn.DataView和DataR ...
3.vue引入axios全局配置
前言: Vue官方推荐使用axios来进行异步访问. axios文档参考:axios中文文档开始搭建: 1.引入axios (1)打开终端 win+R (2)切换到项目路径: g: cd Webap ...
使用nsis开发自定义安装包使用心得，以及遇到坑
因为新公司需要开发pc应用的自定义安装包,开始时候计划使用nsis开发,论坛上面有很多不错的例子,而且完成度很强, 随便拿来修改使用,但是后续的开发过程中遇到的问题就逐个出现. 首先说一下nsis的优 ...
浅谈mysql权限
一. 背景: “去IOE”的本质是“分布式+开源”架构替代“集中式+封闭”架构,变成彻底的云计算服务模式.去“IE”易,并且应该去,关键确实能省钱,而且运维难度不大,替代技术产品成熟.而去O ...
Mysql: pt-table-checksum 和 pt-table-sync 检查主从一致性，实验过程
一.安装 percona 包 1.安装仓库的包 https://www.percona.com/doc/percona-repo-config/yum-repo.html sudo yum insta ...
779. K-th Symbol in Grammar
class Solution { public: int kthGrammar(int N, int K) { return helper(N, K, false); } int helper(int ...
A Country on Wheels【车轮上的国家】
A Country on Wheels As cultural symbols go, the American car is quite young. 作为文化象征的美国汽车还相当年轻. The ...
c++ function和bind
bind 定义在头文件 functional 里 template<typename _Func, typename... _BoundArgs> inline typename _Bin ...
VIM 如何切换buffer
命令 :ls 可查看当前已打开的buffer 命令 :b num 可切换buffer (num为buffer list中的编号) 其它命令: :bn -- buffer列表中下一个 buffer :b ...

java 两个csv文件数据去重