require:

/**

 * before:

 * file A1.csv {1,2,3,4,5}

 * file A2.csv {2,3,9,10,11}

 * file B1.csv {5,12,13,14,15}

 * file B2.csv {16,14,15,4,9,20,30}

 * A1.csv A2.csv A3.csv A4.csv cant not repeat

 *

 * after:

 * file A1.csv {1,4}

 * file A2.csv {2,3,10,11}

 * file B1.csv {12,13}

 * file B2.csv {16,9,20,30}

 */

tangxin@tangxin:~/csvrepeat$ ls

A1.csv  A2.csv  B1.csv  B2.csv

CSVUtilVersion2.java

import lombok.extern.slf4j.Slf4j;

import org.apache.commons.collections.CollectionUtils;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.LineIterator;

import org.springframework.util.StringUtils;

import java.io.*;

import java.lang.reflect.Array;

import java.util.*;

/**

 * before:

 * file A1.csv {1,2,3,4,5}

 * file A2.csv {2,3,9,10,11}

 * file B1.csv {5,12,13,14,15}

 * file B2.csv {16,14,15,4,9,20,30}

 * A1.csv A2.csv A3.csv A4.csv cant not repeat

 *

 * after:

 * file A1.csv {1,4}

 * file A2.csv {2,3,10,11}

 * file B1.csv {12,13}

 * file B2.csv {16,9,20,30}

 */

@Slf4j

public class CSVUtilVersion2 {

    private static final String CSV_PATH = "/home/tangxin/csvrepeat/";

    private static final boolean CREATE_SWITCH = true;

    /**

     * read single column data list

     * @param path

     * @return

     */

    public static List<String> ids(String path) {

        List<String> result = new ArrayList<>();

        File csv = new File(path);  // CSV文件路径

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(csv);

            while (it.hasNext()) {

                String line = it.nextLine();

                if (line.trim().contains("ID")) {

                    continue;

                }

                String[] arr = line.split(",");

                String ID = arr[0];

                ID = ID.replaceAll("\"", "").trim();

                if (!StringUtils.isEmpty(ID)) {

                    result.add(ID);

                }

            }

        } catch (Exception e) {

            log.error("读取ID csv文件失败:{}", e.getMessage());

        } finally {

            LineIterator.closeQuietly(it);

        }

        return result;

    }

    /**

     * from src delete oth

     * @param src

     * @param oth

     * @return

     */

    public static List removeAll(List src, List oth) {

        LinkedList result = new LinkedList(src);

        HashSet othHash = new HashSet(oth);

        Iterator iter = result.iterator();

        while (iter.hasNext()) {

            if (othHash.contains(iter.next())) {

                iter.remove();

            }

        }

        return result;

    }

    /**

     * -Xms1g -Xmx1g -XX:PermSize=128m -XX:SurvivorRatio=2 -XX:+UseParallelGC

     * @param args

     * @throws Exception

     */

    public static void main(String[] args) throws Exception {

        //∑=1+2+3+...+(n-1) group

        LinkedList<String> fileList = new LinkedList<>();

        fileList.add("A1.csv");

        fileList.add("A2.csv");

        fileList.add("B1.csv");

        fileList.add("B2.csv");

//        fileList.add("C1.csv");

        DescartesRepeat(fileList);

        ded(fileList);

    }

    private static void DescartesRepeat(LinkedList<String> fileList) {

        Set<String> repeatList = new HashSet<>();

        Set<String> groupSet = new HashSet<>();

        Set<String> goONList = new HashSet<>();

        //A1->A2,B1,B2

        for (int i = 0; i < fileList.size(); i++) {

            String itemI = fileList.get(i);

            for (int j = 0; j < fileList.size(); j++) {

                String itemJ = fileList.get(j);

                if (!itemI.equals(itemJ)) {

                    String groupR1 = itemI + "->" + itemJ;

                    String groupR2 = itemJ + "->" + itemI;

                    if (groupSet.contains(groupR1) || groupSet.contains(groupR2)){

                        continue;

                    }

                    groupSet.add(groupR1);

                    String repeatT = repeat(CSV_PATH + itemI, CSV_PATH + itemJ);

                    if(!StringUtils.isEmpty(repeatT)){

                        repeatList.add(repeatT);

                        //System.out.println(groupR1+"->"+repeatT);

                    }

                }

            }

        }

        if (CollectionUtils.isNotEmpty(repeatList)) {

//            System.out.println(repeatList);

            for (String repeatItem : repeatList) {

                Iterator<String> iterator = fileList.iterator();

                while (iterator.hasNext()) {

                    String oldItem = iterator.next();

                    String oldS = oldItem.replace(".csv", "").replace("-new","");

                    String repeatS = repeatItem.replace(".csv","").replace("-new","");

                    if (repeatS.contains(oldS)) {

                        iterator.remove();

                        goONList.add(repeatItem);

                    }

                }

            }

            fileList.addAll(goONList);

            System.out.println(fileList);

            DescartesRepeat(fileList);

        }

    }

    public static void ded(List<String> args) {

        //保证指定csv列表每组都不能有重复数据

        for (int i = 0; i < args.size(); i++) {

//            if(i>0){

//                continue;

//            }

            String source = CSV_PATH + args.get(i);

            for (int j = 0; j < args.size(); j++) {

                if (i == j) {

                    continue;

                }

                String target = CSV_PATH + args.get(j);

                intersection(source, target);

            }

        }

    }

    public static void intersection(String sourcePath, String targetPath) {

        List<String> ids1 = ids(sourcePath);

        List<String> ids2 = ids(targetPath);

        List<String> inter = (List<String>) CollectionUtils.intersection(ids1, ids2);

        System.out.println(sourcePath + "和" + targetPath + "的重复数据大小" + inter.size());

    }

    public static String repeat(String source, String target){

        //cdd fund xyd

        List<String> ids1 = ids(source);

        List<String> ids2 = ids(target);

//        System.out.println(source + "集合大小" + ids1.size());

//        System.out.println(target + "集合大小" + ids2.size());

        List<String> inter = (List<String>) CollectionUtils.intersection(ids1, ids2);

//        System.out.println("去重数据大小:" + inter.size());

        if (inter != null && inter.size() > 0) {

            if (ids1.size() > ids2.size()) {

                return repeatInner(source, ids1, inter);

            } else if (ids2.size() > ids1.size()) {

                return repeatInner(target, ids2, inter);

            } else {

                return repeatInner(source, ids1, inter);

            }

        }

        return "";

    }

    private static String repeatInner(String source, List<String> ids, List<String> inter) {

        String newPath = source.replace(".csv", "-new.csv");

        List<String> ids1new = removeAll(ids, inter);

        createCSV(ids1new, newPath);

        return newPath.replace(CSV_PATH,"");

    }

    /**

     * 创建CSV文件

     */

    public static void createCSV(List<String> list, String fileName) {

        if(!CREATE_SWITCH){

//            System.out.println("创建csv开关关闭");

            return;

        }else{

//            System.out.println("创建csv开关开启");

        }

        // 表格头

        Object[] head = {"ID"};

        List<Object> headList = Arrays.asList(head);

        //数据

        List<List<Object>> dataList = new ArrayList<>();

        List<Object> rowList = null;

        for (int i = 0; i < list.size(); i++) {

            rowList = new ArrayList<>();

            rowList.add(list.get(i));

            dataList.add(rowList);

        }

        File csvFile;

        BufferedWriter csvWtriter = null;

        try {

            csvFile = new File(fileName);

            File parent = csvFile.getParentFile();

            if (parent != null && !parent.exists()) {

                parent.mkdirs();

            }

            csvFile.createNewFile();

            // GB2312使正确读取分隔符","

            csvWtriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(csvFile), "GB2312"), 1024);

            // 写入文件头部

            writeRow(headList, csvWtriter);

            // 写入文件内容

            for (List<Object> row : dataList) {

                writeRow(row, csvWtriter);

            }

            csvWtriter.flush();

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            try {

                csvWtriter.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    /**

     * 写一行数据

     *

     * @param row       数据列表

     * @param csvWriter

     * @throws IOException

     */

    private static void writeRow(List<Object> row, BufferedWriter csvWriter) throws IOException {

        for (Object data : row) {

            StringBuffer sb = new StringBuffer();

            String rowStr = sb.append("\"").append(data).append("\",").toString();

            csvWriter.write(rowStr);

        }

        csvWriter.newLine();

    }

}

tangxin@tangxin:~/csvrepeat$ ls

A1.csv  A1-new.csv  A1-new-new.csv  A2.csv  A2-new.csv  B1.csv  B2.csv  B2-new.csv  B2-new-new.csv

java csv list cant not repeat的更多相关文章

Java CSV操作(导出和导入)
Java CSV操作(导出和导入) CSV是逗号分隔文件(Comma Separated Values)的首字母英文缩写,是一种用来存储数据的纯文本格式,通常用于电子表格或数据库软件.在 CSV文件 ...
java csv - 读写及其操作.
今天帮同学处理数据, 主要是从1w多条记录中随机获取8k条, 然后再从8k条记录中随机获取2k条记录. 最后将2k条记录中随机分成10组,使得每组的记录都不重复. 下面将我的代码都贴上来, 好以后处理 ...
java csv 文件操作类
一个CSV文件操作类,功能比较齐全: package tool; import java.io.BufferedReader; import java.io.BufferedWriter; impor ...
【Java】Java CSV操作代码
CSV是逗号分隔文件(Comma Separated Values)的首字母英文缩写,是一种用来存储数据的纯文本格式,通常用于电子表格或数据库软件.在 CSV文件中,数据“栏”以逗号分隔,可允许程序通 ...
【Java/Csv/Regex】用正则表达式去劈分带引号的csv文件行，得到想要的行数据
csv文件是用引号分隔的文本行,为了完善内容人们又用引号把每个区块的内容又包了起来,于是形成下面的文件: "1","2","3"," ...
【Java/csv】一个CSV文件解析类(转载)
/*下文写得不错,值得学习**/ import java.io.BufferedReader; import java.io.FileReader; import java.util.ArrayLis ...
Java csv
CsvWriter csvWriter = new CsvWriter("data2019052803.csv", ',', Charset.forName("UTF-8 ...
java csv文件写入
List<String> list_code = null; 方案1 控制字符集: BufferedWriter bw=new BufferedWriter(new OutputStrea ...
统一的Json组件和csv下载组件
java-web-common java-web-common Json组件目标和用途规范Json接口格式 Controller中一律返回Java object,组件将自动转换数据格式,满足Jso ...

随机推荐

Angularjs基础(二)
AngularJS 表达式 AngularJS 表达式写在双大括号内:{{expression}} AngularJS 表达式把数据绑定到HTML,这与ng-bind 指令有异曲同工之妙 Angula ...
springboot中有用的几个有用aware以及bean操作和数据源操作
本文参考了: https://blog.csdn.net/derrantcm/article/details/76652951 https://blog.csdn.net/derrantcm/arti ...
jsonp跨域请求360数据乱码解决办法
<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8&quo ...
GET POST 请求的详细区别
前言: 作为最常见的请求方式在面试很有可能会被问到所以在这里做一个简单总结 GET get方法向页面请求发送参数地址和参数之间用?进行分割例如 localhost:80/download.ht ...
用友二次开发之科脉TOT3凭证接口
按客户的要求,根据科脉导出的数据,开发一个工具,将凭证导入T3 这个科目导出的凭证格式. 选择账套登陆,你没看错,这个是我开发的登陆界面. 选择接口文件. 软件自动进数据分类,你可以看到数据了.但只是 ...
mysql 5.7 配置初始化及修改 ROOT 用户密码
1.修改配置文件 my.ini 放在 mysql\bin [mysqld] basedir=C:\Mysql datadir=C:\Mysql\data port=3306 # server_id = ...
STM32（3）——外部中断的使用
1 .简介 ARM Coetex-M3内核共支持256个中断,其中16个内部中断,240个外部中断和可编程的256级中断优先级的设置.STM32目前支持的中断共84个(16个内部+68个外部),还有1 ...
20190105-打印字母C,H,N,口等图像和杨辉三角
1. 打印字母C ****** * * * * ****** def print_c(n): print('*' * n) for i in range(n): print('* ') print(' ...
centos编译安装rabbitmq
安装环境 [root@VM_12_50_centos rabbitmq]# uname -a Linux VM_12_50_centos 3.10.0-514.21.1.el7.x86_64 #1 S ...
PHP教程专题资源免费下载地址收藏
PHP教程专题资源免费下载地址收藏 PHP,即Hypertext Preprocessor,是一种被广泛应用的开源通用脚本语言,尤其适用于 Web 开发并可嵌入 HTML 中去.它的语法利用了 C. ...

java csv list cant not repeat

require:

CSVUtilVersion2.java

java csv list cant not repeat的更多相关文章

随机推荐

热门专题