java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）


现在需要快算分析一个2g的csv文件；

基于掌握的知识，使用java按行读取文件，批量导入数据到es，

然后利用es强大的聚合能力分析数据，2个小时搞定！

package com.example.demo;

import com.alibaba.fastjson.JSON;

import com.example.demo.entity.Entity;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.LineIterator;

import org.elasticsearch.action.bulk.BulkRequest;

import org.elasticsearch.action.index.IndexRequest;

import org.elasticsearch.action.index.IndexResponse;

import org.elasticsearch.client.RequestOptions;

import org.elasticsearch.client.RestHighLevelClient;

import org.elasticsearch.common.xcontent.XContentType;

import org.junit.jupiter.api.Test;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.beans.factory.annotation.Qualifier;

import org.springframework.boot.test.context.SpringBootTest;

import java.io.File;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Date;

import java.util.List;

import java.util.Objects;

/**

 * 读取大文件

 * csv格式

 *

 * @author lhb

 * @date 2021/11/11

 * @since 1.0.0

 */

@SpringBootTest

public class ImportTest {

    @Autowired

    @Qualifier("client")

    private RestHighLevelClient restHighLevelClient;

    @Test

    void insert() {

　　　　　//csv文件2G，63W条数据，十多个字段

        String filePath = "D:\\file\\20211111.csv";

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(new File(filePath), "UTF-8");

        } catch (IOException e) {

            e.printStackTrace();

        }

        try {

            while (it.hasNext()) {

                String line = it.nextLine();

                //System.out.println("line = " + line);

                //文件是CSV文件，CSV文件中的每一列是用","隔开的，这样就可以得到每一列的元素

                String[] strArray = line.split(",");

                //有很长的空格，trim一下

                String name = strArray[6].trim();

                String code = strArray[8].trim();

                String num = strArray[11].trim();

                System.out.println(code + "==" + num);

                Entity entity = new Entity();

                entity.setCode(code);

                if (Objects.equals("xxx", code)) {

                    //跳过表头

                    continue;

                }

                entity.setNum(Long.parseLong(num));

                entity.setName(name);

                entity.setCreateTime(new Date());

                String index = "index20211111";

                singleInsert2(index, entity);

            }

        } finally {

            LineIterator.closeQuietly(it);

        }

    }

    @Test

    void batchInsert() {

        String filePath = "D:\\express\\20211111.csv";

        LineIterator it = null;

        try {

            it = FileUtils.lineIterator(new File(filePath), "UTF-8");

        } catch (IOException e) {

            e.printStackTrace();

        }

        try {

            int i = 0;

            List<Entity> entities = new ArrayList<>();

            while (it.hasNext()) {

                String line = it.nextLine();

                //System.out.println("line = " + line);

                String[] strArray = line.split(",");

                String code = strArray[6].trim();

                String name = strArray[8].trim();

                String num = strArray[11].trim();

                System.out.println(code + "==" + num);

                if (Objects.equals("xxx", code)) {

                    //跳过表头

                    continue;

                }

                Entity entity = new Entity();

                entity.setCode(code);

                entity.setName(name);

                try {

                    entity.setNum(Long.parseLong(num));

                } catch (NumberFormatException e) {

                    e.printStackTrace();

                    System.out.println("出错的数据" + code + "==" + num);

                }

                entity.setCreateTime(new Date());

                String index = "index20211111";

                //批量插入

                entities.add(entity);

                i++;

                if (i % 10000 == 0) {

                    System.out.println("i = " + i);

                    try {

                        batchInsert2(index, entities);

                    } catch (IOException e) {

                        e.printStackTrace();

                    }

                    //清空已经处理过的list

                    entities.clear();

                    i = 0;

                }

            }

        } finally {

            LineIterator.closeQuietly(it);

        }

    }

    /**

     * 批量速度杠杠的

     *

     * @param index

     * @param entities

     * @throws IOException

     */

    public void batchInsert2(String index, List<Entity> entities) throws IOException {

        BulkRequest bulkRequest = new BulkRequest(index);

        System.out.println("entities.sz = " + entities.size());

        for (Entity org : entities) {

            IndexRequest request = new IndexRequest();

            request.source(JSON.toJSONString(org), XContentType.JSON);

            bulkRequest.add(request);

        }

        restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);

    }

    /**

     * 数据量大，超级慢

     *

     * @param index

     * @param entity

     */

    public void singleInsert2(String index, Entity entity) {

        IndexRequest request = new IndexRequest(index);

        request.source(JSON.toJSONString(entity), XContentType.JSON);

        try {

            IndexResponse index1 = restHighLevelClient.index(request, RequestOptions.DEFAULT);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

package com.example.demo.entity;

import lombok.Data;

import java.util.Date;

/**

 * @author lhb

 * @date 2021/11/11

 * @since 1.0.0

 */

@Data

public class Entity {

    /**

     * 编码

     */

    private String code;

    /**

     * 名字

     */

    private String name;

    /**

     * 数量

     */

    private Long num;

    private Date createTime;

}

创建索引映射，然后插入数据：

PUT express_to_village20211104

{

  "settings": {

    "number_of_shards": 1,

    "number_of_replicas": 1

  },

  "mappings": {

    "properties": {

      "code": {

        "type": "keyword"

      },

      "name": {

        "type": "keyword"

      },

      "num": {

        "type": "long"

      },

      "createTime": {

        "type": "date"

      }

    }

  }

}

开始分析数据：

GET index20211111/_count

{}

#返回63w数据

{
"count" : 630000,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
}
}

GET index20211111/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "terms": {

          "code": [

            2222,

            1111,

            3333

          ]

        }

      }

    }

  },

  "size": 1,

  "track_total_hits": true,

  "aggs": {

    "per_code": {

      "terms": {

        "field": "code",

        "size": 200

      },

      "aggs": {

        "num": {

          "sum": {

            "field": "num"

          }

        }

      }

    },

    "sum_num": {

      "sum": {

        "field": "num"

      }

    }

  }

}

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）的更多相关文章

java读取 500M 以上文件,java读取大文件
java 读取txt,java读取大文件设置缓存大小BUFFER_SIZE ,Config.tempdatafile是文件地址来源博客http://yijianfengvip.blog.163.c ...
java 读取txt,java读取大文件
java 读取txt,java读取大文件 package com.bbcmart.util; import java.io.File;import java.io.RandomAccessFile;i ...
解决java读取大文件内存溢出问题
1. 传统方式:在内存中读取文件内容读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法: Files.readLines(new ...
Java读取大文件的高效率实现
1.概述本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 ...
java读取大文件超大文件的几种方法
java 读取一个巨大的文本文件既能保证内存不溢出又能保证性能 import java.io.BufferedReader; import java.io.File; import jav ...
java读取大文件
1 多线程 2 java内存映射读取大文件
Java 读取大文件方法
需求:实际开发中读取文本文件的需求还是很多,如读取两个系统之间FTP发送文件,读取后保存到数据库中或日志文件的数据库中保存等. 为了测试首先利用数据库SQL生成大数据文件. 规则是编号|姓名|手机号 ...
java读取大文本文件
原文:http://blog.csdn.net/k21325/article/details/53886160 小文件当然可以直接读取所有,然后放到内存中,但是当文件很大的时候,这个方法就行不通了,内 ...
Java读取各种文件格式内容
所需的jar包哦也不要太记得了,大家可以搜搜,直接上代码: import java.io.BufferedInputStream; import java.io.File; import java.i ...

随机推荐

如何基于Jupyter notebook搭建Spark集群开发环境
摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...
storm卡顿修改
最近的webstorm越来越卡了,有时候甚至会弹出 Out of memory的窗口,提示要设置 xmx的值, 8G内存跑你这小软件还会不够用???要内存?给你,看你还会不会卡成翔! 于是果断给x ...
Python实现九九乘法表
2021年3月-第02阶段-前端基础-HTML+CSS阶段-Day02
HTML5 第二天一.rotate 2d旋转指的是让元素在2维平面内顺时针旋转或者逆时针旋转使用步骤: 给元素添加转换属性 transform 属性值为 rotate(角度) 如 transfor ...
请问：c语言中d=1/3*3.0;与d=1.0/3*3;d=?有什么区别
请问:c语言中d=1/33.0;与d=1.0/33;d=?有什么区别 d=1/33.0; 这时d=0,d=(1/3)3.0,这里1是整形,1/3也是整形,等于0,所以03.0=0 d=1.0/33; ...
ByteCTF2021 double sqli
double sqli easy sqli http://39.105.175.150:30001/?id=1 http://39.105.116.246:30001/?id=1 http://39. ...
初学python-day5 集合
cassandra表中主键的类型
cassandra表中主键的类型及区分? 一.类型及区分二.参考文章一.类型及区分 Cassandra的4种Key Primary Key 主键 Composite Key,Compound Ke ...
Java 是编译型语言还是解释型语言？
Java首先由编译器编译成.class类型的文件,这个是java自己类型的文件.然后在通过虚拟机(JVM)从.class文件中读一行解释执行一行.因此Java是一种半编译半解释的语言,理解这种意思即可 ...
计算机网络之流量控制（停止-等待协议、滑动窗口、后退N帧协议GBN、选择重传协议SR）、滑动窗口、可靠传输机制
文章转自:https://blog.csdn.net/weixin_43914604/article/details/104908762 学习课程:<2019王道考研计算机网络> 学习目的 ...

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）

java读取大文件内容到Elasticsearch分析（手把手教你java处理超大csv文件）的更多相关文章

随机推荐

热门专题