使用SparkSQL实现多线程分页查询并写入文件

一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在刚才的Sql之前增加一句 create table tableName as SELECT ROW_NUMBER() OVER() as id,* from (拼接的SQL) 就可创建一张带自增序列的，业务需要字段的几张宽表的关联集合,方便下来分页。

for(int i=0;i<ColumnNames.size();i++){

			SiCustomerLabelInfoModel Column = ColumnNames.get(i);

			List<CiMdaSysTable> ciMdaSysTable = ciCustomerJDao.getMdaSysTableName(Column.getColumnName());

			String alias = "t_" + ciMdaSysTable.get(0).getTableId();

			String aliasColumn = alias + "." + Column.getColumnName();

			String aliasTable = ciMdaSysTable.get(0).getTableName() +" "+ alias;

			if(mainTable == null){

				mainTable = aliasTable;

			}

			if(ciMdaSysTable.get(0).getUpdateCycle() == 1){

				mainTable = aliasTable;

			}

			ColumnNameList.add(aliasColumn);

			tableNameList.add(aliasTable);

		}

		String[] keyAlias = mainTable.split(" ");

		String mainKeyColumn = keyAlias[1] + "." + keyColumn;

		selectResult.append("select ").append(mainKeyColumn);

		if(StringUtil.isNotEmpty(mainTable)){

			fromTableName.append(" from ").append(mainTable);

		}

		Iterator<String> table = tableNameList.iterator();

		while(table.hasNext()){

			String tableName = table.next();

			String[] tableAlias = tableName.split(" ");

			String[] mainAlias = mainTable.split(" ");

			String alias = tableAlias[1];

			String mAlias = mainAlias[1];

			if(!mainTable.equals(tableName)){

			fromTableName.append(" left join ").append(tableName).append(" on ").append(mAlias).append(".").append(keyColumn)

			.append(" = ").append(alias).append(".").append(keyColumn).append(" ");

			}

		}

　　　　　　　　　　fromTableName.append(" ) a");
　　　　　　　　　　Iterator<String> column = ColumnNameList.iterator();
　　　　　　　　　　while(column.hasNext()){
　　　　　　　　　　String columnName = column.next();
　　　　　　　　　　selectResult.append(",").append(columnName);
　　　　　　　　　　}
　　　　　　　　　　selectResult.append(fromTableName);
　　　　　　　　　　Createtable.append("create table ").append(cocDwName).append(" as SELECT ROW_NUMBER() OVER() as id,* from").append(" (").append(selectResult);

二、由于业务场景，需要将4000万条数据最终写入10个文件，这里通过声明线程池pool,使用多线程的方法执行，有些人会担心那不会数据错乱吗，不会。因为后面要用分页sql，根据循环传入的 i 的值进行处理。

	private ExecutorService pools = Executors.newFixedThreadPool(15);

if(result = true){

			String queryCount = "select count(*) from "+cocDwName;

			int count = ciCustomerJDao.getDwTotolCount(queryCount);

			log.info(""+keyColumn);

				try {

					for(int i=0;i<10;i++){

						CreateDwFileThread jd = new CreateDwFileThread(jndiName,keyColumn,num,cocDwName,count,sysId,i);

						Future fu = pools.submit(jd);

						fus.add(fu);

					}

					long start = System.currentTimeMillis();

					while (true) {

						boolean done = true;

						for (Future f : fus) {

							if (!f.isDone()) {

								done = false;

								break;

							}

						}

						if (!done) {

							try {

								Thread.sleep(1000 * 10);

							} catch (InterruptedException e) {

								log.error("sleep error", e);

								e.printStackTrace();

							}

							continue;

						} else {

							break;

						}

					}

					log.debug("wait tasks finish cost:" + (System.currentTimeMillis() - start));

					}catch(Exception e){

						result = false;

						log.error("error", e);

					}

				}

三、根据第一步创建的表中的自增序列ID进行分页，由于要多线程并发执行，所以不能使用传统分页的begin与end，根据步骤二中传入的 i (这里参数为partNumber)进行处理，根据循环，每条线程执行的开始数据必定以上条数据结束的条数为开始，每次将查询出来的结果集通过list2File写入文件。这里还有个while循环，因为分成10份还是有400万条数据啊，还是觉得大，于是就又分成了10次~就是说每次查询出40万条写入文件，直到新加入400万条flag返回true退出循环。

	while(flag == false){

			pager.setPageSize(bufferedRowSize);

			pager.setPageNum(pageNumber);

			int begin = (pager.getPageNum() - 1) * pager.getPageSize()+createFileCount*partNumber;

			int end = begin + pager.getPageSize();

			if(end >= createFileCount*(partNumber+1)){

				end = createFileCount*(partNumber+1);

			}

			StringBuffer sql = new StringBuffer() ;

			sql.append(" select ").append(columns).append(" from ").append(cocDwName).append(" where id > ").append(begin).append(" and ").append(" id < ").append(end+1);

			JdbcBaseDao jdbcBaseDao = (JdbcBaseDao) SystemServiceLocator.getInstance().getService("jdbcBaseDao");

			String BackjndiName = PropertiesUtils.getProperties("JNDI_CI_BACK");

			final String file = fileLocalPath + File.separator + dwName+ "_" + String.valueOf(partNumber)+ ".csv";

			Log.info("---------sql;:"+ sql + "-------fileName:"+file);

List<Map<String, Object>> dataList = jdbcBaseDao.getBackSimpleJdbcTemplate().queryForList(sql.toString());

　　　　　　　　　　　　　　if (dataList.size() > 0) {

　　　　　　　　　　　　　　list2File(dataList, title, columns, file, encode, null, null);

　　　　　　　　　　　　　　pageNumber++;

　　　　　　　　　　　　　　}

　　　　　　　　　　　　　　if(end == createFileCount * partNumber + createFileCount){

　　　　　　　　　　　　　　flag = true;

　　　　　　　　　　　　　　}

有人会问你为啥不用ResultSet 直接放入400万条数据为啥还要分开每40万条数据再分页写~ 我想说我就是想这么干~ 啊哈哈。。。不过程序中貌似是有问题的没有考虑到的情景，所以还在推敲。。(Resultset 查出来400万条不还是放在内存中，还是有可能内存溢出的，分页写大不了通过thriftserver多连接几次spark嘛~ 不过代码写的很烂，还在提高哈~）

使用SparkSQL实现多线程分页查询并写入文件的更多相关文章

mysql查询结果写入文件
注:转自csdn zuyi532 方法1: shell> mysql -uroot -proot -h localhost xxx库 -e " select * from xxx表 l ...
Linux把查询结果写入到文本
在Linux命令模式下,可以将查询结果写入文件.大概有两种方式,增量写入和覆盖写入. 增量写入: #iostat -m >> /tmp/iostat.txt 覆盖写入: #iostat - ...
【CoreData】分页查询和模糊查询
在CoreData实际使用中,分页查询和模糊查询是必不可少的,接下来演示一下: 首先 // 1.创建模型文件 (相当于一个数据库里的表) // New File ———— CoreData ———— ...
Mybatis包分页查询java公共类
Mybatis包分页查询java公共类分页----对于数据量非常大的查询中.是不可缺少的. mybatis底层的分页sql语句因为须要我们自己去手动写.而实现分页显示的时候我们须要依据分页查询条 ...
【MySQL】分页查询实例讲解
MySQL分页查询实例讲解 1. 前言本文描述了团队在工作中遇到的一个MySQL分页查询问题,顺带讲解相关知识点,为后来者鉴.本文的重点不是"怎样"优化表结构和SQL语句,而是探 ...
oracle 12c 新特性之（相同字段上的多重索引、ddl 日志、限制PGA的大小、分页查询）
1. 相同字段上的多重索引在Oracle 12c R1之前,一个字段是无法以任何形式拥有多个索引的.或许有人会想知道为什么通常一个字段需要有多重索引,事实上需要多重索引的字段或字段集合是很多的. ...
JAVAEE——BOS物流项目04：学习计划、datagrid、分页查询、批量删除、修改功能
1 学习计划 1.datagrid使用方法(重要) n 将静态HTML渲染为datagrid样式 n 发送ajax请求获取json数据创建datagrid n 使用easyUI提供的API创建data ...
【1】MySQL大数据量分页查询方法及其优化
---方法1: 直接使用数据库提供的SQL语句---语句样式: MySQL中,可用如下方法: SELECT * FROM 表名称 LIMIT M,N---适应场景: 适用于数据量较少的情况(元组百/千 ...
mysql分库分页查询
Mysql海量数据分表分库如何列表分页? 1.现在使用ElasticSearch了.基于Lucene的解决方案 2.必须将mysql里的数据写入到类似hbase这样的分布式数据库,查询快.但分页.查询 ...

随机推荐

leetcode 117 Populating Next Right Pointers in Each Node II ----- java
Follow up for problem "Populating Next Right Pointers in Each Node". What if the given tre ...
机器翻译 2010年NOIP全国联赛提高组
题目描述 Description 小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章. 这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换.对于每个英 ...
FileReader/FileWriter复制文件
public class Test{ /*FileReader/FileWriter读写乱码,待处理*/ public static void main(String[] args) throws I ...
C# typeof()实例详解
typeof(C# 参考) 用于获取类型的 System.Type 对象.typeof 表达式采用以下形式: System.Type type = typeof(int); 备注若要获取表达式的运 ...
Android 初阶自定义 View 字符头像
自己很少做自定义 View ,只有最开始的时候跟着郭神写了一个小 Demo ,后来随着见识的越来越多,特别是在开源社区看到很多优秀的漂亮的控件,都是羡慕的要死,但是拉下来的代码还是看不明白,而且当时因 ...
Daas
联想到这些年遇到的各种客户使用桌面虚拟化的场景,深有感触.桌面虚拟化技术并不一定适合所有的用户和场景,也不仅仅只是技术方面的问题.加强安全的方法有千万种,为何此客户情守桌面虚拟化呢?某客户已经规模化实 ...
Q3: Linked List Cycle II
问题描述 Given a linked list, return the node where the cycle begins. If there is no cycle, return null. ...
OpenJudge计算概论-中位数
/*============================================================== 中位数总时间限制: 2000ms 内存限制: 65536kB 描述 ...
The repository for high quality TypeScript type definitions
Best practices This is a guide to the best practices to follow when creating typing files. There are ...
matlab批量灰色预测
没事玩了一下matlab 发现现在网上的代码都是一组数据预测所以我就写个批量数据的预测顺便学习下matlab ----------------------------------我是快乐的分割线- ...

使用SparkSQL实现多线程分页查询并写入文件

使用SparkSQL实现多线程分页查询并写入文件的更多相关文章

随机推荐

热门专题