Flink--输入数据集Data Sources

flink在批处理中常见的source

flink在批处理中常见的source主要有两大类。

1.基于本地集合的source（Collection-based-source）

2.基于文件的source（File-based-source）

在flink最常见的创建DataSet方式有三种。

1.使用env.fromElements()，这种方式也支持Tuple，自定义对象等复合形式。

2.使用env.fromCollection(),这种方式支持多种Collection的具体类型

3.使用env.generateSequence()方法创建基于Sequence的DataSet

基于本地集合的

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment, _}

import scala.collection.immutable.{Queue, Stack}

import scala.collection.mutable

import scala.collection.mutable.{ArrayBuffer, ListBuffer}

object DataSource001 {

  def main(args: Array[String]): Unit = {

    val env = ExecutionEnvironment.getExecutionEnvironment

    //0.用element创建DataSet(fromElements)

    val ds0: DataSet[String] = env.fromElements("spark", "flink")

    ds0.print()

    //1.用Tuple创建DataSet(fromElements)

    val ds1: DataSet[(Int, String)] = env.fromElements((1, "spark"), (2, "flink"))

    ds1.print()

    //2.用Array创建DataSet

    val ds2: DataSet[String] = env.fromCollection(Array("spark", "flink"))

    ds2.print()

    //3.用ArrayBuffer创建DataSet

    val ds3: DataSet[String] = env.fromCollection(ArrayBuffer("spark", "flink"))

    ds3.print()

    //4.用List创建DataSet

    val ds4: DataSet[String] = env.fromCollection(List("spark", "flink"))

    ds4.print()

    //5.用List创建DataSet

    val ds5: DataSet[String] = env.fromCollection(ListBuffer("spark", "flink"))

    ds5.print()

    //6.用Vector创建DataSet

    val ds6: DataSet[String] = env.fromCollection(Vector("spark", "flink"))

    ds6.print()

    //7.用Queue创建DataSet

    val ds7: DataSet[String] = env.fromCollection(Queue("spark", "flink"))

    ds7.print()

    //8.用Stack创建DataSet

    val ds8: DataSet[String] = env.fromCollection(Stack("spark", "flink"))

    ds8.print()

    //9.用Stream创建DataSet（Stream相当于lazy List，避免在中间过程中生成不必要的集合）

    val ds9: DataSet[String] = env.fromCollection(Stream("spark", "flink"))

    ds9.print()

    //10.用Seq创建DataSet

    val ds10: DataSet[String] = env.fromCollection(Seq("spark", "flink"))

    ds10.print()

    //11.用Set创建DataSet

    val ds11: DataSet[String] = env.fromCollection(Set("spark", "flink"))

    ds11.print()

    //12.用Iterable创建DataSet

    val ds12: DataSet[String] = env.fromCollection(Iterable("spark", "flink"))

    ds12.print()

    //13.用ArraySeq创建DataSet

    val ds13: DataSet[String] = env.fromCollection(mutable.ArraySeq("spark", "flink"))

    ds13.print()

    //14.用ArrayStack创建DataSet

    val ds14: DataSet[String] = env.fromCollection(mutable.ArrayStack("spark", "flink"))

    ds14.print()

    //15.用Map创建DataSet

    val ds15: DataSet[(Int, String)] = env.fromCollection(Map(1 -> "spark", 2 -> "flink"))

    ds15.print()

    //16.用Range创建DataSet

    val ds16: DataSet[Int] = env.fromCollection(Range(1, 9))

    ds16.print()

    //17.用fromElements创建DataSet

    val ds17: DataSet[Long] =  env.generateSequence(1,9)

    ds17.print()

  }

}

基于文件的source（File-based-source）

（1）：读取本地文件

//TODO 使用readTextFile读取本地文件

//TODO 初始化环境

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

//TODO 加载数据

val datas: DataSet[String] = environment.readTextFile("data.txt")

//TODO 指定数据的转化

val flatmap_data: DataSet[String] = datas.flatMap(line => line.split("\\W+"))

val tuple_data: DataSet[(String, Int)] = flatmap_data.map(line => (line , 1))

val groupData: GroupedDataSet[(String, Int)] = tuple_data.groupBy(line => line._1)

val result: DataSet[(String, Int)] = groupData.reduce((x, y) => (x._1 , x._2+y._2))

result.print()

（2）：读取hdfs数据

//TODO readTextFile读取hdfs数据

//todo 初始化环境

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

//TODO 加载数据

val file: DataSet[String] = environment.readTextFile("hdfs://hadoop01:9000/README.txt")

val flatData: DataSet[String] = file.flatMap(line => line.split("\\W+"))

val map_data: DataSet[(String, Int)] = flatData.map(line => (line , 1))

val groupdata: GroupedDataSet[(String, Int)] = map_data.groupBy(line => line._1)

val result_data: DataSet[(String, Int)] = groupdata.reduce((x, y) => (x._1 , x._2+y._2))

result_data.print()

（3）：读取CSV数据

//TODO 读取csv数据

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

val path = "data2.csv"

val ds3 = environment.readCsvFile[(String, String, String, String,String,Int,Int,Int)](

  filePath = path,

  lineDelimiter = "\n",

  fieldDelimiter = ",",

  lenient = false,

  ignoreFirstLine = true,

  includedFields = Array(0, 1, 2, 3 , 4 , 5 , 6 , 7))

val first = ds3.groupBy(0 , 1).first(50)

first.print()

基于文件的source（遍历目录）

flink支持对一个文件目录内的所有文件，包括所有子目录中的所有文件的遍历访问方式。

对于从文件中读取数据，当读取的数个文件夹的时候，嵌套的文件默认是不会被读取的，只会读取第一个文件，其他的都会被忽略。所以我们需要使用recursive.file.enumeration进行递归读取

val env = ExecutionEnvironment.getExecutionEnvironment

val parameters = new Configuration

// recursive.file.enumeration 开启递归

parameters.setBoolean("recursive.file.enumeration", true)

val ds1 = env.readTextFile("test").withParameters(parameters)

ds1.print()

读取压缩文件

对于以下压缩类型，不需要指定任何额外的inputformat方法，flink可以自动识别并且解压。但是，压缩文件可能不会并行读取，可能是顺序读取的，这样可能会影响作业的可伸缩性。

//TODO  读取压缩文件

val env = ExecutionEnvironment.getExecutionEnvironment

val file = env.readTextFile("test/data1/zookeeper.out.gz").print()

tar -czvf ***.tar.gz

Flink--输入数据集Data Sources的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中. jdbc.scala重要API介绍: /** * Save this RDD ...
Spark SQL External Data Sources JDBC简易实现
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sq ...
JasperReports教程：Report Data Sources
原文地址:http://www.tutorialspoint.com/jasper_reports/jasper_report_data_sources.htm Datasources是一个结构化的数 ...
解决IDEA Springboot项目sql文件打开提示No data sources are configured to run this SQL and provide advanced的问题
Idea2018的Springboot项目,如果里面有.sql文件,打开后,会提示"No data sources are configured to run this SQL and pr ...
警告： No data sources are configured to run this SQL and provide advanced code assistance. Disable this inspection via problem menu (Alt+Enter). more... (Ctrl+F1) SQL dialect is not configured. Postgr
python3出现问题: 警告: No data sources are configured to run this SQL and provide advanced code assistance ...
Weblogic多数据源（Multi Data Sources）应用实践
原创 2012年03月29日 10:55:28 标签: weblogic / 数据库 / 负载均衡 / 数据中心 / jdbc / 应用服务器大型系统在进行数据库部署时,常常会分为主数据应用中心 ...
Windows系统自带的ODBC Data Sources的配置及使用
一直不明白ODBC是个什么东东,虽然一次次碰到,却从没用过,看Wikipedia上的描述,可以访问各种数据库.Excel.CSV等,可以剥离数据库和操作系统依赖,简直神乎其神.不过这样的描述太抽象概括 ...
pytorch 读数据接口制作数据集 data.dataset
[吐槽] 啊,代码,你这个大猪蹄子自己写了cifar10的数据接口,跟官方接口load的数据一样, 沾沾自喜,以为自己会写数据接口了几天之后,突然想,自己的代码为啥有点慢呢,这数据集不大啊用了官 ...

随机推荐

MySQL 索引原理相关文章
CSDN的整理: http://bbs.csdn.net/topics/392265880 引擎在磁盘中存储顺序的图解: http://blog.csdn.net/php_lzr/article/de ...
thinkphp中的内置操作数据库与mysql中的函数汇总
8.4.4 Model类getModelName() 获取当前Model的名称getTableName() 获取当前Model的数据表名称switchModel(type,vars=array()) ...
[PHP]flock文件IO锁的使用
一.flock概述 bool flock ( resource $handle , int $operation [, int &$wouldblock ] ) 参数 handle 文 ...
Spring 5 WebFlux
作者: 一字马胡转载标志 [2017-11-26] 更新日志日期更新内容备注 2017-11-26 新建文章 Spring 5 WebFlux demo Reactor Spring 5的一大 ...
从外部设置传入Go变量
前提:必须在build/run时指定 -ldflags="-X main.a=2.0 -X main.b=1" , 且a,b必须是string的变量,不能是常量, 不能是struc ...
如何取出DataTable中某几个字段（列名）组合新表
在偶不知道第二种方法之前.偶费了好大劲才把这个问题解决.下面把这两个方法都帖出来,请大家批评指正.或有更好的办法也帖出来,一起交流第一种方法: string sql = &qu ...
大数据python词频统计之hdfs分发-cacheArchive
-cacheArchive也是从hdfs上进分发,但是分发文件是一个压缩包,压缩包内可能会包含多层目录多个文件 1.The_Man_of_Property.txt文件如下(将其上传至hdfs上) ha ...
android高级页面效果集锦
程序员界有个神奇的网站,那就是github,这个网站集合了一大批优秀的开源框架,极大地节省了开发者开发的时间,在这里我进行了一下整理,这样可以使我们在使用到时快速的查找到,希望对大家有所帮助! 一个强 ...
PID控制器开发笔记之四：梯形积分PID控制器的实现
从微积分的基本原理看,积分的实现是在无限细分的情况下进行的矩形加和计算.但是在离散状态下,时间间隔已经足够大,矩形积分在某些时候显得精度要低了一些,于是梯形积分被提出来以提升积分精度. 1.梯形积分基 ...
ssh 登录报错 packet_write_wait: Connection to x.x.x.x port 22: Broken pipe
问题更新个人博客文章时遇到:Error: packet_write_wait: Connection to 192.30.253.113 port 22: Broken pipe packet_wr ...