Flink--输入数据集Data Sources

flink在批处理中常见的source

flink在批处理中常见的source主要有两大类。

1.基于本地集合的source（Collection-based-source）

2.基于文件的source（File-based-source）

在flink最常见的创建DataSet方式有三种。

1.使用env.fromElements()，这种方式也支持Tuple，自定义对象等复合形式。

2.使用env.fromCollection(),这种方式支持多种Collection的具体类型

3.使用env.generateSequence()方法创建基于Sequence的DataSet

基于本地集合的

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment, _}

import scala.collection.immutable.{Queue, Stack}

import scala.collection.mutable

import scala.collection.mutable.{ArrayBuffer, ListBuffer}

object DataSource001 {

  def main(args: Array[String]): Unit = {

    val env = ExecutionEnvironment.getExecutionEnvironment

    //0.用element创建DataSet(fromElements)

    val ds0: DataSet[String] = env.fromElements("spark", "flink")

    ds0.print()

    //1.用Tuple创建DataSet(fromElements)

    val ds1: DataSet[(Int, String)] = env.fromElements((1, "spark"), (2, "flink"))

    ds1.print()

    //2.用Array创建DataSet

    val ds2: DataSet[String] = env.fromCollection(Array("spark", "flink"))

    ds2.print()

    //3.用ArrayBuffer创建DataSet

    val ds3: DataSet[String] = env.fromCollection(ArrayBuffer("spark", "flink"))

    ds3.print()

    //4.用List创建DataSet

    val ds4: DataSet[String] = env.fromCollection(List("spark", "flink"))

    ds4.print()

    //5.用List创建DataSet

    val ds5: DataSet[String] = env.fromCollection(ListBuffer("spark", "flink"))

    ds5.print()

    //6.用Vector创建DataSet

    val ds6: DataSet[String] = env.fromCollection(Vector("spark", "flink"))

    ds6.print()

    //7.用Queue创建DataSet

    val ds7: DataSet[String] = env.fromCollection(Queue("spark", "flink"))

    ds7.print()

    //8.用Stack创建DataSet

    val ds8: DataSet[String] = env.fromCollection(Stack("spark", "flink"))

    ds8.print()

    //9.用Stream创建DataSet（Stream相当于lazy List，避免在中间过程中生成不必要的集合）

    val ds9: DataSet[String] = env.fromCollection(Stream("spark", "flink"))

    ds9.print()

    //10.用Seq创建DataSet

    val ds10: DataSet[String] = env.fromCollection(Seq("spark", "flink"))

    ds10.print()

    //11.用Set创建DataSet

    val ds11: DataSet[String] = env.fromCollection(Set("spark", "flink"))

    ds11.print()

    //12.用Iterable创建DataSet

    val ds12: DataSet[String] = env.fromCollection(Iterable("spark", "flink"))

    ds12.print()

    //13.用ArraySeq创建DataSet

    val ds13: DataSet[String] = env.fromCollection(mutable.ArraySeq("spark", "flink"))

    ds13.print()

    //14.用ArrayStack创建DataSet

    val ds14: DataSet[String] = env.fromCollection(mutable.ArrayStack("spark", "flink"))

    ds14.print()

    //15.用Map创建DataSet

    val ds15: DataSet[(Int, String)] = env.fromCollection(Map(1 -> "spark", 2 -> "flink"))

    ds15.print()

    //16.用Range创建DataSet

    val ds16: DataSet[Int] = env.fromCollection(Range(1, 9))

    ds16.print()

    //17.用fromElements创建DataSet

    val ds17: DataSet[Long] =  env.generateSequence(1,9)

    ds17.print()

  }

}

基于文件的source（File-based-source）

（1）：读取本地文件

//TODO 使用readTextFile读取本地文件

//TODO 初始化环境

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

//TODO 加载数据

val datas: DataSet[String] = environment.readTextFile("data.txt")

//TODO 指定数据的转化

val flatmap_data: DataSet[String] = datas.flatMap(line => line.split("\\W+"))

val tuple_data: DataSet[(String, Int)] = flatmap_data.map(line => (line , 1))

val groupData: GroupedDataSet[(String, Int)] = tuple_data.groupBy(line => line._1)

val result: DataSet[(String, Int)] = groupData.reduce((x, y) => (x._1 , x._2+y._2))

result.print()

（2）：读取hdfs数据

//TODO readTextFile读取hdfs数据

//todo 初始化环境

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

//TODO 加载数据

val file: DataSet[String] = environment.readTextFile("hdfs://hadoop01:9000/README.txt")

val flatData: DataSet[String] = file.flatMap(line => line.split("\\W+"))

val map_data: DataSet[(String, Int)] = flatData.map(line => (line , 1))

val groupdata: GroupedDataSet[(String, Int)] = map_data.groupBy(line => line._1)

val result_data: DataSet[(String, Int)] = groupdata.reduce((x, y) => (x._1 , x._2+y._2))

result_data.print()

（3）：读取CSV数据

//TODO 读取csv数据

val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

val path = "data2.csv"

val ds3 = environment.readCsvFile[(String, String, String, String,String,Int,Int,Int)](

  filePath = path,

  lineDelimiter = "\n",

  fieldDelimiter = ",",

  lenient = false,

  ignoreFirstLine = true,

  includedFields = Array(0, 1, 2, 3 , 4 , 5 , 6 , 7))

val first = ds3.groupBy(0 , 1).first(50)

first.print()

基于文件的source（遍历目录）

flink支持对一个文件目录内的所有文件，包括所有子目录中的所有文件的遍历访问方式。

对于从文件中读取数据，当读取的数个文件夹的时候，嵌套的文件默认是不会被读取的，只会读取第一个文件，其他的都会被忽略。所以我们需要使用recursive.file.enumeration进行递归读取

val env = ExecutionEnvironment.getExecutionEnvironment

val parameters = new Configuration

// recursive.file.enumeration 开启递归

parameters.setBoolean("recursive.file.enumeration", true)

val ds1 = env.readTextFile("test").withParameters(parameters)

ds1.print()

读取压缩文件

对于以下压缩类型，不需要指定任何额外的inputformat方法，flink可以自动识别并且解压。但是，压缩文件可能不会并行读取，可能是顺序读取的，这样可能会影响作业的可伸缩性。

//TODO  读取压缩文件

val env = ExecutionEnvironment.getExecutionEnvironment

val file = env.readTextFile("test/data1/zookeeper.out.gz").print()

tar -czvf ***.tar.gz

Flink--输入数据集Data Sources的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中. jdbc.scala重要API介绍: /** * Save this RDD ...
Spark SQL External Data Sources JDBC简易实现
在spark1.2版本中最令我期待的功能是External Data Sources,通过该API可以直接将External Data Sources注册成一个临时表,该表可以和已经存在的表等通过sq ...
JasperReports教程：Report Data Sources
原文地址:http://www.tutorialspoint.com/jasper_reports/jasper_report_data_sources.htm Datasources是一个结构化的数 ...
解决IDEA Springboot项目sql文件打开提示No data sources are configured to run this SQL and provide advanced的问题
Idea2018的Springboot项目,如果里面有.sql文件,打开后,会提示"No data sources are configured to run this SQL and pr ...
警告： No data sources are configured to run this SQL and provide advanced code assistance. Disable this inspection via problem menu (Alt+Enter). more... (Ctrl+F1) SQL dialect is not configured. Postgr
python3出现问题: 警告: No data sources are configured to run this SQL and provide advanced code assistance ...
Weblogic多数据源（Multi Data Sources）应用实践
原创 2012年03月29日 10:55:28 标签: weblogic / 数据库 / 负载均衡 / 数据中心 / jdbc / 应用服务器大型系统在进行数据库部署时,常常会分为主数据应用中心 ...
Windows系统自带的ODBC Data Sources的配置及使用
一直不明白ODBC是个什么东东,虽然一次次碰到,却从没用过,看Wikipedia上的描述,可以访问各种数据库.Excel.CSV等,可以剥离数据库和操作系统依赖,简直神乎其神.不过这样的描述太抽象概括 ...
pytorch 读数据接口制作数据集 data.dataset
[吐槽] 啊,代码,你这个大猪蹄子自己写了cifar10的数据接口,跟官方接口load的数据一样, 沾沾自喜,以为自己会写数据接口了几天之后,突然想,自己的代码为啥有点慢呢,这数据集不大啊用了官 ...

随机推荐

daemon.debug hostapd: wlan0: WPA rekeying GTK
现象描述:client连接上AP后,切换接口(譬如lan口的)模式,静态地址和dhcp模式切换后,一段时间后断开连接,再也连接不上,ap侧日志如下: Wed Nov 8 14:39:31 2017 ...
行为驱动：BDD框架之Cucumber初探
1.cucumber cucumber早在ruby环境下应用广泛,作为BDD框架的先驱,cucumber后来被移植到了多平台,简单来说cucumber是一个测试框架,就像是juint或是rspec一样 ...
[Linux]流媒体服务器概述
二.何为流媒体与流式传输? 2.1 流媒体「流媒体」是指采用「流式传输」的方式在Internet播放的媒体格式,流媒体最大的特点就是「边下边播」,常用的流媒体格式有FLV(使用FLASH作为视频播放 ...
Python-爬虫-租房Ziroom
目标站点需求分析涉及的库 import requestsimport timeimport pymongofrom lxml import etreefrom requests.exceptions ...
JavaScript自定义对象
一,概述在Java语言中,我们可以定义自己的类,并根据这些类创建对象来使用,在Javascript中,我们也可以定义自己的类,例如定义User类.Hashtable类等等. 目前在Javascrip ...
python多线程中锁的概念
1 2 3 4 5 6 7 8 mutex = threading.Lock() #锁的使用 #创建锁 mutex = threading.Lock() #锁定 mutex.acquire([time ...
锤子科技"临死前"被"接盘" ，内部人士爆料已改签今日头条母公司
就在昨天,据据锤子科技内部人士透露,部分锤子科技员工在昨天已经接到了相关的临时通知,要求改签劳动合同至今日头条的母公司——字节跳动.至于这是锤子科技真正再度复活还是借尸还魂都不重要,重要的是,作为忠实 ...
swift 学习- 20 -- 错误处理
// 错误处理是响应错误以及从错误中恢复的过程, Swift 提供了在运行时对可恢复错误的抛出, 捕获, 传递和操作的支持 // 某些操作无法保证总是执行完所有代码或总是生层有用结果, ...
bzoj 1495
这是一道...卡了我一个月的树形dp... 我真是太弱了... 其实仔细想想,这题的核心思路并不是特别复杂,但是的确存在不小的难度作为一个看过全网基本所有题解+标程才弄明白这题到底怎么回事的蒟蒻,我 ...
Java基础之多线程框架
一.进程与线程的区别 1.定义: 进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比 ...