Flink-- 数据输出Data Sinks

flink在批处理中常见的sink

1.基于本地集合的sink（Collection-based-sink）

2.基于文件的sink（File-based-sink）

基于本地集合的sink（Collection-based-sink）

//1.定义环境

val env = ExecutionEnvironment.getExecutionEnvironment

//2.定义数据 stu(age,name,height)

val stu: DataSet[(Int, String, Double)] = env.fromElements(

  (19, "zhangsan", 178.8),

  (17, "lisi", 168.8),

  (18, "wangwu", 184.8),

  (21, "zhaoliu", 164.8)

)

//3.TODO sink到标准输出

stu.print

//3.TODO sink到标准error输出

stu.printToErr()

//4.TODO sink到本地Collection

print(stu.collect())

基于文件的sink（File-based-sink）

flink支持多种存储设备上的文件，包括本地文件，hdfs文件等。

flink支持多种文件的存储格式，包括text文件，CSV文件等。

Ø writeAsText()：TextOuputFormat - 将元素作为字符串写入行。字符串是通过调用每个元素的toString()方法获得的。

1、将数据写入本地文件

//0.主意：不论是本地还是hdfs.若Parallelism>1将把path当成目录名称，若Parallelism=1将把path当成文件名。

val env = ExecutionEnvironment.getExecutionEnvironment

val ds1: DataSource[Map[Int, String]] = env.fromElements(Map(1 -> "spark" , 2 -> "flink"))

//1.TODO 写入到本地，文本文档,NO_OVERWRITE模式下如果文件已经存在，则报错，OVERWRITE模式下如果文件已经存在，则覆盖

ds1.setParallelism(1).writeAsText("test/data1/aa", WriteMode.OVERWRITE)

env.execute()

2、将数据写入HDFS

//TODO writeAsText将数据写入HDFS

val env = ExecutionEnvironment.getExecutionEnvironment

val ds1: DataSource[Map[Int, String]] = env.fromElements(Map(1 -> "spark" , 2 -> "flink"))

ds1.setParallelism(1).writeAsText("hdfs://hadoop01:9000/a", WriteMode.OVERWRITE)

env.execute()

可以使用sortPartition对数据进行排序后再sink到外部系统。

//TODO 使用sortPartition对数据进行排序后再sink到外部系统

val env = ExecutionEnvironment.getExecutionEnvironment

//stu(age,name,height)

val stu: DataSet[(Int, String, Double)] = env.fromElements(

  (19, "zhangsan", 178.8),

  (17, "lisi", 168.8),

  (18, "wangwu", 184.8),

  (21, "zhaoliu", 164.8)

)

//1.以age从小到大升序排列(0->9)

stu.sortPartition(0, Order.ASCENDING).print

//2.以name从大到小降序排列(z->a)

stu.sortPartition(1, Order.ASCENDING).print

//3.以age升序，height降序排列

stu.sortPartition(0, Order.ASCENDING).sortPartition(2, Order.DESCENDING).print

//4.所有字段升序排列

stu.sortPartition("_", Order.ASCENDING).print

//5.以Student.name升序

//5.1准备数据

case class Student(name: String, age: Int)

val ds1: DataSet[(Student, Double)] = env.fromElements(

  (Student("zhangsan", 18), 178.5),

  (Student("lisi", 19), 176.5),

  (Student("wangwu", 17), 168.5)

)

val ds2 = ds1.sortPartition("_1.age", Order.ASCENDING).setParallelism(1)

//5.2写入到hdfs,文本文档

val outPath1="hdfs://hadoop01:9000/Student001.txt"

ds2.writeAsText(outPath1, WriteMode.OVERWRITE)

env.execute()

//5.3写入到hdfs,CSV文档

val outPath2="hdfs://hadoop01:9000/Student002.csv"

ds2.writeAsCsv(outPath2, "\n", "|||",WriteMode.OVERWRITE)

env.execute()

Flink-- 数据输出Data Sinks的更多相关文章

tp5数据输出
法一:系统配置 'default_return_type'=>'json' 法二:输出设置 namespace app\index\controller; class Index { publi ...
python中json格式数据输出实现方式
python中json格式数据输出实现方式主要使用json模块,直接导入import json即可. 小例子如下: #coding=UTF-8 import json info={} info[&q ...
beego数据输出
beego数据输出概览直接输出字符串模板数据输出静态模板数据输出动态模板数据输出 json格式数据输出 xml格式数据输出 jsonp调用概览直接输出字符串通过beego.Cont ...
(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单 ...
TP5内部异常API数据输出的自定义方法编写
需求:利用postman进行请求api接口过程中关于一些数据输出异常的情况下我们希望通过自己编写一些类和方法实现便于后端人员进行根据提示进行调试处理! 以下测试的时候请设置 app_debug ...
PHP--通用化API接口数据输出封装
/** * 通用化API接口数据输出 * author qinpeizhou * @param $message * @param array $data * @param int $httpCode ...
七个用于数据科学(data science)的命令行工具
七个用于数据科学(data science)的命令行工具数据科学是OSEMN(和 awesome 相同发音),它包括获取(Obtaining).整理(Scrubbing).探索(Exploring) ...
二、mybatis之数据输出
上一篇我们做了一个入门案例,是我们做mybatis的基本步骤,不熟悉的可以回顾一下https://www.cnblogs.com/jasmine-e/p/15330355.html,在这篇文章中只是简 ...

随机推荐

zabbix批量监控urls的状态码
.添加url监控脚本 [root@node1 usr]# vim /usr/local/zabbix_agents_3.2.0/scripts/web_site_code_status.sh #!/b ...
tcpdump抓取mysql语句
抓包工具tcpdump的使用,抓取具体的sql语句 [root@test7_chat_api_im ~]# tcpdump -s -l - |strings tcpdump: listening on ...
mariadb：SQL日常使用总结
1.关联删除 DELETE T_Base_Resource_Action FROM T_Base_Resource_Action INNER JOIN T_Base_Resource ON T_Ba ...
vue.js computed,watch的区别
computed: 当数据没有变化时,它会去读取缓存,当数据有变化时,它才会去执行computed,而不会像method和watch一样每次都去执行函数(摘自https://www.jb51.net/ ...
[POSIX]文件系统（概述）
1.文件名由除系统目录分隔符(unix是/,windows是\)和空字符“\0”外的任意ASCII字符组成,现代系统很多还可以包含UNICODE字符,但是还是推荐使用传统的ASCII码命名. 2.目录 ...
python字符串,列表常用操作
24天养成一个好习惯,第五天! 一.字符串需要掌握的操作 1.取值(索引取值)需要注意的是只能取,不能改 msg = 'hello world' print(msg[4]) 2.切片(顾头不顾尾) m ...
大数据mapreduce俩表join之python实现
二次排序在Hadoop中,默认情况下是按照key进行排序,如果要按照value进行排序怎么办?即:对于同一个key,reduce函数接收到的value list是按照value排序的.这种应用需求在 ...
IOS 静态库和动态库
库从本质上市一中可执行的二进制格式,可以被载入内存中执行 iOS 中的静态库有 .a 和 .framework 两种形式; 动态库有 .dylib 和 .framework 两种, 后来 ...
oracle数据库定时任务dbms_job的用法详解
本文来源:Ruthless <oracle数据库定时任务dbms_job的用法详解> 一.dbms_job涉及到的知识点 1.创建job: variable jobno number; ...
Git- 命令及使用
关于Git相关介绍这里就不介绍了,可转<Git- 简介>或者查看官网信息.这篇整理一下git相关的命令. 1) 远程仓库相关命令克隆下载仓库:$ git clone git://gi ...

Flink-- 数据输出Data Sinks

基于本地集合的sink（Collection-based-sink）

基于文件的sink（File-based-sink）

1、将数据写入本地文件

2、将数据写入HDFS

Flink-- 数据输出Data Sinks的更多相关文章

随机推荐

热门专题