基于OSS的数据查询分析和可视化BI报表

数据存储在OSS后,有多种查询分析的方法,包括阿里云MaxCompute、DataLakeAnalytics产品等Severless查询分析服务,也可以自建Spark、Presto、Imapla应用来分析OSS上的数据。

本文,介绍基于OSS+DataLakeAnalytics+QuickBI,实现对数据的存储、Serverless化的Ad-hoc查询、可视化BI的实验。

实验步骤( OSS+DataLakeAnalytics+QuickBI)

本次实验,主要介绍,如何使用OSS+DataLakeAnalytics+QuickBI,实现对数据的存储、交互式查询分析、输出BI报表的整体数据处理流程。适用于,日志、交易记录查询分析和报表输出等场景。

服务开通

OSS服务:

1.开通OSS服务https://www.aliyun.com/product/oss

DataLakeAnalytics服务:

1.申请DataLakeAnalytics的试用资格
备注:目前DataLakeAnalytics公测中,需提交公测申请,开通试用。DataLakeAnalytics支持查询分析OSS上的CSV、JSON、Parquet、ORC、AVRO、RCFile等数据文件。

操作步骤

准备数据

登录控制台, 并创建目录

创建华东1区域的OSS测试Bucket。

备注:Bucket名称是全局唯一,如果提示名称已存在,请更换一个Bucket名称。

创建目录(建议目录如下):

创建目录workshop_sh/trade, workshop_sh/user

下载模拟数据(该数据本次实验的模拟数据)

http://testdatasample.oss-cn-hangzhou.aliyuncs.com/workshop_sh/workshop_sh.zip

将下载的将交易记录和开户信息数据,分别上传到trade、user目录

登录Data Lake Analytics控制台

点击“登录数据库”,输入开通服务时分配的用户名和密码,登录Data Lake Analytics控制台。

公测期间的分配的用户名、密码,开通服务的消息中可以查看

创建Schema和Table

创建Schema

输入创建SCHEMA的语句,点击“同步执行”。

CREATE SCHEMA my_schema_name WITH DBPROPERTIES (
CATALOG = 'oss',
LOCATION = 'oss://Bucket名称/测试数据目录/'
);

注意:

  • 您的OSS LOCATION地址,请务必以’/‘结尾以表示目录(如LOCATION=‘oss://workshopsh20180608100/workshop_sh/’)。后续建表的LOCATION所指向的数据文件,必须在这个OSS目录或者其子目录下。
  • 同一个阿里云region,schema名全局唯一,实验时,请将“my_schema_name”替换为,您自定义schema名称。建议根据业务定义,如已有重名schema,在创建时会提示报错,则请换一个schema名字。

创建表

在“数据库”的下拉框中,选择刚刚您创建的schema
然后在SQL文本框中输入建表语句如下,并点击同步执行。其中,Location替换为您的Bucket和测试数据的路径

1.创建交易记录表:
说明:LOCATION 'oss://Bucket名称/交易记录表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。如:oss://workshopsh20180608100/workshop_sh/user

CREATE EXTERNAL TABLE tradelist_csv (
t_userid STRING COMMENT '用户ID',
t_dealdate STRING COMMENT '申请时间',
t_businflag STRING COMMENT '业务代码',
t_cdate STRING COMMENT '确认日期',
t_date STRING COMMENT '申请日期',
t_serialno STRING COMMENT'申请序号',
t_agencyno STRING COMMENT'销售商编号',
t_netno STRING COMMENT'网点编号',
t_fundacco STRING COMMENT'基金账号',
t_tradeacco STRING COMMENT'交易账号',
t_fundcode STRING COMMENT'基金代码',
t_sharetype STRING COMMENT'份额类别',
t_confirmbalance DOUBLE COMMENT'确认金额',
t_tradefare DOUBLE COMMENT'交易费',
t_backfare DOUBLE COMMENT'后收手续费',
t_otherfare1 DOUBLE COMMENT'其他费用1',
t_remark STRING COMMENT'备注'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFIlE
LOCATION 'oss://testdatasample/workshop_sh/trade/';

2.创建开户信息表:
说明:LOCATION 'oss://Bucket名称/开户信息表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。 如:oss://workshopsh20180608100/workshop_sh/user

CREATE EXTERNAL TABLE userinfo (
u_userid STRING COMMENT '用户ID',
u_accountdate STRING COMMENT '开户时间',
u_gender STRING COMMENT '性别',
u_age INT COMMENT '年龄',
u_risk_tolerance INT COMMENT '风险承受能力,1-10,10为最高级',
u_city STRING COMMENT'所在城市',
u_job STRING COMMENT'工作类别, A-K',
u_income DOUBLE COMMENT'年收入(万)'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFIlE
LOCATION 'oss://testdatasample/workshop_sh/user/';

3.建表完毕后,刷新页面,在左边导航条中能看到schema(实验时选择您创建的schema)下的2张表

SQL查询(同步执行)

1.查询交易机构SXS_0010,在0603至0604的100条交易记录

SELECT * FROM tradelist_csv
WHERE t_cdate >= '2018-06-03' and t_cdate <= '2018-06-04' and t_agencyno = 'SXS_0010'
limit 100;

显示执行结果

2.查询各城市、男性女性人群,购买的基金总额(多表Join查询)

SELECT u_city, u_gender, SUM(t_confirmbalance) AS sum_balance
FROM tradelist_csv , userinfo
where u_userid = t_userid
GROUP BY u_city, u_gender
ORDER BY sum_balance DESC;

SQL查询(异步执行)

异步执行查询,将查询结果,以CSV格式,输出到OSS上

点击“执行状态”,可看到该异步查询任务的执行状态

主要分为:“RUNNING”,“SUCCESS”,“FAILURE”。
点击“刷新”,当STATUS变为“SUCCESS”时,可以查看到查询结果输出到OSS的文件路径。

查看导出OSS的结果文件

基于QuickBI制作数据报表

创建数据源

说明

  • 目前QuickBI只有专业版支持DataLakeAnalytics作为数据源
  • 数据源-数据库地址、端口,可在DataLakeAnalytics控制台查看

  • 数据源-数据库名称,使用在DataLakeAnalytics创建的SCHEMA名称
  • 数据源-用户名、密码,即登录DataLakeAnalytics数据库使用的用户名/密码(初始化服务时,发送到站内信中)

创建数据集

说明

  • 点击创建数据集
  • 选择数据源-自定义SQL

  • 输入SQL(输入前述实验步骤的SQL),并保存(如保存为“citygender”)

创建仪表盘

说明

  • 点击创建仪表板
  • 选择数据集(如citygender)
  • 分别选择 值轴、类别轴、颜色分类
  • 点击“刷新”
    这里显示了各城市男性、女性投资者购买基金的总额

更多信息

关于更多如何使用DataLakeAnalytics+QuickBI,对存储在OSS上数据进行查询分析,以及输出BI报表,请参考DataLakeAnalyticsQuickBI的产品介绍。


本文作者:whj.

原文链接

本文为云栖社区原创内容,未经允许不得转载。

基于OSS+DataLakeAnalytics+QuickBI的Serverless的查询分析和可视化BI的更多相关文章

  1. MySQL 慢查询日志分析及可视化结果

    MySQL 慢查询日志分析及可视化结果 MySQL 慢查询日志分析 pt-query-digest分析慢查询日志 pt-query-digest --report slow.log 报告最近半个小时的 ...

  2. mysql慢查询分析

    mysql慢查询分析 Posted: 29. 08. 2014 | Author: zdz | Category: mysql MySQL 慢查询日志分析 1. pt-query-digest分析慢查 ...

  3. 阿里云基于OSS的云上统一数据保护方案2.0技术解析

    近年来,随着越来越多的企业从传统经济向数字经济转型,云已经渐渐成为数据经济IT新常态.核心业务系统上云,云上的业务创新,这些都产生了大量的业务数据,这些数据也成为了企业最重要的资产.资源. 阿里云基于 ...

  4. 阿里云基于OSS的云上统一数据保护方案2.0正式发布

    近年来,随着越来越多的企业从传统经济向数字经济转型,云已经渐渐成为数据经济IT新常态.核心业务系统上云,云上的业务创新,这些都产生了大量的业务数据,这些数据也成为了企业最重要的资产.资源.阿里云基于O ...

  5. 基于天天动听API开发在线音乐查询网站

    预览图 源码下载 地址:https://github.com/bajdcc/dev/tree/master/ttpod 文件夹说明: App_Code,WCF服务 Script,离线下载的celery ...

  6. Hibernate一级缓存(基于查询分析)

    首先我们应该弄清什么是hibernate缓存:hibernate缓存是指为了降低应用程序对物理数据源的访问频次,从而提高应用程序的运行性能的一种策略.我们要将这个跟计算机内存或者cpu的缓存区分开. ...

  7. python 全栈开发,Day74(基于双下划线的跨表查询,聚合查询,分组查询,F查询,Q查询)

    昨日内容回顾 # 一对多的添加方式1(推荐) # book=Book.objects.create(title="水浒传",price=100,pub_date="164 ...

  8. {django模型层(二)多表操作}一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询、分组查询、F查询和Q查询

    Django基础五之django模型层(二)多表操作 本节目录 一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询.分组查询.F查询和Q查询 六 xxx 七 ...

  9. (转)python 全栈开发,Day74(基于双下划线的跨表查询,聚合查询,分组查询,F查询,Q查询)

    昨日内容回顾 # 一对多的添加方式1(推荐) # book=Book.objects.create(title="水浒传",price=100,pub_date="164 ...

随机推荐

  1. Jemter测压工具的安装与使用

    注:在安装Jmeter之前,请先检查下电脑有没有装JDK:开始->运行->然后输入cmd->进入命令行界面,输入java -version , 出现以下信息就是此电脑已安装了JDK ...

  2. InnoDB: Error number 24 means ‘Too many open files’

    一.问题的描述 备份程序 执行前滚的时候报错.(-apply-log) InnoDB: Errornumber 24 means 'Too many open files'. InnoDB: Some ...

  3. matlab实现一次性实现多个文件夹图片转化为.mat文件

    %这里是主函数:命名为readImg.m; clc;clear; %---read_image; filepath = 'G:\人脸重建\data\src_all\';%图片路径可以根据自己需要修改; ...

  4. 2019.10.30 csp-s模拟测试94 反思总结

    头一次做图巨的模拟题OWO 自从上一次听图巨讲课然后骗了小礼物以后一直对图巨印象挺好的233 T1: 对于XY取对数=Y*log(x) 对于Y!取对数=log(1*2*3*...*Y)=log1+lo ...

  5. python-pygame安装教程

    网上有很多关于python,pygame的安装教程.大都比较麻烦,下面为大家介绍一种非常简单的安装方法.(因为安装大都是新手教程写详细一些) python是32位 python是3.6 1 pip配置 ...

  6. 初识OpenSSL

    首先来认识一下SSL和TLS SSL:Secure Sockets Layer 安全套接层协议 由Netscape公司在1994年发布: TLS:Transport Layer Security 传输 ...

  7. 20190829 [ Night ] - 玻

    又考试 半集训真累…… 老帅哥露出会心的微笑.jpeg +------------+ | 寸 | | 土 分 | | 不 分 | | 让 必 | | 争 | +------------+ 考试过程: ...

  8. Mac Eclipse上Android SDK manager闪退的问题!!

    最近想自学一下Android,也没啥人指导,安装的过程中就花了一整天....安装完ADT,安装完SDK,所有步骤都照着网上来,可是一打开SDK manager就闪退!网上所有方法都找了,可是几乎全是w ...

  9. VUE打包好的文件部署让beego实现静态文件访问,如何用根目录来访问静态文件?

    最近的一个全栈项目,光伏云监控系统,后端使用beego框架,纯api,前端使用VUE2.0.项目地址:http://scada.ssechina.com:88/static 我把打包好的前端文件放到g ...

  10. java swing多线程

    比如一个爬虫 在界面上显示当前时间,每秒都刷新一次用来判断软件是不是卡死 在爬取程序运行的时候,界面可能会卡死 那这就要把爬取程序放在另一个线程里边 同时,也可以把rtc放在另一个线程里边 具体代码, ...