本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay.微软. 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯…
今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ,正印证了"微软在不断通过.NET Core补齐各领域开发,真正实现一种语言的跨平台"这句话.那么我们今天就来看看这个 .NET for Apache Spark到底是个什么鬼? 作者:依乐祝 原文链接:https://www.cnblogs.com/yilezhu/p…
1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展.无法处理超大规模数据.缺少对Hadoop的支持:而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等.神兽Apache Kylin就是为了解决这些问题而设计的. Apache Kylin,中文名麒(shen)麟(shou)…
Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿 武汉市云升科技发展有限公司董事长,<智慧城市-大数据.物联网和云计算之应用>作者杨正洪 万达网络科技集团大数据中心副总经理,<Spark高级数据分析>中文版译者龚少成 数据架构师,IT脱口秀(清风那个吹)创始人,<开源大数据分析引擎Impala实战>作者贾传青 等等业内专家联合推荐 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查…
http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台. 正文如下 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟…
转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程,分两部分. 前半部分: 针对Kylin的初级和入门用户介…
转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下来Apache Kylin 1.5的新功能和架构改变. Apache Kylin是什么 Kylin是最近两年发展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知.Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的研究实验室孵化的,提供ANSI-SQL接口,支…
一.简介 Apache Kylin是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区.之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查询巨大的表.  二.基本概念 先了解一下几个概念,如下有一张表 ID 客户号 交易日期 交易类型 金额 1 001 20201230 工资代发 1000000 2 002 20210101 转账 666…
本文转载自:[技术帖]Apache Kylin 2.0为大数据带来交互式的BI 编者注:Kyligence的联合创始人兼CEO Luke Han在上做题为“”的演讲. 基于Hadoop的SQL一直在被持续地改进,但是一个查询等几分钟到几小时还是非常正常.在这篇博文里,将会介绍开源的分布式分析引擎Apache Kylin,尤其会重点介绍它是如何以数量级加速大数据查询,以及在2.0版里面为交互式BI所提供的新特性,包括对雪花模型的支持和流式建立数据立方. Apache Kylin是什么? Kylin…
OLAPCube是一种典型的多维数据分析技术,Cube本身可以认为是不同维度数据组成的dataset,一个OLAP Cube 可以拥有多个维度(Dimension),以及多个事实(Factor Measure).用户通过OLAP工具从多个角度来进行数据的多维分析.通常认为OLAP包括三种基本的分析操作:上卷(rollup).下钻(drilldown).切片切块(slicingand dicing),原始数据经过聚合以及整理后变成一个或多个维度的视图. ROLAP 以关系模型的方式存储用作多维分析…
现如今,大数据.数据科学和机器学习不仅是技术圈的热门话题,也是当今社会的重要组成.数据就在每个人身边,同时每天正以惊人的速度快速增长,据福布斯报道:到 2025 年,每年将产生大约 175 个 Zettabytes 的数据量. 目前我们所熟知的行业都越来越依赖于对大数据的高级处理和分析,如金融.医疗保健.农业.能源.媒体.教育等所有重要的社会发展行业,然而这些庞大的数据集让数据分析.数据挖掘.机器学习和数据科学面临了巨大的挑战. 数据科学家和分析师在尝试对于海量数据的分析时会面临数据处理流程复杂…
来自:AI前线(微信号:ai-front),作者:林兴财,编辑:Natalie作者介绍:林兴财,毕业于厦门大学计算机科学与技术专业.有多年的嵌入式开发.系统运维经验,现就职于四三九九网络股份有限公司,担任大数据开发工程师,主要负责大数据平台的规划建设. 本文介绍了 4399 大数据团队在公司大数据平台上应用 Kylin 的实践经验,并基于应用中遇到的问题给出了对应的优化建议.背 景 在开始案例分享前,先简单介绍一下 4399 以及 4399 的大数据团队 4399 是中国最早的和领先的在线休闲小…
本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kylin安装包,选择一个Hadoop节点部署即可,Kylin使用标准的Hadoop API跟各个组件进行通信,不需要对现有的Hadoop安装额外的Agent. Kylin部署的架构是一个分层的结构,最底层是数据来源层,我们可以通过Sqoop等工具将数据迁移到HDFS分布式文件系统.Kylin依赖Hado…
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云开发) 我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的.所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串.下面便是我们需要过滤的数据: 183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GE…
Apache Flink是一个高效.分布式.基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性.灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API.从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目.Flink项目的副总裁对此评论到: Flink能够成为基金会的顶级项目,自己感到非常高兴.自己认为社区的驱动将是Flink成长的最好保证.Flink逐渐的成长以及众多新…
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求: 支持额外功能和特性的…
A. 环境准备 1. 安装jdk1.8+, Intelij IDEA 2. linux上编译好fe前端代码,主要目的是获取自动生成的代码,加入到前段工程里面去用于在idea中编译fe工程.具体编译请参照本人前期博文:CentOS 上使用vscode 调试百度大数据分析框架Apache DorisBE,编译好之后: tar -cvf /home/workspace/palo0.8.1/genSrc/buid/java.tar /home/workspace/palo0.8.1/gen_cpp/bu…
摘要:Apache Spark的出现让普通人也具备了大数据及实时数据分析能力.鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark.本文是Apache Spark入门系列教程(共四部分)的第一部分. Apache Spark的出现让普通人也具备了大数据及实时数据分析能力.鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark.本文是Apache Spark入门系列教程(共四部分)的第一部分. 全文共包括四个部分: 第一部分:Spark入门,介绍如何使用Shell及RDDs…
1. 概述 本文首先会简单介绍Kylin的安装配置,然后介绍启用Kerberos的CDH集群中如何部署及使用Kylin. Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. 1.2 环境说明 CDH版本:5.11.2 Linux版本:7.4.1708 Docker版本:Docker version 18.06.0-ce…
日前,eBay公司隆重宣布已经正式向开源业界推出分布式分析引擎:Kylin(http://kylin.io).作为一套旨在对Hadoop环境下分析流程进行加速.且能够与SQL兼容性工具顺利协作的解决方案,Kylin成功将SQL接口与多维分析机制(OLAP)引入Hadoop,旨在对规模极为庞大的数据集加以支持. 背景信息 eBay公司当前面临的主要挑战在于,数据规模正随着用户群体的多样化拓展而水涨船高.我们的用户--比如在分析与业务部门当中希望能在保持最低延迟水平的前提下继续使用自己所熟悉的工具方…
1 Kylin是什么 今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的"资产".如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获 取有价值的信息,新的时代.新的挑战.新的技术必然应运而生. 在大数据处理技术领域,用户最普遍的诉求就是希望以很简易的方式从大数据平台上快速获取查询结果,…
大数据分析常用去重算法分析『Bitmap 篇』  mp.weixin.qq.com 去重分析在企业日常分析中的使用频率非常高,如何在大数据场景下快速地进行去重分析一直是一大难点.在近期的 Apache Kylin Meetup 北京站上,我们邀请到 Kyligence 大数据研发工程师陶加涛为大家揭开了大数据分析常用去重算法的神秘面纱. △ 陶加涛 Apache Kylin 作为目前唯一一个同时支持精确与非精确去重查询的 OLAP 引擎,非常好地覆盖了大数据上的去重需求.本次分享讲解了 Kyli…
  本文原载自大数据杂谈微信公众号. 感谢美团点评工程师高大月撰文并授权转载. 高大月,美团点评工程师,Apache Kylin PMC成员,目前主要在美团点评数据平台负责OLAP查询引擎的建设. 背景 美团点评的OLAP需求大体分为两类: 即席查询:指用户通过手写SQL来完成一些临时的数据分析需求.这类需求的SQL形式多变.逻辑复杂,对响应时间没有严格的要求. 固化查询:指对一些固化下来的取数.看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率.这类需求的SQL有固定的模式…
Apache Kylin 概述 https://www.cnblogs.com/xiaodf/p/11671095.html 1 Kylin是什么 今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”.如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获 取有价值的信息,新的时代.新的挑战.…
一.kylin解决了什么关键问题? Apache Kylin的初衷就是解决千亿.万亿条记录的秒级查询问题,其中的关键就是打破查询时间随着数据量呈线性增长的这一规律. 大数据OLAP,我们可以注意到两个事实: • 大数据查询要的一般是统计结果,是多条记录经过聚合函数计算后的统计值.原始的记录则不是必需的,或者被访问的频率和概率极低. • 聚合是按维度进行的,而维度的聚合可能性是有限的,一般不随数据的膨胀而线性增长. 基于以上两点,我们得到一个新的思路——“预计算”.应尽量多地预先计算聚合结果,在查…
作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin.Apache Superset Contributor. Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎:Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58同城等: OLAP 领域这两年炙手可热的 ClickHouse,由…
1.1 数据科学面临的挑战 第一,成功的分析中绝大部分工作是数据预处理. 第二,迭代与数据科学紧密相关.建模和分析经常需要对一个数据集进行多次遍历.这其中一方面是由机器学习算法和统计过程本身造成的. 第三,构建完编写卓越的模型不等于大功告成.数据科学的目标在于让数据对不懂科学的人有用. 1.2 认识Apache Spark Spark继承了MapReduce的线性扩展性和容错性,同事对它做了一些重量级扩展. Spark摒弃了MapReduce先map再reduce这样的严格方式. Spark扩展…
原文地址 简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其他业务环境中创建的数据.考虑到数据的生成量,实时计算(real-time computation )已成为很多组织面临的一个巨大挑战.我们已经有效地使用了一个可扩展的实时计算系统--开源的 Storm 工具,它是有 Twitter 开发,通常被称为"实时 Hadoop(real-time Hadoo…
Impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性.相比之下,Impala的最大特点也是最大卖点就是它的快速.那么Impala如何实现大数据的快速查询呢?在回答这个问题前,需要先介绍Google的Dremel系统,因为Impala最开始是参照 Dre…
Kylin的使用安装文档Kylin简介Kylin是什么Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区.它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发.简单来说,Kylin的核心思想是预计算,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问.把高复杂度的聚合运算.多表连接等操作转换成对预计算结果的查询,这决定…