【原创】大数据基础之Flume（2）应用之kafka-kudu

【原创】大数据基础之Flume（2）kudu sink

kudu中的flume sink代码路径: https://github.com/apache/kudu/tree/master/java/kudu-flume-sink kudu-flume-sink默认使用的producer是 org.apache.kudu.flume.sink.SimpleKuduOperationsProducer public List<Operation> getOperations(Event event) throws FlumeException { try…

【原创】大数据基础之Flume（2）Sink代码解析

flume sink核心类结构 1 核心接口Sink org.apache.flume.Sink /** * Requests the sink to attempt to consume data from attached channel * Note: This method should be consuming from the channel * within the bounds…

【原创】大数据基础之Flume（2）应用之kafka-kudu

应用一:kafka数据同步到kudu 1 准备kafka topic # bin/kafka-topics.sh --zookeeper $zk:2181/kafka -create --topic test_sync --partitions 2 --replication-factor 2 WARNING: Due to limitations in metric names, topics with a period ('.') or underscore ('_') could coll…

【原创】大数据基础之Zookeeper（2）源代码解析

核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,follower是FOLLOWING,leader是LEADING,observer是OBSERVING: public enum LearnerType { PARTICIPANT, OBSERVER; } 简单来说,zookeeper启动的核心类是QuorumPeerMain,启动之后会加载配置,…

大数据系列之Flume+kafka 整合

相关文章: 大数据系列之Kafka安装大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的一些核心概念: 组件名称功能介绍 Agent代理使用JVM 运行Flume.每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks. Client客户端生产数据,运行在一个独立的线程. Source源从Client收集数据,传递给Channel. Sink接收器从Channel收集数据,进行相关操作,…

【原创】大数据基础之词频统计Word Count

对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Spark分布式处理(Scala) val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) sc.textFile("test_wo…

【原创】大数据基础之Impala（1）简介、安装、使用

impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon. impala是hadoop上的开源分析性数据库:C++和java语言开发: Do BI-style Queries on Hadoop Im…

【原创】大数据基础之Benchmark（2）TPC-DS

tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminate objective, verifiable TPC performance data to the industry. TPC(The Transaction Processing Perform…

大数据基础知识问答----spark篇，大数据生态圈

Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar…

低调、奢华、有内涵的敏捷式大数据方案：Flume+Cassandra+Presto+SpagoBI

基于FacebookPresto+Cassandra的敏捷式大数据文件夹 1 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 2 2.1 2.2 2.3 2.4 2.5 2.6 3 3.1 3.1.1 3.1.2 3.1.3 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 4 4.1 4.2 4.3 5 6 7 1概 1概述概述 "Ad-hoc analysis over Cassandradata with Faceboo…

大数据基础知识：分布式计算、服务器集群[zz]

大数据中的数据量非常巨大,达到了PB级别.而且这庞大的数据之中,不仅仅包括结构化数据(如数字.符号等数据),还包括非结构化数据(如文本.图像.声音.视频等数据).这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成.在大数据之中,有价值的信息往往深藏其中.这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息.在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中.这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来…

大数据基础知识问答----hadoop篇

handoop相关知识点 1.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. Hadoop is a distributed computing platform written in Java. It incorporates features similar to those of the Google File System and of MapReduc…

学习大数据基础框架hadoop需要什么基础

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节).GB(1024MB).TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据.社交网站.科学计算.证券交易.网站日志.传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024PB…

hadoop大数据基础框架技术详解

一.什么是大数据进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节).GB(1024MB).TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据.社交网站.科学计算.证券交易.网站日志.传感器网络数据量的不断加大,国内拥有的总数据量早已超出 ZB(1ZB=1024EB,1EB=1024…

大数据基础总结---HDFS分布式文件系统

HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等. 数据块(Block):存储文件的最小单元.对存储介质划分了固定的区域,使用时按这些区域分配使用. HDFS的概述 HDFS(Hadoop Distributed File System)基于Google发布的GFS论…

大数据技术之Flume

第1章概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 1.2 Flume组成架构 Flume组成架构如图1-1,图1-2所示: 图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件. 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元. Agent主要有3个…

入门大数据---Spark_Streaming整合Flume

一.简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming 提供了以下两种方式用于 Flume 的整合. 二.推送式方法在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进行监听,Flume 通过 avro Sink 将数据源源不断推送到该端口.这里以监听日志文件为例,具体整合方式如…

【原创】大数据基础之Logstash（4）高可用

logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: Persistent Queues Dead Letter Queues 默认都没有开启: 另外可以通过docker或marathon或systemd来实现进程的自动重启: As data flows through the event processing pipeline, Logstash m…

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

spark 2.1.1 spark初始化rdd的时候,需要读取文件,通常是hdfs文件,在读文件的时候可以指定最小partition数量,这里只是建议的数量,实际可能比这个要大(比如文件特别多或者特别大时),也可能比这个要小(比如文件只有一个而且很小时),如果没有指定最小partition数量,初始化完成的rdd默认有多少个partition是怎样决定的呢? 以SparkContext.textfile为例来看下代码: org.apache.spark.SparkContext /** * Re…

【原创】大数据基础之Spark（6）Spark Rdd Sort实现原理

spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序,具体是如何实现的?来看代码: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sortBy[K]( f: (T) => K, ascending: Boolean = true, numPartitions: Int = this.partitions.length) (implic…

【原创】大数据基础之Flink（1）简介、安装、使用

Flink 1.7 官方:https://flink.apache.org/ 一简介 Apache Flink is an open source platform for distributed stream and batch data processing. Flink’s core is a streaming dataflow engine that provides data distribution, communication, and fault tolerance for…

【原创】大数据基础之ORC（1）简介

https://orc.apache.org Optimized Row Columnar (ORC) file 行列混合存储层次结构: file -> stripes -> row groups(10000 rows) Background Back in January 2013, we created ORC files as part of the initiative to massively speed up Apache Hive and improve the storage…

【原创】大数据基础之ElasticSearch（2）常用API整理

Fortunately, Elasticsearch provides a very comprehensive and powerful REST API that you can use to interact with your cluster. Among the few things that can be done with the API are as follows: Check your cluster, node, and index health, status, and…

【原创】大数据基础之Impala（2）实现细节

一架构 Impala is a massively-parallel query execution engine, which runs on hundreds of machines in existing Hadoop clusters. It is decoupled from the underlying storage engine, unlike traditional relational database management systems where the query…

【原创】大数据基础之ElasticSearch（4）es数据导入过程

1 准备analyzer 内置analyzer 参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html 中文分词 smartcn 参考:https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-smartcn.html ik $ bin/elasticsearch-plugin insta…

【原创】大数据基础之Hive（5）性能调优Performance Tuning

1 compress & mr hive默认的execution engine是mr hive> set hive.execution.engine;hive.execution.engine=mr 所以针对mr的优化就是hive的优化,比如压缩和临时目录 mapred-site.xml <property> <name>mapreduce.map.output.compress</name> <value>true</value>…

【原创】大数据基础之Gobblin（2）持久化kafka到hdfs

gobblin 0.10 想要持久化kafka到hdfs有很多种方式,比如flume.logstash.gobblin,其中flume和logstash是流式的,gobblin是批处理式的,gobblin通过定时任务触发来完成数据持久化,在任务和任务之间是没有任何读写的,这点是和flume.logstash的最大不同: gobblin有几种部署方式: 1)standalone+cron: 2)mr+oozie/azkaban等 3)docker: 其中第3中方式最为方便,因为gobblin可以把…

【【原创】大数据基础之Flume（2）应用之kafka-kudu】的更多相关文章

【原创】大数据基础之Flume（2）kudu sink

【原创】大数据基础之Flume（2）Sink代码解析

【原创】大数据基础之Flume（2）应用之kafka-kudu

【原创】大数据基础之Zookeeper（2）源代码解析

大数据系列之Flume+kafka 整合

【原创】大数据基础之词频统计Word Count

【原创】大数据基础之Impala（1）简介、安装、使用

【原创】大数据基础之Benchmark（2）TPC-DS

大数据基础知识问答----spark篇，大数据生态圈

低调、奢华、有内涵的敏捷式大数据方案：Flume+Cassandra+Presto+SpagoBI

大数据基础知识：分布式计算、服务器集群[zz]

大数据基础知识问答----hadoop篇

学习大数据基础框架hadoop需要什么基础

hadoop大数据基础框架技术详解

大数据基础总结---HDFS分布式文件系统

大数据技术之Flume

入门大数据---Spark_Streaming整合Flume

【原创】大数据基础之Logstash（4）高可用

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

【原创】大数据基础之Spark（6）Spark Rdd Sort实现原理

【原创】大数据基础之Flink（1）简介、安装、使用

【原创】大数据基础之ORC（1）简介

【原创】大数据基础之ElasticSearch（2）常用API整理

【原创】大数据基础之Impala（2）实现细节

【原创】大数据基础之ElasticSearch（4）es数据导入过程

【原创】大数据基础之Hive（5）性能调优Performance Tuning

【原创】大数据基础之Gobblin（2）持久化kafka到hdfs

【原创】大数据基础之Spark（5）Shuffle实现原理及代码解析

【原创】大数据基础之Spark（4）RDD原理及代码解析

【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现