一.概述 1.什么是flume 官网的介绍:http://flume.apache.org/ Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data fl…
哎,怎么感觉自己变得懒了起来,更新博客的频率变得慢了起来,可能是因为最近得知识开始变得杂变得难了起来,之前在上课的时候,也没有好好听这一方面的知识,所以,现在可以说是在学的新的知识,要先去把新的知识思路屡了一遍,自己实现了代码,把整个过程以及规则搞懂了,我才会来总结博客. 说个有关这节知识的相关内容, 在学习网络编程之前,我们一定要先把I/O输入输出流给先学了,为什么这么说呢?仔细想想,我们学习网络编程,说到底还是数据之间的传输,文字,图片,音乐,视频等等也好,它们有的传输以及接收的方式不同,如…
如果说大数据中分布式收集日志用的是什么,你完全可以回答Flume!(面试小心问到哦) 首先说一个复制本服务器文件到目标服务器上,需要目标服务器的ip和密码: 命令: scp  filename   ip:目标路径 一 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. Flume提供对数据进行简单处理,并写…
Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统   用于存储大量的数据 (2)分布式计算框架MapReduce高效的分析数据 以上的两个概念组成一个名词 Hadoop 二.Hadoop的起源 谷歌发布了三篇论文 : GFS 分布式存储系统  ,  MapReduce  分…
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒. 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和File 1.先看看异常的分类: 图1 异常的分类 从上图我们不难看出来,异常主要分为三大类:Error    Exception    RuntimeException 有朋友就要问了,上来就给我搞这…
系列目录 写在前面 从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…
一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句…
一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 CREATE TABLE IF NOT EXISTS t_day_detail( id STRING, lastday FLOAT, today FLOAT, highest FLOAT, lowest FLOAT, today_end FLOAT, today_jisuan FLOAT, updow…
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群: 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放.数据组织.以…
一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入? 两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答.在此与大家共享,希望更多的人能参与进来发表自己的观点. 二.探讨案例 某品牌电视产品厂商,主营业务是电视机生产.目前规划要做转型做数据化运营,通过内嵌入在电…