大数据笔记（十四）——HBase的过滤器与Mapreduce

大数据笔记（四）——操作HDFS

一.Web Console:端口50070 二.HDFS的命令行操作 (一)普通操作命令 HDFS 操作命令帮助信息: hdfs dfs + Enter键常见命令 1. -mkdir 在HDFS上创建目录:hdfs dfs -mkdir /aaa 如果父目录不存在,使用 -p 命令先创建父目录: 2. -ls / 查看hdfs文件系统根目录下的目录和文件: 3.-ls -R / 查看所有目录和文件: 4.-put 上传数据:将本地Linux文件data.txt上传到HDFS的aaa目录下 -…

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例

python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格式如:2015075期开奖号码:6,11,13,19,21,32, 蓝球:4 直接用python源码写的抓取双色球最新开奖数据的代码,没使用框架,直接用字符串截取的方式写的,经过测试速度还是很快的使用pyspider可以轻松分析出需要的内容,不过需要部署框架对只抓取特定内容的小应用来说也没多大必要…

《C++游戏开发》笔记十四平滑过渡的战争迷雾(二) 实现：真正的迷雾来了

本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9712321 作者:七十一雾央新浪微博:http://weibo.com/1689160943/profile?rightmod=1&wvr=5&mod=personinfo 这两天不少朋友留言提出了一些问题,但是由于雾央家里网络出了点问题,所以这两天都上不了网,没有及时回答大家,关注了雾央微博的朋友就知道这件事,抱歉了. 另外,欢迎转载文章,…

跟上节奏大数据时代十大必备IT技能

跟上节奏大数据时代十大必备IT技能新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能. 新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体.3D打印机.物联网……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能.另一方面,云…

CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置

相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础软件的安装 CentOS6安装各种大数据软件第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件第五章:Kafka集群的配置 CentOS6安装各种大数据软件第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件第七章:Flume安装与配置 CentOS6安装各…

大数据学习系列之—HBASE

hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119599574 hbase简介 hadoop database 是一个高可靠性.高性能.面向列.可伸缩.实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce 来处理Hbase中的海量数据,利用Zookeeper作为其分布式系统服务主要用来存储非结…

大数据笔记（十三）——常见的NoSQL数据库之HBase数据库（A）

一.HBase的表结构和体系结构 1.HBase的表结构把所有的数据存到一张表中.通过牺牲表空间,换取良好的性能. HBase的列以列族的形式存在.每一个列族包括若干列 2.HBase的体系结构主从结构: 主节点:HBase 从节点:RegionServer 包含多个Region,一个列族就是一个Region HBase在ZK中保存数据 (*)配置信息.HBase集群结构信息 (*)表的元信息 (*)实现HBase的HA:high avaibility 高可用性二.搭建HBase的本地模式…

跟上节奏大数据时代十大必备IT技能（转）

新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能. 新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体.3D打印机.物联网……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最新的IT技能.另一方面,云计算和大数据乃至其他助推各个行业发展的…

大数据时代数据库-云HBase架构&生态&实践

业务的挑战存储量量/并发计算增大现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 .起初,一个创业公司的基本思路就是首先架构一个或者几个ECS,后面加入MySQL,如果有图片需求还可加入磁盘,该架构的基本能力包括事务.存储.索引和计算力.随着公司的慢慢发展,数据量在不断地增大,其通过MySQL及磁盘基本无法满足需求,只有分布式化. 这个时候MySQL变成了HBase,检索变成了Solr/ES,再ECS提供的计算力变…

大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制

今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用场景等问得多.看来,还是非常注重基础的牢固.整个大数据开发技术,这几个技术知识点占了很大一部分.那本篇文章就着重介绍一下这几个技术知识点. 一.Hbase 1.1.Hbase是什么? HBase是一种构建在HDFS之上的分布式.面向列的存储系统.在需要实时读写.随机访问超大规模数据集时,可以使用HB…

大数据笔记（一）——Hadoop的起源与背景知识

一.大数据的5个特征(IBM提出): Volume(大量) Velocity(高速) Variety(多样) Value(价值) Varacity(真实性) 二.OLTP与OLAP 1.OLTP:联机事务处理过程,也称面向交易的处理过程,是对用户操作快速响应的方式之一.OLTP是传统的关系型数据库的主要应用,主要是基本的.日常的事务处理,例如银行交易: 开启事务——>从转出账号中扣钱——>往转入账号中加钱——>提交事务 2.OLAP:联机分析处理过程,是数据仓库系统的主要应用,支…

大数据软件安装之HBase（NoSQL数据库）

一.安装部署 1.Zookeeper正常部署 (见前篇博文大数据软件安装之ZooKeeper监控 ) [test@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start [test@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start [test@hadoop104 zookeeper-3.4.10]$ bin/zkServer.sh start 2.Hadoop正常部署 (见前篇博文大数据软件安装之H…

大数据-05-Spark之读写HBase数据

本文主要来自于 http://dblab.xmu.edu.cn/blog/1316-2/ 谢谢原作者准备工作一:创建一个HBase表这里依然是以student表为例进行演示.这里假设你已经成功安装了HBase数据库,如果你还没有安装,可以参考大数据-04-Hbase入门,进行安装,安装好以后,不要创建数据库和表,只要跟着本节后面的内容操作即可. 因为hbase依赖于hadoop,因此启动和停止都是需要按照顺序进行如果安装了独立的zookeeper 启动顺序: hadoop-> zookee…

大数据【七】HBase部署

接着前面的Zookeeper部署之后,现在可以学习HBase了. HBase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性.高性能.列存储.可伸缩.实时读写的分布式数据库系统,它是基于列而不是基于行的模式,适合存储非结构化数据. 体系结构:HBase是一个分布式的数据库,使用Zookeeper管理集群(点击此处进入Zookeeper部署),使用HDFS作为底层存储,它由HMaster和HRegionServer组成,遵从主从服务器架构.H…

(C/C++学习笔记) 十四. 动态分配

十四. 动态分配 ● C语言实现动态数组 C语言实现动态数组,克服静态数组大小固定的缺陷 C语言中,数组长度必须在创建数组时指定,并且只能是一个常数,不能是变量.一旦定义了一个数组,系统将为它分配一个固定大小的空间,以后不能改变,称为静态数组.但在编程过程中,有时我们所需的内存空间无法预先确定,对于这个问题,用静态数组的办法很难解决. 动态数组是相对于静态数组而言.静态数组的长度是预先定义好的,在整个程序中,一旦给定大小后就无法改变.而动态数组则不然,它可以随程序需要而重新指定大小.动态数组的内…

大数据笔记01：大数据之Hadoop简介

1. 背景随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. 为解决这些存储容量.读写速率.计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为: (1)MapReduce (2)BigTable (3)GFS 技术革命性: 革命性变化01:成本降低,能使用PC,就不用大型机和高端存储. 革命性变化02:软件容错…

Java基础学习笔记十四常用API之基本类型包装类

基本类型包装类 Java中有8种基本的数据类型,可是这些数据是基本数据,想对其进行复杂操作,变的很难.怎么办呢?在实际程序使用中,程序界面上用户输入的数据都是以字符串类型进行存储的.而程序开发中,我们需要把字符串数据,根据需求转换成指定的基本数据类型,如年龄需要转换成int类型,考试成绩需要转换成double类型等.那么,想实现字符串与基本数据之间转换怎么办呢?Java中提供了相应的对象来解决该问题,基本数据类型对象包装类:java将基本数据类型值封装成了对象.封装成对象有什么好处?可以提供更多…

大数据笔记（十四）——HBase的过滤器与Mapreduce

一. HBase过滤器 1.列值过滤器 2.列名前缀过滤器 3.多个列名前缀过滤器 4.行键过滤器5.组合过滤器 package demo; import javax.swing.RowFilter; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Result; import org.a…

大数据笔记（二十四）——Scala面向对象编程实例

===================== Scala语言的面向对象编程 ======================== 一.面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 class) 面向对象的特征: (1)封装 (2)继承 (3)多态二.定义类: class,没有类的修饰符: public.protected.private class Student1 { //定义属性 private var stuName:String = "Tom" privat…

大数据笔记（二十二）——大数据实时计算框架Storm

一. 1.对比:离线计算和实时计算离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR ---> HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume ---> Kafka ---> 流式计算 ---> Redis) 2.常见的实时计算(流式计算)代表 (1)Apache Storm (2)Spark Streaming (3)Apache Flink:既可以流式计算,也可以离线计算二.Storm的体系结构…

大数据笔记（十九）——数据采集引擎Sqoop和Flume安装测试详解

一.Sqoop数据采集引擎采集关系型数据库中的数据用在离线计算的应用中强调:批量 (1)数据交换引擎: RDBMS <---> Sqoop <---> HDFS.HBase.Hive (2)底层依赖MapReduce (3)依赖JDBC (4)安装:tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/ 设置环境变量: SQOOP_HOME=/root/training/sqoop-1.4.5.bin__had…

大数据笔记（三十）——一篇文章读懂SparkSQL

Spark SQL:类似Hive ======================================================= 一.Spark SQL基础 1.什么是Spark SQL? (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层:依赖RDD,把SQL语句转换成一个个RDD,运行在不同的Worker节点上 (*) 特点: (1)容易集…

大数据笔记（二十九）——RDD简介、特性及常用算子

1.什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions 一组分区,把数据分成了的不同的分区,每个分区可能运行在不同的worker * - A function for computi…

大数据笔记（二十五）——Scala函数式编程

===================== Scala函数式编程 ======================== 一.Scala中的函数 (*) 函数是Scala中的头等公民,就和数字一样,可以在变量中存放函数,即:将函数作为变量的值(值函数). def myFunc1(name:String):String = "Hello " + name println(myFunc1("Tom")) def myFunc2():String = "Hello W…

大数据笔记（十五）——Hive的体系结构与安装配置、数据模型

一．常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个 MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive HDFS 表目录数据文件分区目2 2.Pig 3.Impala 4.Spark SQL 二．Hive 的体系结构用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.W…

大数据笔记（十）——Shuffle与MapReduce编程案例（A）

一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上,nodemanager运行mapreduce程序的方式就是shuffle. 1.首先,数据在HDFS上是以数据块的形式保存,默认大小128M. 2.数据块对应成数据切片送到Mapper.默认一个数据块对应一个数据切块. 3.Mapper阶段 4.Mapper处理完,写到…

大数据笔记（三十二）——SparkStreaming集成Kafka与Flume

三.集成:数据源 1.Apache Kafka:一种高吞吐量的分布式发布订阅消息系统 (1) (*)消息的类型 Topic:主题(相当于:广播) Queue:队列(相当于:点对点) (*)常见的消息系统 Kafka.Redis -----> 只支持Topic JMS(Java Messaging Service标准):Topic.Queue -----> Weblogic (*)角色:生产者:产生消息消费者:接收消息(处理消息) (2)Kafka的消息系统的体系结构 (3)搭建Kafka的环…

大数据笔记（二十六）——Scala语言的高级特性

===================== Scala语言的高级特性 ========================一.Scala的集合 1.可变集合mutable 不可变集合immutable //不可变集合 val math = scala.collection.immutable.Map("Alice"->80,"Bob"->90) //可变集合 val chinese = scala.collection.mutable.Map("A…

大数据笔记（二十）——NoSQL数据库之MemCached

一.为什么要把数据存入内存? 1.原因:快2.常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据库,持久化(RDB.AOF) (*)Oracle TimesTen (*)SAP HANA 二.MemCached缓存技术 1.基本原理和体系结构 (*) 就是在内存中,维护一张巨大的Hash表 (*) MemCached通过一个路由算法(由客户端决定),来决定数据保存到哪一个节点上 2.安装和配置…

大数据笔记（十八）——Pig的自定义函数

Pig的自定义函数有三种: 1.自定义过滤函数:相当于where条件 2.自定义运算函数: 3.自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的jar包一.自定义过滤函数 package demo.pig; import java.io.IOException; import org.apache.pig.FilterFunc; import org.apache.pig.data.Tuple; //实现自定义的过滤函数,实现:查询过滤薪水大…

【大数据笔记（十四）——HBase的过滤器与Mapreduce】的更多相关文章