一.下载VMware并安装,至于安装教程从网上搜索进行参考 二.下载系统镜像文件,这里使用的是CentOS-6.5-x86_64-bin-DVD1.iso 三.安装镜像文件 运行VMware workstation,点击文件-新建虚拟机,出现以下窗口. 选择典型(个人推荐自定义,能更好的了解详细安装教程)下一步. 默认,下一步 选择稍后安装操作系统-下一步. 选择Linux,CentOS 64位,下一步 随便起个虚拟机名称,选择位置,下一步 默认,下一步 内存选择2GB,下一步 使用NAT类型进…
H2O是开源基于大数据的机器学习库包 H2O能够让Hadoop做数学,H2O是基于大数据的 统计分析 机器学习和数学库包,让用户基于核心的数学积木搭建应用块代码,采取类似R语言 Excel或JSON等熟悉接口,使的BigData爱好者和专家可以利用一系列简单的先进算法对数据集进行探索,建模和评估.数据收集是很容易,但是决 策是很难的. H2O使得能用更快更好的预测模型源实现快速和方便地数据的挖掘. H2O愿意将在线评分和建模融合在一个单一平台上. H2O提供了机器学习的培训手册供学习:H2O训练…
http://www.d1net.com/bigdata/news/325426.html 2014年11月,本文作者有机会和ZestFinance的创始人和首席执行官梅里尔(Douglas C.Merill)先生进行了面对面的交流.这位普林斯顿的认知学博士阐述了ZestFinance利用大数据进行信用风险管理的基本框架.基于和梅里尔梅里尔先生的交流,本文对ZestFinance的商业模式和大数据挖掘技术进行进一步的解读,希望能够对中国未来的大数据征信有一些启示. 信息技术的进步驱动了消费者信用…
1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 来修改ip地址,然后重启网络服务service network restart即可. 2)创建用户 大数据项目开发中,一般不直接使用root用户,需要我们创建新的用户来操作,比如kfk. a)创建用户命令:adduser kfk b)设置用户密码命令:passwd kfk 3)文件中设置主机…
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python.Scala.Java和R语言 5)Spark SQL不仅仅是SQL 6)Spark SQL远远比SQL要强大 7)Spark SQL处理数据架构 8)Spark SQL简介 Spark SQL is a Spar…
说起互联网.电商的数据分析,更多的是谈应用案例,如何去实践数据化管理运营.而这里,我们要从技术角度分享关于数据的技术架构干货,如何应用BI. 原文是云猴网BI总经理王卫东在帆软大数据上的演讲,以下是整理的文字稿. 在电商领域,我们一般认为所有的数据都可以分为四大类型,流量.销量.商品和会员,这也是最基础的报表需求. 流量部分,可以分为受访.点击.搜索.来源等等.这些流量信息运用的重点在于一些广告包括一些产品的改版以及搜索引擎的相关信息展示.虽然这方面百度.GA可以给你提供这方面的信息,但未必能完…
一.项目简介 这是一个车辆监控项目.主要实现了三个功能: 1.计算每一个区域车流量最多的前3条道路. 2.计算道路转换率 3.实时统计道路拥堵情况(当前时间,卡口编号,车辆总数,速度总数,平均速度) 二.项目结构 ├─TrafficBySparkAndKafka ├─data └─src ├─main │ ├─java │ │ └─vip │ │ ├─producedate2hive(模拟数据到文件和Hive) │ │ ├─shuai7boy │ │ │ └─trafficTemp │ │ │…
一.前言 由于线下测试的需要,需要在公司线下(测试)环境搭建大数据集群. 那么CDH是什么? hadoop是一个开源项目,所以很多公司再这个基础上进行商业化,不收费的hadoop版本主要有三个,分别是: (1)Apache,最原始的版本,所有发行版均基于这个版本进行改进 缺点:版本部署混乱,部署过程繁杂,升级过程繁杂,兼容性差,安全性差 (2)CDH版本,在Apache基础上,进行了封装,处理了不同版本的兼容问题.有用户管理界面 (3)Hotnowork版本. 由于公司测试环境的内存有限(8G)…
impala2.12 官方:http://impala.apache.org/ 一 简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon. impala是hadoop上的开源分析性数据库:C++和java语言开发: Do BI-style Queries on Hadoop Im…
之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下: 1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] 启动正常情况下安装,hadoop安装可参考LZ的文章 大数据系列之Hadoop分布式集群部署 2. 资料包  zookeeper-3.4.9.tar.gz,hbase-1.2.4-bin.tar.gz 2. 安装步骤: 1.安装zookeeper 1.解压zookeeper-3.4.9.tar.gz…
好了,从今天开始就开始正式的进入大数据道路的轨道上了,当然了,Java 也是需要不断地在日后进行反复地学习,熟练掌握.(这里我要说一下,Java种还有一些I/O流.Lambda表达式和一些常用工具类有关的博客没有更新.在后面的学习中,我会抽空进行补充.) 在此之前,希望每个学习大数据的童鞋们,电脑的内存一定要在8G以上!!!!! 废话不多说,上干货!! 一.VMware的下载与安装 我这里安装的是Vmware14 根据经验,会有一小部分人的电脑可能会装不上14的版本,这里我给出(Vmware15…
本文转载自:http://www.itwendao.com/article/detail/227839.html Android驱动开发之Hello实例:   驱动部分 modified:   kernel/arch/arm/configs/msm8909-1gb_w100_hd720p-perf_defconfig modified:   kernel/arch/arm/configs/msm8909-1gb_w100_hd720p_defconfig modified:   kernel/d…
1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档. 2.IDEA Maven工程创建与配置 1)配置maven 2)新建Project项目 3)选择maven骨架 4)创建项目名称 5)选择maven地址 6)生成maven项目 7)选择scala版本 8)新建Java 和 scala目录 9)编辑pom.xml文件 a)地址一 b)地址二 3.开发Spark Application程序并进行本地测试 1)idea编写WordCount程序 package com.…
1.基于业务需求的WEB系统设计 2.下载Tomcat并创建Web工程并配置相关服务 下载tomcat,解压并启动tomcat服务. 1)新建web app项目 创建好之后的效果 2)对tomcat进行配置 3.Web系统数据处理服务层开发 WeblogService代码开发 package com.spark.service; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedS…
本讲会对种子搜索网站的部署过程进行详细的讲解. 网站演示: https://bt.mypython.me 源码地址: https://github.com/geeeeeeeek/bt 项目部署过程 系统要求:ubuntu 16.04(或以上) 环境搭建和配置,必须严格按照以下步骤来安装部署!如有问题可以咨询(微信:java2048) 安装部分 安装nginx sudo apt install nginx 安装python3和pip3 sudo apt install python3sudo ap…
1.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台. 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理. 在处理大规模数据集时,速度是非常重要的.速度快就意味着我们可以进行交互式的数据操作, 否则我们每次操作就需要等待数分钟甚至数小时. Spark 的一个主要特点就是能够在内存中进行计算, 因而更快.不过即使是必须在磁盘上进行的复杂计算, Spark 依然比 MapReduce 更加高效. 2.Sp…
1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的.通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等. 2)下载 CDH版本下载 官网下载 2.编译安装 1)解压 tar -zxf hue-3.9.0-cdh5.5.0.…
1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 1)基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了.当然这个算法所能容忍的是最多有N台机器挂掉,如果多于N台挂掉,这个算法就失效了.这个原理是基于Paxos算法 2)在HA架构里面Seco…
1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams 2.NC服务安装并运行Spark Streaming 1)在线安装nc命令 yum install -y nc 2)运行Spark Streaming…
前提准备:利用sql筛选出每个球出现概率最高的前5个数 原理:先爬出所有的历史数据,然后模拟摇奖机出球的机制并大量模拟计算,直到出现列表中的某一个数后即停 注意事项:由于计算过程数据量很大,需要加入内存释放的操作 成果:目前博主最好记录是中了3红1蓝,适合学习交流使用,信则有 #coding=utf-8 import random import time import gc import datetime from collections import Counter try: dt = dat…
目录 Maven项目的创建及相关配置 一.Maven的介绍 1.Maven是什么: 2.Maven作用: 3.Maven项目的目录结构: 4.Maven的三点坐标: 5.maven的pom文件: 6.maven的库: 7.maven的生命周期: 8.Maven的插件: 二.创建maven项目 1.创建步骤 2.本地库的问题解决 Maven项目的创建及相关配置 @ *** 一.Maven的介绍 1.Maven是什么:    Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,…
(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive. Cloudera版本的Hive. 这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pro03.kfk.com节点的/opt/softwares/目录下. 2.解压安装hive tar -zxf apache-hive-0.…
1.下载Flume源码并导入Idea开发工具 1)将apache-flume-1.7.0-src.tar.gz源码下载到本地解压 2)通过idea导入flume源码 打开idea开发工具,选择File——>Open 然后找到flume源码解压文件,选中flume-ng-hbase-sink,点击ok加载相应模块的源码. 2.官方flume与hbase集成的参数介绍 3.下载日志数据并分析 到搜狗实验室下载用户查询日志 1)介绍 搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索…
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. 1.flume节点服务设计 2.下载Flume并安装 1)下载Apache版本的Flume. 2)下载Cloudera版本的Flume. 3)这里选择下载Apache版本的apache-flume-1.7.0-bin.tar.gz ,然后上传至bigdata-p…
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spark都支持与Kafka集成. 1.下载Kafka并安装 1)下载Apache版本的Kafka. 2)下载Cloudera版本的Kafka. 3)这里选择下载Apache版本的kafka_2.11-0.8.2.1.tgz ,然后上传至bigdata-pro01.kfk.com节点/opt/softwa…
HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群. HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统:Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据:Google…
ZooKeeper 是一个针对大型分布式系统的可靠协调系统:它提供的功能包括:配置维护.名字服务.分布式同步.组服务等: 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效.功能稳定的系统提供给用户: ZooKeeper 已经成为 Hadoop 生态系统中的基础组件. Zookeeper可以选择Apache版本,也可以选择Cloudera版本. 1)下载Apache版本的Zookeeper. 2)下载Cloudera版本的Zookeeper. 1.下载Zookeeper 这里选择…
(一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 1.基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进. 2.基于HortonWorks厂商的开源免费的hdp版本. 3.基于Cloudera厂商的cdh版本,Cloudera有免费版和企业版, 企业版只有试用期.不过cdh大部分功能都是免费的. (二)hadoop2.x分布式集群配置 1.集群资源规划设计 2.hadoop2.x分布式集群配置 1)hadoop2…
1.三大弹性数据集介绍 1)概念 2)优缺点对比 2.Spark RDD概述与创建方式 1)概述 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区.RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序. 通过对RDD的操作形成整个Spark程序. 2)创建方式 a)创建方式一 val data = Array(1, 2, 3, 4,…
1.修改yum源 鉴于用国外的Yum源,速度比较慢,所以想到将国外的yum源改为国内的Yum源,这里选择使用比较多的阿里云源.具体修改方法可以参考此连接 2.在线安装mysql 通过yum在线mysql,具体操作命令如下所示. yum clean all yum install mysql-server 3.mysql 服务启动并测试 1)查看mysql服务状态 service mysqld status 2)启动mysql服务 service mysqld start 3)设置mysql密码…