【慕课网实战】Spark Streaming实时流处理项目实战笔记十七之铭文升级版

铭文一级：

功能1：今天到现在为止实战课程的访问量

yyyyMMdd courseid

使用数据库来进行存储我们的统计结果
Spark Streaming把统计结果写入到数据库里面
可视化前端根据：yyyyMMdd courseid 把数据库里面的统计结果展示出来

选择什么数据库作为统计结果的存储呢？
RDBMS: MySQL、Oracle...
day course_id click_count
20171111 1 10
20171111 2 10

下一个批次数据进来以后：
20171111 + 1 ==> click_count + 下一个批次的统计结果 ==> 写入到数据库中

NoSQL: HBase、Redis....
HBase：一个API就能搞定，非常方便
20171111 + 1 ==> click_count + 下一个批次的统计结果
本次课程为什么要选择HBase的一个原因所在

前提：
HDFS
Zookeeper
HBase

HBase表设计
创建表
create 'imooc_course_clickcount', 'info'
Rowkey设计
day_courseid

如何使用Scala来操作HBase

铭文二级：

启动Hbase要先启动HDFS、ZooKeeper

Hadoop的启动，sbin文件夹：

./start-dfs.sh

HBase的启动，bin文件夹:

./start-hbase.sh

1、建表：create 'imooc_course_clickcount','info'

查看表：list

查看表详情：desc imooc_course_clickcount　　//desc 'imooc_course_clickcount'

2、Rowkey的设计：day_courseid

3、建CourseClickCount类（day_course,click_count）

4、HBaseUtils工具类的实现

package com.imooc.spark.project.utils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;

/**

 * HBase操作工具类：Java工具类建议采用单例模式封装

 */

public class HBaseUtils {

    HBaseAdmin admin = null;

    Configuration configuration = null;

    /**

     * 私有改造方法

     */

    private HBaseUtils(){

        configuration = new Configuration();

        configuration.set("hbase.zookeeper.quorum", "hadoop000:2181");

        configuration.set("hbase.rootdir", "hdfs://hadoop000:8020/hbase");

        try {

            admin = new HBaseAdmin(configuration);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    private static HBaseUtils instance = null;

    public  static synchronized HBaseUtils getInstance() {

        if(null == instance) {

            instance = new HBaseUtils();

        }

        return instance;

    }

    /**

     * 根据表名获取到HTable实例

     */

    public HTable getTable(String tableName) {

        HTable table = null;

        try {

            table = new HTable(configuration, tableName);

        } catch (IOException e) {

            e.printStackTrace();

        }

        return table;

    }

    /**

     * 添加一条记录到HBase表

     * @param tableName HBase表名

     * @param rowkey  HBase表的rowkey

     * @param cf HBase表的columnfamily

     * @param column HBase表的列

     * @param value  写入HBase表的值

     */

    public void put(String tableName, String rowkey, String cf, String column, String value) {

        HTable table = getTable(tableName);

        Put put = new Put(Bytes.toBytes(rowkey));

        put.add(Bytes.toBytes(cf), Bytes.toBytes(column), Bytes.toBytes(value));

        try {

            table.put(put);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        //HTable table = HBaseUtils.getInstance().getTable("imooc_course_clickcount");

        //System.out.println(table.getName().getNameAsString());

        String tableName = "imooc_course_clickcount" ;

        String rowkey = "20171111_88";

        String cf = "info" ;

        String column = "click_count";

        String value = "2";

        HBaseUtils.getInstance().put(tableName, rowkey, cf, column, value);

    }

}

　关键：

HBaseAdmin、Configuration

configuration.set("hbase.zookeeper.quorum", "hadoop000:2181");

configuration.set("hbase.rootdir", "hdfs://hadoop000:8020/hbase");

private static HBaseUtils instance = null;

    public  static synchronized HBaseUtils getInstance() {

        if(null == instance) {

            instance = new HBaseUtils();

        }

        return instance;

}

HBaseUtils.getInstance().put(tableName, rowkey, cf, column, value);

5、CourseClickCountDAO类数据访问层的实现

package com.imooc.spark.project.dao

import com.imooc.spark.project.domain.CourseClickCount

import com.imooc.spark.project.utils.HBaseUtils

import org.apache.hadoop.hbase.client.Get

import org.apache.hadoop.hbase.util.Bytes

import scala.collection.mutable.ListBuffer

/**

  * 实战课程点击数-数据访问层

  */

object CourseClickCountDAO {

  val tableName = "imooc_course_clickcount"

  val cf = "info"

  val qualifer = "click_count"

  /**

    * 保存数据到HBase

    * @param list  CourseClickCount集合

    */

  def save(list: ListBuffer[CourseClickCount]): Unit = {

    val table = HBaseUtils.getInstance().getTable(tableName)

    for(ele <- list) {

      table.incrementColumnValue(Bytes.toBytes(ele.day_course),

        Bytes.toBytes(cf),

        Bytes.toBytes(qualifer),

        ele.click_count)

    }

  }

  /**

    * 根据rowkey查询值

    */

  def count(day_course: String):Long = {

    val table = HBaseUtils.getInstance().getTable(tableName)

    val get = new Get(Bytes.toBytes(day_course))

    val value = table.get(get).getValue(cf.getBytes, qualifer.getBytes)

    if(value == null) {

      0L

    }else{

      Bytes.toLong(value)

    }

  }

  def main(args: Array[String]): Unit = {

    val list = new ListBuffer[CourseClickCount]

    list.append(CourseClickCount("20171111_8",8))

    list.append(CourseClickCount("20171111_9",9))

    list.append(CourseClickCount("20171111_1",100))

    save(list)

    println(count("20171111_8") + " : " + count("20171111_9")+ " : " + count("20171111_1"))

  }

}

　关键：

val tableName = "imooc_course_clickcount"

val cf = "info"

val qualifer = "click_count"

def save(list: ListBuffer[CourseClickCount]): Unit = {

for(ele <- list) {

      table.incrementColumnValue(Bytes.toBytes(ele.day_course),

        Bytes.toBytes(cf),

        Bytes.toBytes(qualifer),

        ele.click_count)

    }

def count(day_course: String):Long = {

val value = table.get(get).getValue(cf.getBytes, qualifer.getBytes)

HBaseUtils.getInstance().put(tableName, rowkey, cf, column, value);

Bytes.toBytes(day_course)　等价　day_course.getBytes

if(value == null) {}　　//scala里面跟java的equals一样

list.append(CourseClickCount("20171111_8",8))

list.append(CourseClickCount("20171111_9",9))

6、在ImoocStatStreamingApp里原先代码参考：

// 测试步骤一：测试数据接收

    //messages.map(_._2).count().print

    // 测试步骤二：数据清洗

    val logs = messages.map(_._2)

    val cleanData = logs.map(line => {

      val infos = line.split("\t")

      // infos(2) = "GET /class/130.html HTTP/1.1"

      // url = /class/130.html

      val url = infos(2).split(" ")(1)

      var courseId = 0

      // 把实战课程的课程编号拿到了

      if (url.startsWith("/class")) {

        val courseIdHTML = url.split("/")(2)

        courseId = courseIdHTML.substring(0, courseIdHTML.lastIndexOf(".")).toInt

      }

      ClickLog(infos(0), DateUtils.parseToMinute(infos(1)), courseId, infos(3).toInt, infos(4))

    }).filter(clicklog => clicklog.courseId != 0)

　　添加代码：

    // 测试步骤三：统计今天到现在为止实战课程的访问量

    cleanData.map(x => {

      // HBase rowkey设计： 20171111_88

      (x.time.substring(0, 8) + "_" + x.courseId, 1)

    }).reduceByKey(_ + _).foreachRDD(rdd => {

      rdd.foreachPartition(partitionRecords => {

        val list = new ListBuffer[CourseClickCount]

        partitionRecords.foreach(pair => {

          list.append(CourseClickCount(pair._1, pair._2))

        })

        CourseClickCountDAO.save(list)

      })

    })

【慕课网实战】Spark Streaming实时流处理项目实战笔记十七之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

7-安装Spark
1.Apache Hadoop2.7中的YARN与JAVA8有冲突,如果想要使用spark on yarn,首先需要在yarn-site.xml中配置如下项: <property> < ...
jsp jstl quote symbol expected
org.apache.jasper.JasperException: /WEB-INF/jsp/user/index.jsp (line: 2, column: 27) quote symbol ex ...
分布式计算课程补充笔记 part 1.5
▶ 编写 SLURM 脚本 #!/bin/bash #SBATCH -J name # 任务名 #SBATCH -p gpu # 分区名,可为 cpu 或 gpu #SBATCH -N # 节点数 # ...
scrollview嵌套recyclerview卡顿现象
方式一xml: android:nestedScrollingEnabled="false" <android.support.v7.widget.RecyclerView ...
django admin 设置（转载https://www.cnblogs.com/wumingxiaoyao/p/6928297.html）
Django admin 一些有用的设置 Django自带的后台管理是Django明显特色之一,可以让我们快速便捷管理数据.后台管理可以在各个app的admin.py文件中进行控制.以下是我最近摸 ...
使用AsyncTask类实现简单的异步处理操作
AsyncTask: 1.这是一种相比Handler更轻量级的处理异步任务的工具类 2.它和Handler类一样,都是为了不影响主线程(UI)而使用的((注:UI的更新只能在主线程中完成) 3.这个工 ...
java.util.Stack类中的peek()方法
java.util.stack类中常用的几个方法:isEmpty(),add(),remove(),contains()等各种方法都不难,但需要注意的是peek()这个方法. peek()查看栈顶的对 ...
获取relatedTarget属性
在做mouseenter与mouseleave的兼容时,我们需要用到事件对象的relatedTarget属性 function getRelatedTarget(e) { var t = e.rela ...
lastIndexOf() 找出指定元素出现的所有位置（返回的是下标数组）---lastIndexOf() 这个方法是倒叙查找，正序的是indexOf()
var indices = []; var array = ['a', 'b', 'a', 'c', 'a', 'd']; var element = 'a'; var idx = array.las ...
网络抓包工具 wireshark 入门教程
Wireshark Wireshark(前称Ethereal)是一个网络数据包分析软件.网络数据包分析软件的功能是截取网络数据包,并尽可能显示出最为详细的网络数据包数据.Wireshark使用WinP ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记十七之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记十七之铭文升级版的更多相关文章

随机推荐

热门专题