1.课程目标

实践性

2.课下需要

在家搭建一个伪分布式

3.大数据概念和意义

08年Nature第一次正式提出大数据概念

常规的数据库:结构化的数据库

TB级的结构化数据管理就很困难,需要分布式

当数据处理不完时一般两个方法:

1.改成多节点,分布式

2.对硬件的提升,比如一个cpu不行2个,服务器不行,再加服务器

大数据的4V

-价值高Value  价值密度低

-体量大Volume

-速度快Velocity

这边产生数据,那边就要出现分析,处理。  比如热搜,需要用实时框架,根据每天产生的速度得出来的。比如双11交易额,也用实时的。比如体育频道大数据的解说,足球的进球方式,足球的惯用脚这种。

-种类多Variety

来源广,维度多

在家直播平台很多,现在活下来的基本都和阿里和腾讯有关。做的即时通讯第一大厂,就是腾讯,所以腾讯会议比较稳定。同样一个直播,直播来源就很广(各种平台)。

维度多,是指比如直播时可以共享屏幕,可以全体点名。

大数据的技术支撑

硬件:CPU(单位计算力)存储的价格在降低

软件:像mapreduce这种并行分布式计算的框架比较成熟。

大数据最前沿是数据科学(大数据+人工智能),通过数据来知道对未来的规律

大数据需要加人工智能的手段。比如通过通讯录,知道人际关系网等等

课堂练习

大数据平台不一定要部署到云计算平台,只是部署在云计算平台效用更高。因为大数据有时需要很多很多的服务器同时并行。

云计算商业化程度高。大数据刚开始都是在裸机上跑。

大数据部署在裸机上运行效率更高,自己在家里可以装双操作系统。

不是说部署在在云计算上更快,而是效用更高。比如算天气的数据,就直接买云计算的服务,让它直接跑数据,而不用自己买大量的机器,用较少的钱(相比自己买机器)租赁完云计算后再还回去。云计算厂商还可以租赁给其他人。

计算:

哈哈哈哈哈老师现在说,非计算机专业特别喜欢讲数据清洗

一般把数据清洗弄成数据质检,过一遍数据,剔除掉错误的数据

海量数据到产生价值,期间通过存储,清洗,挖掘,分析等

存储和清洗是数据的预处理环节

挖掘分析是在找规律

  • 分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光
  • HDFS为海量的数据提供了存储
  • MapReduce则为海量的数据提供了并行计算,从而大大提高了计算效率

HDFS的强项是对海量数据进行管理

HDFS和MapReduce是Hadoop的两大支柱

其他技术:Spark,Storm,Implala,SCALA(相比MapReduce可以写更少的代码

智能:机器拥有理解数据的能力

河南省第一个智能数据中心就在我们院

让装备具有智能化

阿尔法狗战胜李世石

医学图像,通过海量数据进行训练,看看骨头有没有问题。

人工智能的算法越来越成熟,所以很流行。

对抗神经网络:通过拍很多人的照片,可以生成一个新的人脸,这个人脸是之前没有出现过的

Hadoop_课堂笔记1的更多相关文章

  1. 九章算法系列(#3 Binary Tree & Divide Conquer)-课堂笔记

    前言 第一天的算法都还没有缓过来,直接就进入了第二天的算法学习.前一天一直在整理Binary Search的笔记,也没有提前预习一下,好在Binary Tree算是自己最熟的地方了吧(LeetCode ...

  2. 九章算法系列(#5 Linked List)-课堂笔记

    前言 又是很长时间才回来发一篇博客,前一个月确实因为杂七杂八的事情影响了很多,现在还是到了大火燃眉毛的时候了,也应该开始继续整理一下算法的思路了.Linked List大家应该是特别熟悉不过的了,因为 ...

  3. 九章算法系列(#4 Dynamic Programming)-课堂笔记

    前言 时隔这么久才发了这篇早在三周前就应该发出来的课堂笔记,由于懒癌犯了,加上各种原因,实在是应该反思.好多课堂上老师说的重要的东西可能细节上有一些急记不住了,但是幸好做了一些笔记,还能够让自己回想起 ...

  4. 九章算法系列(#2 Binary Search)-课堂笔记

    前言 先说一些题外的东西吧.受到春跃大神的影响和启发,推荐了这个算法公开课给我,晚上睡觉前点开一看发现课还有两天要开始,本着要好好系统地学习一下算法,于是就爬起来拉上两个小伙伴组团报名了.今天听了第一 ...

  5. ocp11g培训内部教材_052课堂笔记(042)_体系架构

    OCP 052 课堂笔记 目录 第一部分: Oracle体系架构... 4 第一章:实例与数据库... 4 1.Oracle 网络架构及应用环境... 4 2.Oracle 体系结构... 4 3. ...

  6. ocp11g培训内部教材_051课堂笔记(047)_SQL

    OCP 051课堂笔记 目录 OCP 051课堂笔记... 1 第一章.Oracle命令类别:... 4 第二章.SQL的基本函数... 4 2.1 单行函数与多行函数... 4 2.2 单行函数的几 ...

  7. 线程(java课堂笔记)

    1.两种方式的差异 2.线程的生命周期 3.线程控制(线程的方法) 4.线程同步 5.线程同步锁 一. 两种方式的差异 A extends Thread :简单 不能再继承其他类了(Java单继承)同 ...

  8. Java课堂笔记(零):内容索引

    回想自己学习和使用Java的时间也是很长了.本科期间课堂上浅尝辄止地学习了点皮毛,后来也是搁置不用,未曾深入研究.研究生期间因为项目和实习的原因,基本算是重新拾起Java这门语言,并且接触到了Spri ...

  9. FPGA_VHDL 学习课堂笔记001

    FPGA_VHDL 学习课堂笔记   记录说明:本文档主要记录大学期间,老师FPGA授课课堂笔记. 代码语言:VHDL 编程软件:MAX+plus II FPGA硬件:FLE-843   03月05日 ...

随机推荐

  1. 【LeetCode】电话号码的字母组合

    [问题]给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合. 给出数字到字母的映射如下(与电话按键相同).注意 1 不对应任何字母. 示例: 输入:" 输出:["ad ...

  2. s5pc100开发板uboot移植

    相关软件下载地址:http://pan.baidu.com/s/16yo8Y 适用于fsc100开发板 交叉编译器arm-cortex_a8-linux-gnueabi-gcc u-boot-2010 ...

  3. 16 react 发送异步请求获取数据 和 使用Redux-thunk中间件进行 ajax 请求发送

    1.发送异步请求获取数据 1.引入 axios ( 使用 yarn add axios 进行安装 ) import axios from 'axios'; 2. 模拟 在元素完成挂载后加载数据 并初始 ...

  4. php mysql 由于目标计算机积极拒绝,无法连接 错误原因

    除了在网上百度的那些外,我的机器发生了这个错误 我需要用php远程连接mysql,在目标机上已经给了客户机权限,可是还是发生“ 由于目标计算机积极拒绝,无法连接”错误 在客户机上直接用终端连接目标机的 ...

  5. python阴阳鱼绘制(使用turtle)

    from turtle import * def draw(radius ,color1 , color2): #设置画笔的大小 width(3) #设置画笔颜色和填充颜色 color("b ...

  6. awk 总结

    说明:本文源于“朱双印博客”,原文地址:http://www.zsythink.net/archives/tag/awk awk 命令: 综合: awk功能是对“文本”进行格式化输出,形成报表:awk ...

  7. Map—数据结构

    map是数据结构的一种,map总是以key-value的形式保存数据的, 根据key来查找value的值,但是key的值是唯一的,在同一个map中不能重复. 常用的实现类java.util.hashM ...

  8. POJ - 3662 Telephone Lines (dijstra+二分)

    题意:有N个独立点,其中有P对可用电缆相连的点,要使点1与点N连通,在K条电缆免费的情况下,问剩下的电缆中,长度最大的电缆可能的最小值为多少. 分析: 1.二分临界线(符合的情况的点在右边),找可能的 ...

  9. k8s安装helm

    1.客户端安装 A.直接在github上下载二进制文件进行解压,下载地址:https://github.com/kubernetes/helm/releases B.将解压出来的二进制文件helm 拷 ...

  10. 操作实践:maven工程查找工程中多余的jar包

    声明:迁移自本人CSDN博客https://blog.csdn.net/u013365635 版本迭代过程中对jar的依赖可能会产生变化,一些本不必再依赖的jar包可以因为没有清除而依然留在版本的发布 ...