[DB] 大数据概述】的更多相关文章

什么是大数据 电商推荐系统 大量订单如何存储(十年) 大量的订单如何计算(不关心算法) 天气预报 大量的天气数据如何存储 大量天气数据如何计算 核心问题 数据的存储:分布式文件系统(HDFS) 数据的计算:分布式计算(MapReduce.Spark RDD) 数据仓库 传统方式:搭建数据仓库(Data Warehouse)解决大数据问题 数据仓库就是一个数据库(Oracle.MySQL.MS) Oracle DBCA 一般只做查询(select) 大数据也是一般只做查询(分析,不修改数据) Ha…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
大数据为什么要选择Spark Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析. Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级. Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀. 在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonwor…
第15章 大数据与MapReduce 大数据 概述 大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据 场景 假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则随意浏览后就离开. 对于你来说,可能很想识别那些有购物意愿的用户. 那么问题就来了,数据集可能会非常大,在单机上训练要运行好几天. 接下来:我们讲讲 MapRedece 如何来解决这样的问题 MapRedece Hadoop 概述 Hadoop 是 MapRedece 框架的一个免费开源实现. Ma…
大数据 概述 大数据是新处理模式才能具备更多的决策力,洞察力,流程优化能力,来适应海量高增长率,多样化的数据资产. 大数据面临的问题 怎么存储海量数据(kb,mb,gb,tb,pb,eb,zb) 怎么对数据进行降噪处理(对数据进行清洗,使得数据变废为宝,提取有用的数据,减少不必要的数据资源空间的释放) 处理方案 hadoop 是一种分布式文件存储系统来解决存储的问题,其中hdfs用来解决数据存储问题,mapReduce来解决如何进行建造处理 hadoop是什么? 由来? 根据google发布的3…
说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金量高.专注度高,有6个专题+2个大型项目+腾讯云服务器,真枪实弹传授上千大数据集群运维经验.   课程介绍:   这是专门为IT运维人员设计的高端大数据课程,可能也是目前的 only  one!课程内容从100多份招聘要求中萃取知识点,再邀请几位年薪60W+的大数据运维专家共同商讨打磨而成.传统运维…
前言 之前工作中,有接触到大数据的需求,虽然当时我们体系有专门的大数据部门,但是由于当时我们中台重构,整个体系的开发量巨大,共用一个大数据部门,人手已经忙不过来,没法办,为了赶时间,我自己负责的系统的大数据相关操作,由我们自己承担了.此前对大数据的知识了解的很少,于是晚上回去花时间突击大数据知识,白天就开始上手干,一边学一边做,总算在部门规定的时间,跟系统一起上线了.后来的维护迭代就交给大数据去了,虽然接触大数据的时间不长,但是对我来说,确是很有意思的一段经历,觉得把当时匆匆学的知识点,再仔细回…
第一章 基础概述 1.1 基于现状的一些思考 在过去十几年里,随着互联网产业的普及和高速发展,各种格式的互联网数据也呈现爆炸性增长之势.与此同时,在数据应用的另一个重要领域:商业和科学计算,在各种新兴技术和产业需求的推动下,对数据存储和计算要求也日益提高,并且对计算数据的准确性和精度也远高于互联网数据.而在这些现象的背后,当前的数据计算早已经突破MB量级,GB成为常态,TB变得流行,正在向PB迈进的时候,面对如此庞大的数据量,如果管理和使用它们,满足各种计算需求,发现和筛选其中有价值的信息,通常…
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Server2.6 配置 Spark HA2.7 配置 Spark Yarn 模式第3章 执行 Spark 程序3.1 执行第一个 spark 程序3.2 Spark 应用提交3.3 Spark shell3…
一.大数据存储和计算的各种框架即工具 1.存储:HDFS:分布式文件系统   Hbase:分布式数据库系统   Kafka:分布式消息缓存系统 2.计算:Mapreduce:离线计算框架   storm:实时流式计算   spark:离线批处理/实时流处理计算框架(MR的二次封装) 3.辅助类工具:hive:数据仓库工具   flume:数据采集工具   sqoop:数据迁移工具 二.大数据应用场景: 典型应用:公司运营情况 =>典型网站:CNZZ.数据专家.友盟 电商广告推荐系统:淘宝.京东.…