2014-07-08 Created By BaoXinjian…
Hadoop 系列(一)基本概念 一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储. 从其定义就可以发现,它解決了两大问题:大数据存储.大数据分析.也就是 Hadoop 的两大核心:HDFS 和 MapReduce. HDFS(Hadoop Distributed File System)是可扩展.容错.高性能的分布式文件系统,异步复制,一次写入多次读取,…
Storm 系列(一)基本概念 Apache Storm(http://storm.apache.org/)是由 Twitter 开源的分布式实时计算系统. Storm 可以非常容易并且可靠地处理无限的数据流.对比 Hadoop 的批处理, Storm 是一个实时的.分布式的.具备高容错的计算系统. Storm 的使用场景非常广泛,比如实时分析.在线机器学习.分布式 RPC.ETL 等.Storm 非常高效,在一个多节点集群上每秒钟可以轻松处理上百万条的消息. Storm 还具有良好的可扩展性和…
Zookeeper 系列(一)基本概念 https://www.cnblogs.com/wuxl360/p/5817471.html 一.分布式协调技术 在给大家介绍 ZooKeeper 之前先来给大家介绍一种技术--分布式协调技术.那么什么是分布式协调技术?那么我来告诉大家,其实 分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果. 这时,有人可能会说这个简单,写一个调度算法就轻松解决了.说这句话的人,可能对分布式…
Hbase 系列(一)基本概念 HBase 是 Apache 旗下一个高可靠性.高性能.面向列.可伸缩的分布式存储系统.利用 HBase 技术可在廉价 PC 服务器上搭建起大规模的存储化集群.使用 HBase 可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性. 一.HBase 基本概念 大数据具有以下特征:volume(体量大).variety(样式多).velocity(速度快).valueless(价值密度低) Hbase(Hadoop Databa…
Neural Turing Machines-NTM系列(一)简述 NTM是一种使用Neural Network为基础来实现传统图灵机的理论计算模型.利用该模型.能够通过训练的方式让系统"学会"具有时序关联的任务流. 论文:http://arxiv.org/abs/1410.5401 中文翻译:p=60" target="_blank">http://www.dengfanxin.cn/?p=60 ppt:http://llcao.net/cu-de…
转自:http://www.cnblogs.com/fengfenggirl/p/associate_apriori.html 数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法 我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘.分类.聚类的常用算法,敬请期待.今天讲的是关联规则挖掘的最基本的知识. 关联规则挖掘在电商.零售.大气物理.生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和 Aprori 算法. 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了…
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[FICO系列]SAP FICO 基本概念   前言部分 大家可以关注我的公众号,公众号里的排版更好,阅读更舒适. 正文部分 SAP FICO 基本概念的认识是学习SAP的重要环节.每一个SAP从业者都对这些概念不陌生,理解透了这些概念,对SAP的业务体系构架才能有明确地认识.1.集团(client)的概念:是SAP中的最高等级:每一个集团建立主…
pacman 包管理器相关设定 使用国内源 sudo pacman-mirrors -i -c China -m rank 设定 archlinuxcn 源 编辑/etc/pacman.conf,末尾添加: [archlinuxcn] SigLevel = Optional TrustedOnly Server = http://mirrors.ustc.edu.cn/archlinuxcn/$arch Server = https://mirrors.tuna.tsinghua.edu.cn/…
前言: 学了几天storm的基础,发现如果有hadoop基础,再理解起概念来,容易的多.不过,涉及到一些独有的东西,如调度,如并发度,还是很麻烦.那么,从这一篇开始,力争清晰的梳理这些知识. 在正式学习并发之前,有必要先明确几个基本概念的定义,以及具体作用. 一.基础概念 1.1 Topology 原意拓扑.可以把他理解为是hadoop中的job,他是把一系列的任务项组装后的一个结果. 1.2 Spout 是任务的一种,作用是读取数据,然后组装成一定的格式,发射出去. 1.3 Bolt 是另一种…