AWS - [01] 概述】的更多相关文章

kafka详解(01) - 概述 定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域. 消息队列 MQ传统应用场景之异步处理 使用消息队列的好处 1)解耦 允许独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2)可恢复性 系统的一部分组件失效时,不会影响到整个系统.消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理. 3)缓冲 有助于控制和优化数据流经过系统…
Zookeeper详解(01) -概述 概念 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目. Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应. Zookeeper = 文件系统 + 通知机制 特点 1)Zookeeper:一个领导者(Leader),多…
[DE] ML on Big data: MLlib 关于 Amazon EMR 发布版本 利用 Amazon EMR 分析大数据 Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 直接分析 Amazon S3 中的数据. EMR 解决Hadoop集群部署和管理的难题: Amazon CloudSearch 是一款在 AWS 云中托管的服务,可让您简单且经济高效地为网站或应用程序设置.管理或扩展搜索解决方案. Elasticsearch Service Kinesi…
摘要 对vtk版本4和5的管道机制重新架架构的主要目的是:迁移数据对象和算法对象中的管道执行逻辑到一个新集合的类中,我们称这个集合类叫executives.分离数据和执行模型的代码后,可以双双简化修改或者扩展管道机制的难度及工作量.VTK4和5之间的更改相当好取得的第一个目标,但不是解决第二个目标.本文所述的工作有两个主要目标: 删除在vtk5中为了兼容vtk4而引入的兼容层,简化vtk6 的可视化工具包. 继续开展在vtk5中开始的工作,完全分离数据模型和执行模型. 这项工作是要付出代价:该文…
1.NoSQL数据库简介 解决应用服务器的CPU和内存压力:解决数据库服务的IO压力: ----->>> ① session存在缓存数据库(完全在内存里),速度快且数据结构简单: 打破了传统关系型数据库以业务逻辑为依据的存储模式,而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K, V. ② 缓存数据库:减少io的读操作(缓存数据库中有的直接从缓存数据库里边去取,没有再去数据库里边查找,减少了IO的操作): 列式数据库如Hbase.文档数据库Mongodb:水平切分.…
概述 数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源 数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载 数据仓库引擎 前端展示 数据查询 数据报表 数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…
目录 AWS网络服务 VPC Direct Connect Route53 AWS 计算服务 EC2 EMR(Elastic MapReduce) AWS Lambda Auto Scaling Elastic Load Balancing AWS Elastic Benstalk AWS 存储 存储类型 EBS存储 S3 S3 Glacier AWS Storage Gateway CloudFront AWS 数据库 RDS DynamoDB Redshift ElastiCache 管理工…
实例概念: Oracle有一个特殊的概念 Oracle数据库 = 数据库 + Oracle文件系统 + Oracle实例 实例处理Oracle的请求,调用文件系统 然后返回结果响应给客户端 单实例和多实例 一个数据库可以对应多个实例操作 数据库服务 这是Oracle数据库的服务,一定要安装 如果找不到此服务 可以在这里配置 在这里设置 监听器: 用于侦听客户端的请求,相当于我们的感知器,只有收到这个请求才能对客户端响应 两种非正常情况: - 没装,无法监听请求 - 装了,不能正常监听 关于监听设…
一.概述 1.介绍 对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行处理(Python) DataStream API(流处理):对分布式流数据处理,从而进行各种操作 Table API:将结构化数据抽象为关系表,并使用类SQL的DSL的表进行查询 其他特定领域的库,例如机器学习.图计算 2.分层架构介绍 (1)介绍 分层架构,下层组件提供抽象服务于上层 (2)自下…
HTTP 协议 http 是tcp/ip上层协议, 如果你对这些网络协议还不是太熟悉, 下面提供一个非常简单的解释, tcp负责确保从一个网络节点向另一个网络节点发送文件能作为一个完整的文件到达目的地,尽管在具体传输过程中这个文件可能会分解为小块传送, ip是一个底层协议, 负责把数据块(数据包) 沿路移动/路由到目的地. http则是另一个网络协议, 有一些web特定的性质, 不过它要依赖于tcp/ip从一处向另一处完整的传送请求和响应. 端口表示在服务器硬件上运行的一个特定软件的逻辑连接,…