第一章相对简单,也么有什么需要记录的内容,主要用到的工具的简介及环境配置,粗略的过一下就行了.下面我们开始第二章的学习 CHAPTER 22.2Python Language Basics, IPython, and Jupyter Notebooks when you first meet the python ,you may be confuse by In [6]: data = {i : np.random.randn() for i in range(7)} In [7]: data…
由于第三章的内容比较多,这里我们拆分成两篇读书笔记来记录.上一章我们聊了聊如何数据库是如何实现存储和检索的,今天这篇我们继续来看看OLTP与OLAP存储引擎的区别与联系. 1.OLTP与OLAP 联机事务处理过程(On-Line Transaction Processing)也就是我们通常称之的OLTP. 联机分析处理过程(On-Line Analysis Processing)则被称为OLAP. 在文中,作者列出了两类处理过程的区别,我们来一一梳理一下: OLTP的应用通常读写较少的数据,处理…
坦白说也是机缘巧合,在硕士生阶段进入分布式系统领域学习.无论是大规模存储或计算,其核心也是运用分布式技术利用并行性来解决数据密集型应用的需求.最近开始在啃这本<Designing Data-Intensive Applications>大部头,作者Martin Kleppmann在分布式数据系统领域有着很深的功底,并在这本书中完整的梳理各类纷繁复杂设计背后的技术逻辑,不同架构之间的妥协与超越,很值得开发人员与架构设计者阅读. 很可惜的是国内目前并没有对应的中文版本,这个系列算是一个读书感悟,同…
进入到第五章了,来到了分布式系统之中最核心与复杂的内容:副本与一致性.通常分布式系统会通过网络连接的多台机器上保存相同数据的副本,所以在本篇之中,我们来展开看看如何去管理和维护这些副本,以及这个过程之中会遇到的各种问题. 1.副本 在数据系统之中,我们通常会有这样几个原因来使用副本技术: 保持地理位置接近用户,从而减少延迟(如:Cache,CDN技术) 提高系统的可用性和鲁棒性,即使系统中的某些部分已经失效了,仍然可以对外提供服务.(如:GFS三副本的设计) 通过扩展性来提供读查询,从而增加读取…
之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方. 数据仓库的基本概念: 数据仓库的定义——面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库——关于数据的数据 理解OLAP,数据仓库,数据…
数据模型是开发软件的最重要的部分,因为它们对应用程序有着深远的影响:不仅是软件的编写方式,而且也影响我们如何解决的问题的方式.第二篇读书笔记,我们聊一聊数据模型的设计. 1.数据模型的分层 作为一个开发者来说,在一个复杂的应用程序中,是存在很多分层模型的,但基本思想还是一样的:每一层都提供了一个干净的数据模型,从而隐藏了底层的复杂性.通过这样的抽象来允许不同的人群有效地协同工作. 每个数据模型都包含了如何使用它的假设.有些用法很容易,有些不支持:有些操作很快,有些执行不好:有些数据转换很自然,有…
在本书中,你将学习到以下内容: 规划&设计你的ETL系统 从多种可能的架构中选出最合适的 对实施过程进行管理 管理日常的操作 为ETL过程建立开发/测试/生产环境 理解不同的后台数据结构,包括平面文件.规范化框架.XML框架和星型连接(维度)框架 分析和抽取源数据 创建完整的数据清洗子系统 将数据结构化为维度框架,以便更有效提交给最终用户.商务智能工具.数据挖掘工具.OLAP立方体和分析应用系统 使用同一种技术将数据有效地提交到高度集中的或分布的数据仓库 调整个ETL过程使…
[读书笔记与思考]<python数据分析与挖掘实战>-张良均 最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基础篇我也看了,但发现有不少理论还是讲得不够透彻,个人还是比较倾向于 <Machine Learning>--Tom M.Mitchell,Andrew 的 machine learning 课程,或周华志的<机器学习>,Jiawei Han 的 <data mining>.…
<Troubleshooting SQL Server>读书笔记-CPU使用率过高(下) 第三章 High CPU Utilization. CPU使用率过高的常见原因 查询优化器会尽量从CPU,IO和内存资源成本最小的角度,找到最高效的数据访问方式.如果没有正确的索引,或者写的语句本身就会忽略索引, 又或者不准确的统计信息等情况下,查询计划可能不是最优的. 有些查询计划可能对只对某种条件下的查询是高效,而不是所有条件下都是. 缺失索引 索引的缺失,会导致查询处理的行数大大超出必要的行数,从而…
Hi All, 分享一下我学HTML5 摘抄的读书笔记(我用的还是英文,因为一些新的东西还是来自于欧美国家,希望大家习惯于看一些英文材料): 1. Difference between Sections and Articles? Think of a section as a logical part of a document. Think of an article as actual content, such as a magazine article, blog post, or n…