一.概述

  数据是对我们所研究现象的属性和特征的具体描述,在分析数据前必须要做的工作就是收集数据。按照存储形式可以将数据划分为结构化数据、非结构化数据和半结构化数据。

  1.结构化数据

    能够用数据或统一的格式加以表示,简单来说就是数据库。

  2.非结构化数据

    无法用数据或统一的结构加以表示,如视频、音频、图片、文档等形式。

  3.半结构化数据

    包括邮件、HTML、报表、资源库等。

二.SQL语言和MySQL

  数据库,顾名思义,是存放数据的仓库。严格地讲,数据库是长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。概况地讲,数据库数据具有永久存储、有组织和可共享三个基本特点。

  1.SQL语言

    SQL【Structured Query Language】,即结构化查询语言,是关系型数据库的标准语言。SQL是在1974年由Boyce和Chamberlin提出的,并在IBM公司研制的数据库管理系统原型System R上实现。于1987年定为国际标准。SQL集数据查询【Data Query】、数据操纵【Data Manipulation】DML、数据定义【Data Definition】DDL和数据控制【Data Control】DCL功能于一身,语言风格统一,可以独立完成数据库生命周期中的全部活动。

  2.数据查询

    》选择表中的全部列或部分列,这就是关系代数中的投影运算。

    》SELECT子句的<目标列表达式>不仅可以是表中的属性列,也可以是表达式。

    

  3.聚集函数

    

  4.连接查询

    略

  5.嵌套查询【子查询】

    1.在SQL语言中,一个SELECT-FROM-WHERE语句称为一个查询块。将一个查询块嵌套在另一个查询块的WHERE子句或HAVING短语的条件中的查询称为嵌套查询【nested query】。

    2.子查询的SELECT语句中不能使用ORDER BY子句,ORDER BY子句只能对最终的结果进行排序。

    3.有些嵌套查询可以使用连接运算代替,有些是不能代替的。

    4.子查询的查询条件不依赖于父查询,这类子查询称为不相关子查询。不相关子查询是一种比较简单的子查询。如果子查询的查询条件依赖父查询,这类子查询称为相关子查询。求解相关子查询不能像求解不相关子查询那样,一次将子查询求解出来,然后求解父查询。内层查询由于与外层查询有关,因此需要反复求值。因查询数据和表结构的差异,查询执行过程也会有所区别,一般执行步骤如下:

      》从外层取出一个连接值,传送给内层连接

      》执行内层查询,得到使用外层连接值查询到的值,用该值代替内层查询,得到外层查询

      》执行该外层查询,得到对应的值

      》重复以上3个步骤,直到外层连接值查询完为止

    5.带有ANY或ALL的子查询

      

  6.MySQL特点

    1.标识符由字母、数字或下划线【_】组成,且第一个字母不能是数字。

    2.MySQL数据类型

      》数字类型

        》整数:tinyint、smallint、mediumint、int、bigint

        》浮点数:float、double、real、decimal

      》日期/时间

        》date、time、datetime、timestamp、year

      》字符串类型

        》字符串:char、varchar

        》文本:tinytext、text、mediumtext、longtext

      》二进制

        》tinyblob、blob、mediumblob、longblob

    3.登录

      执行命令:mysql-h 主机名-u 用户名-p

CDA数据分析【第二章:数据收集与导入】的更多相关文章

  1. 从0到1搭建基于Kafka、Flume和Hive的海量数据分析系统(一)数据收集应用

    大数据时代,一大技术特征是对海量数据采集.存储和分析的多组件解决方案.而其中对来自于传感器.APP的SDK和各类互联网应用的原生日志数据的采集存储则是基本中的基本.本系列文章将从0到1,概述一下搭建基 ...

  2. Python 数据分析—第九章 数据聚合与分组运算

    打算从后往前来做笔记 第九章 数据聚合与分组运算 分组 #生成数据,五行四列 df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one ...

  3. 【知识强化】第二章 数据的表示和运算 2.4 算术逻辑单元ALU

    从本节开始我们就进入到本章的最后一节内容了,也就是我们算术逻辑单元的它的实现.这部分呢是数字电路的一些知识,所以呢,如果你没有学过数字电路的话,也不要慌张,我会从基础开始给大家补起.那么在计算机当中, ...

  4. 2-Spark高级数据分析-第二章 用Scala和Spark进行数据分析

    数据清洗时数据科学项目的第一步,往往也是最重要的一步. 本章主要做数据统计(总数.最大值.最小值.平均值.标准偏差)和判断记录匹配程度. Spark编程模型 编写Spark程序通常包括一系列相关步骤: ...

  5. KnockoutJS 3.X API 第二章 数据监控(1)视图模型与监控

    数据监控 KO的三个内置核心功能: 监控(Observable)和依赖性跟踪(dependency tracking) 声明绑定(Declarative bindings) 模板(Templating ...

  6. KnockoutJS 3.X API 第二章 数据监控(2)监控属性数组

    监控属性数组 如果要对一个对象检测和响应变化,会使用监控属性.如果要对一个序列检测并监控变化,需要使用observableArray(监控属性数组).这在你显示或编辑多个值,需要用户界面的部分反复出现 ...

  7. MyBatis从入门到精通:第二章数据的创建与插入文件

    数据库表的创建: create table sys_user ( id bigint not null auto_increment, ), user_password ), user_email ) ...

  8. 《Entity Framework 6 Recipes》翻译系列 (3) -----第二章 实体数据建模基础之创建一个简单的模型

    第二章 实体数据建模基础 很有可能,你才开始探索实体框架,你可能会问“我们怎么开始?”,如果你真是这样的话,那么本章就是一个很好的开始.如果不是,你已经建模,并在实体分裂和继承方面感觉良好,那么你可以 ...

  9. 《python for data analysis》第二章,美国1880-2010年出生人口姓名的数据分析

    <利用python进行数据分析>第二章的姓名例子,代码.整个例子的所有代码集成到了一个文件中,导致有些对象名如year同时作为了列名与行名,会打印warning,可分不同的part依次运行 ...

随机推荐

  1. [冬令营Day1 T2]sequence

    题目描述 Description 给一个长度为N的序列以及Q的询问,每次两个参数l,r,问你序列[l,r]中的最大连续和 输入描述 Input Description 一行二个正整数N,Q. 接下来一 ...

  2. Q1094

    一,看题 1,字符串确实是我的弱项. 2, 二,看题解 #include<iostream> #include<string> using namespace std; int ...

  3. Asp.Net微信js分享

    1.准备工作 官方文档:https://developers.weixin.qq.com/doc/offiaccount/OA_Web_Apps/JS-SDK.html#111 必须是认证过的公众号才 ...

  4. SDN实验2

    第二次sdn实验: 1. 利用mininet创建如下拓扑,要求拓扑支持OpenFlow 1.3协议,主机名.交换机名以及端口对应正确,请给出拓扑Mininet执行结果,展示端口连接情况. 本次使用py ...

  5. CDN惹的祸:记一次使用OSS设置跨域资源共享(CORS)不生效的问题

    原文: https://www.lastupdate.net/4669.html 昨天H5组的开发反馈了一个问题,说浏览器收不到跨域的配置,提示:Failed to load https://nnmj ...

  6. Android Studio 之 控件基础知识

    1. TextView 和 EditText 控件常用属性  android:layout_width="match_parent" 宽度与父控件一样宽 android:layou ...

  7. [C#]AdvPropertyGrid的使用示例(第三方控件:DevComponents.DotNetBar2.dll)

    开发环境:Visual Studio 2019 .NET版本:4.5.2 效果如下: 1.初始化界面: 2.属性“人物”-自定义控件显示: 3.属性“地址”-自定义窗体显示: 4.属性“性别”-枚举显 ...

  8. 【Gamma阶段】第九次Scrum Meeting

    冰多多团队-Gamma阶段第九次Scrum会议 工作情况 团队成员 已完成任务 待完成任务 卓培锦 美化前端及编辑器界面,编辑器风格切换(添加夜间模式) UI界面手势切换 牛雅哲 添加scp工具,添加 ...

  9. Java编程思想之十四 类型信息

    第十四章 类型信息 运行时类型信息使得你可以在程序运行时发现和使用类型信息 14.1 为什么需要RTTI 面向对象编程中基本的目的是:让代码只操作对基类的引用. 多态: import java.uti ...

  10. Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...