Data - References

01 - 数据分析与数据挖掘的知识列表

图解

知识列表

关注方面 初级数据分析师 高级数据分析师 数据挖掘工程师
数学知识 了解统计相关基础内容,一定的公式计算能力,了解常用统计模型算法 统计模型相关知识,线性代数(矩阵计算) 统计学算法熟练使用
分析工具 Excel(数据透视表和公式)熟练,SQL/VBA是加分,SPSS SQL/VBA是基本,R/python熟练,其他分析工具视情况而定。 Excel基础,主要工作由代码来解决
编程语言 SQL,Hadoop和Hive查询 SQL,Python 熟悉Hadoop,Python/Java,Shell基础
业务理解 基本了解业务,提取数据、展示图表、洞察结论 深入了解业务,基于数据提炼有效观点 基本了解业务
逻辑思维 目的性,以终为始,知道需要用什么样的途径,达到什么样的目标。 框架式分析,关联式分析,因果推导 分析业务相关,包括算法逻辑,程序逻辑等
数据可视化 利用Excel和PPT出具图表和报告,清楚展示数据 探寻更好的展示方法,使用更有效的工具,出具针对性的数据内容 了解工具,出具简洁图表和报告
协调沟通 了解业务、寻找数据、讲解报告,跨部门沟通与协调 独立引领、协调、推动项目 侧重技术沟通,基本沟通协调能力

02 - 一些错觉

03 - Python数据科学速查表

Python数据科学速查表汇总 - 下载地址:https://github.com/anliven/Temporary/tree/master/Python-Data-Science-Cheatsheet

04 - 关于数据科学的几个思维导图

05 - PyData

06 - Pandas生态环境(Pandas Ecosystem)

07 - 一些中文教程

08 - npz文件格式

  • “.npz”是NumPy的数据压缩格式。
  • NPZ file is a NumPy Zipped Data. NumPy is the fundamental package for scientific computing in Python.
  • The .npz file format is a zipped archive of files named after the variables they contain.

示例:查看“.npz”文件中数据

import pathlib
cwd = str(pathlib.Path.cwd()) + "\\" # 当前目录
np_data = np.load(cwd + "sample.npz")
print("np_data keys: ", list(np_data.keys())) # 查看所有的键
print("np_data values: ", list(np_data.values())) # 查看所有的值
print("np_data items: ", list(np_data.items())) # 查看所有的item

09 - 一些网站及工具

10 - 数据可视化的图表建议

11 - Data Science all-in-one table

12 - 概率分布曲线

想准确地预测变量,那么首先要了解目标变量的基本行为。

  • 确定目标变量可能输出的结果,以及这个可能的输出结果是离散值(孤立值)还是连续值(无限值)。
  • 为事件(值)分配概率:如果一个值不会出现,则概率为 0%。概率越高,事件发生的可能性就越大。

大量重复一个实验,并记录检索到的变量值,根据这些值作图,就可以得到一个概率分布曲线。

这个图表明目标变量得到一个值的概率,也就是该变量的概率分布。

理解了值的分布方式后,就可以开始估计事件的概率了,甚至可以使用公式(概率分布函数)。

13 - 正态分布(Normal distribution)

也称为正态概率分布、“常态分布”、高斯分布(以著名数学家高斯的名字命名),是最常用的概率分布。

正态分布是只依赖数据集中两个参数的分布

  • 平均值:样本中所有点的平均值。
  • 标准差:表示数据集与样本均值的偏离程度。

如果对概率分布作图,将得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。

也就是说,只要用平均值和标准差就可以解释整个分布,因此预测任何呈正态分布的变量准确率通常都很高。

自然界和日常工作生活中的大部分变量都呈置信度为 x% 的正态分布(x<100),也就是说差不多都能用高斯分布描述。

14 - 大数定律

在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。

其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。

Data - References的更多相关文章

  1. 数据引用Data References

    声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

  2. [SAP ABAP开发技术总结]数据引用(data references)、对象引用(object references)

    声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

  3. Managing Spark data handles in R

    When working with big data with R (say, using Spark and sparklyr) we have found it very convenient t ...

  4. How Google Backs Up The Internet Along With Exabytes Of Other Data

    出处:http://highscalability.com/blog/2014/2/3/how-google-backs-up-the-internet-along-with-exabytes-of- ...

  5. ABAP开发顾问必备:SAP ABAP开发技术总结

    声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

  6. Linux Overflow Vulnerability General Hardened Defense Technology、Grsecurity/PaX

    Catalog . Linux attack vector . Grsecurity/PaX . Hardened toolchain . Default addition of the Stack ...

  7. 「2014-2-6」TokuMX and MongoDB related materials collection

    简介参考 TokuMX 和 MongoDB 各自的官方站点.       ##  Tokutek 最重要的特点和 marketing word 是所谓 fractal tree indexing te ...

  8. Chinese-Text-Classification,用卷积神经网络基于 Tensorflow 实现的中文文本分类。

    用卷积神经网络基于 Tensorflow 实现的中文文本分类 项目地址: https://github.com/fendouai/Chinese-Text-Classification 欢迎提问:ht ...

  9. PA教材提纲 TAW12-1

    Unit1 Introduction to Object-Oriented Programming(面向对象编程介绍) 1.1 Explaining the Object-Oriented Progr ...

随机推荐

  1. 微信公众号Java接入demo

    微信公众号Java接入demo 前不久买了一台服务,本来是用来当梯子用的,后来买了一个域名搭了一个博客网站,后来不怎么在上面写博客一直闲着,最近申请了一个微信公众号就想着弄点什么玩玩.周末没事就鼓捣了 ...

  2. 利用CSS3实现透明边框和多重边框

    使用background-clip属性实现透明边框 .bordertest { border: 30px solid hsla(0,0%,90%,.5); background: #bbb; back ...

  3. AS3中的单件(Singleton)模式

    单件(singleton)模式在c#中是最容易实现的模式,其主要用意就在于限制使用者用new来创建多个实例.但在as3中,构造函数必须是public的(语法本身要求的),而且也不能在构造函数中抛出异常 ...

  4. Oracle 基本语法、触发器、视图

    参考文章:https://www.cnblogs.com/linjiqin/category/349944.html 数据库分类 1.小型数据库:access.foxbase 2.中型数据库:inor ...

  5. 安装Python-Jenkins

    有两种方式安装: ①有网络:sudo pip install python-jenkins ②无网络: 下载文件:https://pypi.org/project/python-jenkins/#fi ...

  6. 46 【golang项目】完成了一个小小的播放器功能

    项目地址:https://github.com/helww/mylab/tree/master/go/player 这个项目中用到了readme说明文件是一个markdown文件. 基础的控制语法,网 ...

  7. 259. 3Sum Smaller小于版3sum

    [抄题]: Given an array of n integers nums and a target, find the number of index triplets i, j, k with ...

  8. SQL Server 2008 R2 根据.asmx访问WebService

    .asmx 都是.Net 同系列,所以学习的时候会比较简单. 方法一: 步骤1.在浏览器打开.asmx地址可以到方法列表, 步骤2.点进方法列表会有SOAP调用的案例, 步骤3.SQL Server ...

  9. BeanUtils.copyProperties的简单示例

    一.新建测试实体 1.UserA package com.dechy.hebswj.test; public class UserA { private String a; private Strin ...

  10. 第一次在线latex的使用

    发现了一个神奇的网站,overleaf 以下是基于默认模板写的. \documentclass[a4paper]{article} %% Language and font encodings \us ...