目前,做数据分析工作,基本人手Numpy,pandas,scikit-learn。而这些计算程序包都是基于python平台的,所以搞数据的都得先装个python环境。。。(当然,你用R或Julia请忽略本文)

在macOS上,默认安装有python 2.7,鉴于python2即将停止更新,如果没有大量的python2代码需要维护,就直接安装python3吧。

版本选择

做数据运算,流行的方式是直接下载Anaconda安装包,大概500M左右,各种依赖包(绑定了四五百个科学计算程序包),开发工具(jupyter notebook,spyder)一股脑儿都包含了,按照步骤安装完成,开箱即用,不过装完后会占用几个G的硬盘空间。

我这边由于硬盘空间有限,采用Miniconda这个发行版本,最新的基于python3.7版本的不到50M。而Miniconda一样使用conda作为包管理器,可以轻松的安装自己需要的包,例如Numpy,pandas, matplotlib等等。

当然,也可以从安装包或homebrew开始装,然后再使用pip来安装相关的程序包。总体上来说,python自身的版本和执行路径是相当混乱的,可参考下图。

安装步骤

下载完成后,可以先核对下hash值,与官网的值(5cf91dde8f6024061c8b9239a1b4c34380238297adbdb9ef2061eb9d1a7f69bc)是否一致保证安装文件未被篡改。

$ shasum -a 256 Miniconda3-latest-MacOSX-x86_64.sh
5cf91dde8f6024061c8b9239a1b4c34380238297adbdb9ef2061eb9d1a7f69bc Miniconda3-latest-MacOSX-x86_64.sh
  • 执行安装
$ bash ./Miniconda3-latest-MacOSX-x86_64.sh 

Welcome to Miniconda3 4.7.12

In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue Do you accept the license terms? [yes|no]
[no] >>> yes Miniconda3 will now be installed into this location:
/Users/shenfeng/miniconda3 - Press ENTER to confirm the location
- Press CTRL-C to abort the installation
- Or specify a different location below [/Users/shenfeng/miniconda3] >>> >>>

按照提示,敲击回车。中间需要同意使用条款,需要输入yes,按照路径点回车默认即可。

Do you wish the installer to initialize Miniconda3
by running conda init? [yes|no]
[yes] >>> yes ==> For changes to take effect, close and re-open your current shell. <== If you'd prefer that conda's base environment not be activated on startup,
set the auto_activate_base parameter to false: conda config --set auto_activate_base false Thank you for installing Miniconda3!

最后的提示是,可以用conda config --set auto_activate_base false命令取消python3环境在启动时自行加载。

  • 重新开一个新的终端

    可以发现,python3的env已经生效了。
(base) my:~ shenfeng$ python
Python 3.7.4 (default, Aug 13 2019, 15:17:50)
[Clang 4.0.1 (tags/RELEASE_401/final)] :: Anaconda, Inc. on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>>
  • 查看env配置
$ conda env list
# conda environments:
#
base * /Users/shenfeng/miniconda3

使用conda deactivate可以python3的执行环境,使用conda activate base可以激活默认的python3环境。

  • 添加国内镜像源

    由于conda的包服务器都在海外,直接连接安装可能出现连接超时无法完成的时候,所以可以通过修改用户目录下的 .condarc 文件。
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  • 使用conda安装相应的程序包

    先使用conda list检查已经安装的包,使用conda install需要的程序包
$ $ conda list numpy
# packages in environment at /Users/shenfeng/miniconda3:
#
# Name Version Build Channel $ conda install numpy $ conda list numpy
# packages in environment at /Users/shenfeng/miniconda3:
#
# Name Version Build Channel
numpy 1.17.3 py37h4174a10_0 defaults
numpy-base 1.17.3 py37h6575580_0 defaults

相同的方式,我们可以安装scipy,pandas等包,不再赘述。

交互式工具安装

大家耳熟能详的交互式工具肯定就是Jupyter notebook,但我在本机同样由于磁盘空间问题只安装ipython。实际上,Jupyter是基于ipython notebook的浏览器版本。

  • 安装
$ conda install ipython
  • 执行ipython交互
$ ipython
Python 3.7.4 (default, Aug 13 2019, 15:17:50)
Type 'copyright', 'credits' or 'license' for more information
IPython 7.9.0 -- An enhanced Interactive Python. Type '?' for help. In [1]: import numpy as np
In [2]: dataset= [2,6,8,12,18,24,28,32]
In [3]: sd= np.std(dataset,ddof=1)
In [4]: print(sd)
10.977249200050075

样例数据处理

先从网上下载一个样例数据https://pan.baidu.com/s/1lXAnyvSoti-U44MU2fubgw,为excel文件,另存为成csv进行处理。

以下结合上周文章中的概括性度量,计算这组数据的概括性度量。

  • 读取数据
import numpy as np
from scipy import stats dataset = np.genfromtxt('/Users/shenfeng/Downloads/test1.csv',delimiter=',', skip_header=1)
print('Shape of numpy array: ', dataset.shape)
Shape of numpy array: (699,)

集中趋势的度量

  • 众数
mode = stats.mode(dataset)
print('该组数据的众数为: ', mode)
该组数据的众数为: ModeResult(mode=array([1.]), count=array([145]))
# 结果说明众数为1,出现了145次
  • 中位数
print('该组数据的中位数为: ', np.median(dataset))
该组数据的中位数为: 4.0
  • 四分位数
# 不需要提前排序
print("1/4分位数: ", np.percentile(dataset, 25, interpolation='linear'))
1/4分位数: 2.0 print("1/2分位数: ", np.percentile(dataset, 50, interpolation='linear'))
1/2分位数: 4.0 print("3/4分位数: ", np.percentile(dataset, 75, interpolation='linear'))
3/4分位数: 6.0
  • 平均数
print('该组数据的平均数为: ', np.mean(dataset))
该组数据的平均数为: 4.417739628040057

离散程度的度量

  • 标准差
print('该组数据的总体标准差为: ', np.std(dataset,ddof=0))
该组数据的总体标准差为: 2.8137258170785375
  • 标准分数
# 变量值与其平均数的离差除以标准差后的称为标准分数(standard score)
print('该组数据的标准分数为: ', stats.zscore(dataset))
该组数据的标准分数为: [ 0.20693572 0.20693572 -0.50386559 0.56233637 -0.14846494 1.27313768
-1.2146669 -0.85926625 -0.85926625 -0.14846494 -1.2146669 -0.85926625 ...省略 ]
  • 离散系数
# 离散系数是测度数据离散程度的统计量,主要用于比较不同样本数据的离散程度。
print('该组数据的离散系数为: ', stats.variation(dataset))
该组数据的离散系数为: 0.6369152675317026

偏态与峰态的度量

  • 数据分布图
import matplotlib.pyplot as plt
plt.style.use('ggplot')
plt.hist(dataset, bins=30)

获得以下分布图

  • 偏态
print('该组数据的偏态系数为: ', stats.skew(dataset))
该组数据的偏态系数为: 0.5915855449527385
# 偏态系数在0.5~1或-1~-0.5之间,则认为是中等偏态分布
  • 峰态系数
print('该组数据的峰态系数为: ', stats.kurtosis(dataset))
该组数据的峰态系数为: -0.6278342838815454
# 当K<0时为扁平分布,数据的分布更分散

总结

本文使用Miniconda发行版配置本地数据运算环境,并对样例做数据的概括性度量。

macOS 使用Miniconda配置本地数据运算环境的更多相关文章

  1. Windows配置本地Hadoop运行环境

    很多人喜欢用Windows本地开发Hadoop程序,这里是一个在Windows下配置Hadoop的教程. 首先去官网下载hadoop,这里需要下载一个工具winutils,这个工具是编译hadoop用 ...

  2. SDP(10):文本式大数据运算环境-MongoDB-Engine功能设计

    为了让前面规划的互联网+数据平台能有效对电子商务数据进行管理及实现大数据统计功能,必须在平台上再增加一个MongDB-Engine:数据平台用户通过传入一种Context来指示MongoDB-Engi ...

  3. VUE请求本地数据的配置json-server

    VUE开发请求本地数据的配置,早期的vue-lic下面有dev-server.js和dev-client.js两文件,请求本地数据在dev-server.js里配置,最新的vue-webpack-te ...

  4. VUE开发请求本地数据的配置,旧版本dev-server.js,新版本webpack.dev.conf.js

    VUE开发请求本地数据的配置,早期的vue-lic下面有dev-server.js和dev-client.js两文件,请求本地数据在dev-server.js里配置,最新的vue-webpack-te ...

  5. 高仿饿了么mock本地数据

    未使用router新版webpack.dev.conf.js配置本地数据访问:// 引入express 模块 const express = require('express') // 创建expre ...

  6. 超详细!搭建本地大数据研发环境(16G内存+CDH)

    工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手.已经工作的可以不依赖于公司的环境,在家也可以随意的练习.而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的 ...

  7. 在MacOs上配置Hadoop和Spark环境

    在MacOs上配置hadoop和spark环境 Setting up Hadoop with Spark on MacOs Instructions 准备环境 如果没有brew,先google怎样安装 ...

  8. 虚拟机console基础环境部署——配置本地YUM源

    1. CD/ROM装载系统镜像2. 挂载设备3. 配置本地源4. 总结 有关YUM源及Linux系统三大软件管理方式,参照博客<CentOS系统三大软件管理>,笔记内链:CentOS系统三 ...

  9. Vue CLI 3.0脚手架如何在本地配置mock数据

    前后端分离的开发模式已经是目前前端的主流模式,至于为什么会前后端分离的开发我们就不做过多的阐述,既然是前后端分离的模式开发肯定是离不开前端的数据模拟阶段. 我们在开发的过程中,由于后台接口的没有完成或 ...

随机推荐

  1. 渗透系统虚拟机----win7(渗透工具包)

    今天把自己用的win7渗透虚拟机和渗透工具脚本整合到一起备份传网盘了: D:\渗透工具包>dir 驱动器 D 中的卷是 DATA 卷的序列号是 0D74-084B D:\渗透工具包 的目录 // ...

  2. 当前机器的各种进程、服务信息的收集(win)

    当前机器的各种进程.服务信息的收集(win) 前言 我们在做渗透测试的过程中,遇到Windows系统的环境是最多的,然而在拿到一台Windows胸膛呢权限之后,我们要进行横向渗透测试或者纵向渗透测试, ...

  3. CSS核心问题

    本文将讲述 CSS 中最核心的几个概念,包括:盒模型.position.float等.这些是 CSS 的基础,也是最常用的几个属性,它们之间看似独立却又相辅相成.为了掌握它们,有必要写出来探讨一下,如 ...

  4. [NOIp2009] luogu P1071 潜伏者

    翘课间操和体育课来水博客. 题目描述 CCF的题面贼长,但貌似除了背景以外,每句话都删不掉.不写啦,反正也是Ctrl C的. Solution 显然这是一道码农题. #include<cstdi ...

  5. Vue系列---源码构建过程(四)

    在了解源码如何构建之前,我们有必要了解下 项目中一个简单的目录结构如下: |---- vue | |---- dist # 打包后的存放文件目录 | |---- scripts # 存放构建相关的代码 ...

  6. Linux Capabilities 入门教程:概念篇

    原文链接:Linux Capabilities 入门教程:概念篇 Linux 是一种安全的操作系统,它把所有的系统权限都赋予了一个单一的 root 用户,只给普通用户保留有限的权限.root 用户拥有 ...

  7. Centos7 安装redis 并新建springboot工程使用Redis 做session

    Redis 安装 就是解压运行,根据自己的爱好,放到文件夹中 tar -zxvf redis-5.0.4.tar.gz yum install gcc cd redis-5.0.4 make MALL ...

  8. GC 知识点补充——CMS

    之前已经讲过了不少有关 GC 的内容,今天准备将之前没有细讲的部分进行补充,首先要提到的就是垃圾收集器. 基础的回收方式有三种:清除.压缩.复制,衍生出来的垃圾收集器有: Serial 收集器 新生代 ...

  9. element ui实现手动上传文件,且只能上传单个文件,并能覆盖上传。

    element ui提供了成熟的组件场景,但实际工作中难免会遇到认(sha)真(diao)的产品.比如,最近遇到的,要求实现手动上传特定格式文件(用户点击“上传文件”按钮,确定之后,只是单纯选择了文件 ...

  10. vue 请求图片方法

    node的每一个文件,都是一个域,那么里面所有的变量都不允许被外界引用,除非导出.要使用外界的变量,也必须使用导入的方式来导入.import 文件路径. css可以直接使用import +文件路径导入 ...