用python做数据分析离不开几个好的轮子(或称为科学棧/第三方包等),比如matplotlib,numpy, scipy, pandas, scikit-learn, gensim等,这些包的功能强大,丰富,包括含了绘图,机器学习,爬虫,数据分析等等。而开发工具推荐使用pycharm或者Jupyter notebook(ipython notebook)。开发起来的样子是这样的。

此方法,同时适用于windows和linux(也许mac也行,没实践过)。我的环境是ubuntu16.04,64位,python2.7.12,python3.5.1+。不过,这次的记录安装方式跟系统关系不大,linux和windows实践方式相同,只不过,windows用户打开CMD后,输入的命令不带sudo,也不需要另行安装pip(windows自带)

1.安装Jupyter notebook(或者安装pycharm直接下载安装皆可,linux和windows同样适用)

#如果是ubuntu16.04 默认已经安装了python2和python3
#需要另行安装pip,python2的pip安装
sudo apt-get python-pip #如果安装python3的pip
sudo apt-get python3-pip
#安装开发工具Jupyter notebook
sudo pip3 install jupyter

注意,只能安装一个jupyter notebook,默认只能包含一个内核,如python3或者python2,请根据自己开发需求。

特殊需求:

需要python3和python2共存的,请看我另几篇文章。Windows下Python多版本共存

2.在线安装(windows/linux)主要的数据分析工具(轮子)

注意:Ubuntn中,默认的pip 是指python2的,pip3才是python3的,如果安装python3的轮子,请将pip替换成pip3,反之亦然。

数据分析(为了避免依赖冲突,请按顺序安装)

sudo pip3 install numpy
sudo pip3 install pandas
#安装matplotlib需要先安装libpng和freetype
sudo apt-get install libpng-dev
#如果不知到需要下载工具的全称,可以用来查找需要工具的关键词sudo apt search freetype
sudo apt-get install libfreetype6-dev
sudo pip3 install matplotlib
sudo pip3 install scipy
#文本处理工具
sudo pip3 install gensim
#机器学习
sudo pip3 install scikit-learn

安装完成某个轮子之后,应该是这样的

以此方法安装,随着知识领域的扩展和经验的增加,我们会发现更多更有趣的轮子。

查看已经安装的轮子

pip3 list

3.离线安装(windows/linux)数据分析工具(轮子)

直接在上述网址下载对应的.whl(虽然本网址http://www.lfd.uci.edu/~gohlke/pythonlibs/只有win的= =,但是方法适合任何平台,离线包可以去官网下载,如https://pypi.python.org/pypi/scipy/)

pip3 install 下载的本地路径/numpy-1.11.1+mkl-cp35-cp35m-win_amd64.whl

pip3 install 下载的本地路径/numpy-1.11.1-cp27-cp27mu-manylinux1_x86_64.whl

4.主要的大数据分析轮子介绍

博主比较懒,已经存在的介绍就不赘述了,直接上送包下载地址,且该地址对包有了大意的介绍。

送上python包地址http://www.lfd.uci.edu/~gohlke/pythonlibs/

python数据分析工具安装集合的更多相关文章

  1. Python数据分析--工具安装及Numpy介绍(1)

    Anaconda 是一个跨平台的版本,通过命令行来管理安装包.进行大规模数据处理.预测分析和科学计算.它包括近 200 个工具包,大数据处理需要用到的常见包有 NumPy . SciPy . pand ...

  2. Python数据分析工具:Pandas之Series

    Python数据分析工具:Pandas之Series Pandas概述Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建.Pandas纳入大量库和标准数据模型,提供高效的操作数 ...

  3. python数据分析工具 | pandas

    pandas是python下强大的数据分析和探索工具,是的python在处理数据时非常快速.简单.它是构建在numpy之上的,包含丰富的数据处理函数,支持时间序列分析功能,支持灵活处理缺失数据. pa ...

  4. python数据分析工具 | matplotlib

    不论是数据挖掘还是数学建模,都免不了数据可视化的问题.对于 Python 来说,matplotlib 是最著名的绘图库,它主要用于二维绘图,当然也可以进行简单的三维绘图.它不但提供了一整套和 Matl ...

  5. python数据分析工具——Pandas、StatsModels、Scikit-Learn

    Pandas Pandas是 Python下最强大的数据分析和探索工具.它包含高级的数据结构和精巧的工具,使得在 Python中处理数据非常快速和简单. Pandas构建在 Numpy之上,它使得以 ...

  6. python 数据分析工具之 numpy pandas matplotlib

    作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库 为了 ...

  7. python数据分析工具 | numpy

    Python中没有提供数组功能,虽然列表可以完成基本的数组功能,但并不是真正的数组,而且在数据量较大时,使用列表的速度回非常慢.因此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数.Nu ...

  8. Python数据分析工具

    1.Numpy 安装:pip install numpy [root@kvm work]# cat numpy_test.py #!/usr/bin/env python #coding:utf-8 ...

  9. Python开发工具安装

    v阅读目录 v写在前面 v基本概念 vWindows搭建python开发环境 v从Hello World开始 v博客总结 v博客前言 从大学开始玩python到现在参加工作,已经有5年了,现在的公司是 ...

随机推荐

  1. app.use和app.get的区别及解析

    转载至:http://blog.csdn.net/wthfeng/article/details/53366169 写在前面:最近研究nodejs及其web框架express,对app.use和app ...

  2. VS2010 由于缺少调试目标"xx.exe"

    有两种可能会造成这种现像.A.配制属性出了问题. 一种方法:右击“解决方案”->“属性”,在弹出的“属性页”框中,选择左边的“配置属性”,在右边,将应用程序的生成那个框框勾上,二可能是这里的属性 ...

  3. 10、C++函数

    1.定义函数和函数调用: 1.1.定义函数: 可以将函数分为两类,没有返回值的函数,和有返回值得函数,没有返回值得函数被称为void函数,其通用格式如下: void funtionname (para ...

  4. 红蓝对抗 - 蓝队手册(BTFM)(转载)

    本文已发表在嘶吼RoarTalk,未经授权,请勿转载! http://www.4hou.com/technology/10173.html 最佳阅读体验版:https://stackedit.io/v ...

  5. vi vim 查找替换

    #查找# / 光标向下查找 ?光标向上查找 按键盘n,继续查找 #替换# :s/hello/test/ 替换光标所在行第一个hello为test :s/hello/test/g  替换光标所在行所有h ...

  6. 洛谷 P3157 [CQOI2011]动态逆序对(树套树)

    题面 luogu 题解 树套树(树状数组套动态开点线段树) 静态使用树状数组求逆序对就不多说了 用线段树代替树状数组,外面套树状数组统计每个点逆序对数量 设 \(t1[i]\)为\(i\)前面有多少个 ...

  7. CDQZ Day1

    #include<cassert> #include<cstdio> #include<vector> using namespace std; ,maxt=,ma ...

  8. 关于去掉输入一定数字n,在n后写入n个字符串的问题

    在输入数字n后要用一个getchar 去吃掉数字n后面跟着的回车符号,从而保证输入的字符串数是和n是保持一致的 具体实例代码如下: #include<stdio.h> #include&l ...

  9. Python RabbitMQ 消息队列

    RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议. MQ全称为Message Queue, 消息队列(MQ)是一种应用程序 ...

  10. SPOJ - REPEATS RMQ循环节

    题意:求重复次数最多的重复子串(并非长度最长) 枚举循环子串长度\(L\),求最多能连续出现多少次,相邻的节点往后的判断可以使用\(LCP\)得到值为\(K\),那么得到一个可能的解就是\(K/L+1 ...