来源：15 Python Snippets to Optimize your Data Science Pipeline

翻译：RankFan

15种Python片段去优化你的数据科学管道

为什么片段对于数据科学是重要的

在我的日常中，我经常处理许多同样的状况，主要是从加载 csv 文件到数据可视化。因此，为了流水线这个过程，我有兴趣去储存一些 code 片段, 在不同的情形下，加载csv文件到数据可视化是非常有帮助的。

在这篇短文中，我将分享15个Python片段去简化你不同的数据分析管道。

1. 通过 GLob 和 List 加载多个文件

import glob

import pandas as pd

csv_files = glob.glob("path/to/folder/with/csvs/*.csv")

dfs = [pd.read_csv(filename) for filename in csv_flies]

2. 得到列中的唯一值

import pandas as pd

df = pd.read_csv("path/to/csv/file.csv")

df = ["Item_Identifier"].unique()

array['FDA15', 'DRC01', 'FDN15', ..., 'NCF55', 'NCW30', 'NCW05'],dtype = object]

3. 并排展示`Pandas Dataframe`

from IPython.display import display_html

from itertools import chain, cycle

def display_side_by_side(*arg, title = cycle([''])):

    html_str = ""

    for df, title in zip(args, chain(title, cycle(['</br>']))):

        html_str += '< the style = " text-align : center "> < td style = "vertical-align : top">'

        html_str += "<br>"

        html_str += f'<h2>{title}</h2>'

        html_str += df.to_html().replace('table', tabel style="display:inline")

        html_str += '</td></th>'

    display_html(html_str, raw = True)

df1 = pd.csv_read("file_csv")

df2 = pd.csv_read("file2")

dispaly_side_by_side(df1.head(), df2.head(), titles=[Sales, Advertising])

4. 移除`Pandas DataFrame`中的缺失值

df = pd.DataFrame(dict(a = [1, 2, 3, None]))

df

df.dropna(inplace = True)

df

5. 显示缺失值的个数

def FindNanCol(df):

    for col in df:

        print(f"Column : {col}")

        num_Nans = df[col].isnull().sum()

        print(f"Number of Nans : {num_Nans}")

df = pd.DataFrame(dict(a = [1, 2, 3, None], b = [None, None, 5, 6]))

FindNanCol(df)

6. 使用`.apply` 函数和 `lambda` 函数转变列

df = pd.DataFrame(dict(a = [10, 20 ,30, 40, 50]))

square = lambda x: x**2

df["a"] = df["a"].apply(square)

df

7. 将两个`DataFrame`列转化为字典

df = pd.DataFrame(dict(a = ["a", "b", "c"], b = [1, 2, 3]))

df_dictionary = dict(zip(df["a"], df["b"]))

df_dictionary

8. 绘制列的网格分布

import numpy as np

import matplotlib.pyplot as plt

import seaborns as sns

import pandas as pd

sns.set()

df = pd.DataFrame(dict(a = np.random.randint(0, 100, 100), b = np.arange(0, 100, 1)))

plt.figure(figsize = (15,7))

plt.subplot(1, 2, 1)

df["b"][df["a"]>50].hist(color='green', label="bigger than 50")

plt.legend()

plt.subplot(1, 2, 1)

df["b"][df["a"]<50].hist(color='orange', label="small than 50")

plt.legend()

plt.show

9. 在`pandas`中对不同的列进行`t`检验

from scipy.stats import ttest_rel

data = np.arange(0, 1000, 1)

data_plus_noise = np.arange(0, 1000, 1) + np.random.normal(0, 1, 1000)

df = pd.DataFrame(dict(data = data, data_plus_noise = data_plus_noise))

print(ttest_rel(df["data"], df["data_plus_noise"]))

10. 合并数据

df1 = pd.DataFrame(dict(a = [1, 2, 3], b=[10, 20, 30], col_to_merge= ["a", "b", "c"]))

df2 = pd.DataFrame(dict(d = [10, 20, 30], col_to_merge=["a", "b", "c"]))

df_merged = df1.merge(df2, on='col_to_merge')

11. 用`sklearn`进行标准化

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scores = scaler.fit_transform(df["a"].values.reshape(-1, 1))

12. 丢弃特定列的缺失值

df.dropna(subset = ["col_to_remove_NaNs_from"], inplace = True)

13. 有条件的选择`dataframe`的子集

df = pd.Dataframe(dict(result = ["pass", "Fail", "pass", "Fail", "Distinction", "Distinction"]))

pass_index = (df["result"] == "pass") | (df["result"] == "Distinction")

df_pass = df['pass_index']

df_pass

14. 饼图

import matplotlib.pyplot as plt

df = pd.DataFrame(dict(a = [10, 20, 50, 10, 10], b=["A", "B", "C", "D", "E"]))

labels = df["b"]

sizes = df["a"]

plt.pie(sizes, labels = labels, autopct = '%1.1f%%', shadow = True, startangle=140)

plt.axis('equal')

plt.show

15. 将百分数字符串转化为数值

def change_to_numerical(x):

    try:

        x = int(x.strip("%")[:2])

    except:

        x = int(x.strip("%")[:1])

    return x

df = pd.DataFrame(dict(a =["A", "B" ,"C"], col_with_percentage = ["10%", "20%", "70%"]))

df["col_with_percentage"] = df["col_with_percentage"].apply(change_to_numerical)

df

结论

我认为代码片段是非常有用，重新写是浪费时间的，因此，有一个完整的工具包可以对数据分析进行流水线处理，这是非常有帮助的。

15种Python片段去优化你的数据科学管道的更多相关文章

探讨2018年最受欢迎的15顶级Python库！
近日,数据科学网站 KDnuggets 评选出了顶级 Python 库 Top15,领域横跨数据科学.数据可视化.深度学习和机器学习.如果本文有哪些遗漏,你可以在评论区补充. 图 1:根据 GitHu ...
数据处理一条龙！这15个Python库不可不知
如果你是一名数据科学家或数据分析师,或者只是对这一行业感兴趣,那下文中这些广受欢迎且非常实用的Python库你一定得知道. 从数据收集.清理转化,到数据可视化.图像识别和网页相关,这15个Python ...
干货！小白入门Python数据科学全教程
前言本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话.我是一名数据 ...
为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字)
为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字) 在PyData Seattle 2017中,Jake Vanderplas介绍了Python的发展历程以及最新动态.在这里我们把 ...
3 个用于数据科学的顶级 Python 库
使用这些库把 Python 变成一个科学数据分析和建模工具. Python 的许多特性,比如开发效率.代码可读性.速度等使之成为了数据科学爱好者的首选编程语言.对于想要升级应用程序功能的数据科学家和机 ...
Python 代码性能优化技巧（转）
原文:Python 代码性能优化技巧 Python 代码优化常见技巧代码优化能够让程序运行更快,它是在不改变程序运行结果的情况下使得程序的运行效率更高,根据 80/20 原则,实现程序的重构.优化. ...
小测几种python web server的性能
http://blog.csdn.net/raptor/article/details/8038476 因为换了nginx就不再使用mod_wsgi来跑web.py应用了,现在用的是gevent-ws ...
斐波那契数列的5种python实现写法
斐波那契数列的5种python写法斐波那契数列(Fibonacci sequence),又称黄金分割数列.因数学家列昂纳多·斐波那契(Leonardoda Fibonacci)以兔子繁殖 ...
Java 中15种锁的介绍：公平锁，可重入锁，独享锁，互斥锁，乐观锁，分段锁，自旋锁等等
Java 中15种锁的介绍 Java 中15种锁的介绍:公平锁,可重入锁,独享锁,互斥锁,乐观锁,分段锁,自旋锁等等,在读很多并发文章中,会提及各种各样锁如公平锁,乐观锁等等,这篇文章介绍各种锁的分类 ...

随机推荐

Centos7 安装 redis4.x
一.安装redis 第一步:下载redis安装包 wget http://download.redis.io/releases/redis-4.0.6.tar.gz [root@iZwz991stxd ...
MongoDB学习笔记一(MongoDB介绍 + 基本指令 + 查询语句)
什么是MongoDB MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统. 在高负载的情况下,添加更多的节点,可以保证服务器性能. MongoDB 旨在为WEB应用提供可扩 ...
Faiss使用多线程出现的性能问题
Faiss使用多线程出现的性能问题 faiss在增加CPU的情况下,反而出现效率低下的问题. 从理论上看,作为一个CPU/GPU计算型的应用,更多的核意味着更大的计算吞吐能力,性能只会越来越好才是. ...
前端调用后台接口下载word文档的两种方法
1传统的ajax虽然能提交到后台,但是返回的数据被解析成json,html,text等字符串,无法响应浏览器下载.就算使用bob模拟下载,数据量大时也不方便废话不多说:上代码(此处是Layui监听提 ...
Core3.1WebApi使用MongoDB
好久没有使用MongoDB了,重新测试使用,版本不一样之前很多方法都使用不了了,下面为部分测试,下次再来更新测试测试中使用的命令 // 新增读写的用户 db.createUser({ user:'f ...
类的基础语法阅读【Python3.8官网文档】
英文官方文档: https://docs.python.org/3.8/tutorial/classes.html 中文官方文档: https://docs.python.org/zh-cn/3.8/ ...
openresty HTTP status constants nginx api for lua
https://github.com/openresty/lua-nginx-module context: init_by_lua, set_by_lua, rewrite_by_lua, acce ...
微信小程序基础知识笔记
微信小程序笔记文件构成全局文件 app.json 小程序全局配置文件,必要,自动生成 app.js 小程序入口JS文件,一般只需申明全局变量.处理生命周期以及版本升级即可,必要 app.wxss ...
20210712考试-2021noip11
这篇总结比我写的好多了建议直接去看 T1 简单的序列考场:愣了一会,想到以最大值分治.每次枚举最大值两侧更小的区间,st表预处理前缀和和最大值,用桶统计答案. 注意分治时要去掉最大值. const ...
MacOS隐藏及显示文件
显示隐藏文件显示所有文件 defaults write com.apple.finder AppleShowAllFiles -boolean true killall Finder 不显示隐藏 ...

15种Python片段去优化你的数据科学管道

15种Python片段去优化你的数据科学管道

为什么片段对于数据科学是重要的

1. 通过 GLob 和 List 加载多个文件

2. 得到列中的唯一值

3. 并排展示Pandas Dataframe

4. 移除Pandas DataFrame中的缺失值

5. 显示缺失值的个数

6. 使用.apply 函数和 lambda 函数 转变列

7. 将两个DataFrame列转化为字典

8. 绘制列的网格分布

9. 在pandas中对不同的列进行t检验

10. 合并数据

11. 用sklearn进行标准化

12. 丢弃特定列的缺失值

13. 有条件的选择dataframe的子集

14. 饼图

15. 将百分数字符串转化为数值

结论

15种Python片段去优化你的数据科学管道的更多相关文章

随机推荐

热门专题

3. 并排展示`Pandas Dataframe`

4. 移除`Pandas DataFrame`中的缺失值

6. 使用`.apply` 函数和 `lambda` 函数转变列

7. 将两个`DataFrame`列转化为字典

9. 在`pandas`中对不同的列进行`t`检验

11. 用`sklearn`进行标准化

13. 有条件的选择`dataframe`的子集