这篇博客利用了 pandas 对数据像 sql 一样去处理。

读取测试数据

import pandas as pd
import numpy as np

url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv'

tips = pd.read_csv(url)  # 读取数据
tips.head()

测试数据的前5行如下:

SELECT(选择语句)

SQL语句:

SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;

Python语句:

tips[['total_bill', 'tip', 'smoker', 'time']].head(5)

UPDATE(更新语句)

SQL语句:

UPDATE tips SET tip = tip*2 WHERE tip < 2;

Python语句:

tips.loc[tips['tip'] < 2, 'tip'] *= 2

DELETE(删除语句)

SQL语句:

DELETE FROM tips WHERE tip > 9;

Python语句:

tips = tips.loc[tips['tip'] <= 9]

WHERE (条件)

SQL语句:

SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;

Python语句:

tips[tips['time'] == 'Dinner'].head(5)

AND&OR

SQL语句:

SELECT * FROM tips WHERE time = 'Dinner' AND tip >5.00;

Python语句:

# pandas中用“&”表示and;用“|”表示or
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]


SQL语句:

SELECT * FROM tips WHERE size >= 5 OR total_bill > 45;

Python语句:

# 选出size大于5或者total_bill大于45的
tips[(tips['size'] >=5 ) | (tips['total_bill'] > 45)]

GROUP BY (分组聚合)

在pandas中,使用类似命名的 groupby() 方法执行SQL的GROUP BY操作。 groupby() 通常是指我们要将数据集拆分为组,应用一些函数(通常是聚合),然后将组合在一起的过程。
常见的SQL操作将在整个数据集中获取每个组中的记录计数。 例如,一个查询让我们得到性别剩余的提示数:

SQL语句:

SELECT sex, count(*) FROM tips GROUP BY sex;
/*
Female     87
Male      157
*/

Python语句:

# sql中的ocunt和pandas的count不一样,这里是size()达到我们的目的
tips.groupby('sex').size()


Python语句:

tips.groupby('sex').count()

Python语句:

# 对单独一列进行count
tips.groupby('sex')['total_bill'].count()

SQL语句:

SELECT day, AVG(tip), COUNT(*) FROM tips GROUP BY day;
/*
Fri   2.734737   19
Sat   2.993103   87
Sun   3.255132   76
Thur  2.771452   62
*/

也可以同时应用多种功能。 例如,假设我们希望看到技巧数量在星期几之间有所差异,那么 agg() 可以让您将一个字典传递到您分组的 DataFrame ,指示哪些功能适用于特定的列。

Python语句:

tips.groupby('day').agg({'tip':np.mean, 'day':np.size})

按多列分组

SQL语句:

SELECT smoker, day, COUNT(*), AVG(tip) FROM tips GROUP BY smoker, day;
/*
smoker day
No     Fri      4  2.812500
       Sat     45  3.102889
       Sun     57  3.167895
       Thur    45  2.673778
Yes    Fri     15  2.714000
       Sat     42  2.875476
       Sun     19  3.516842
       Thur    17  3.030000
*/

Python语句:

tips.groupby(['smoker','day']).agg({'tip':[np.size,np.mean]})


缺失值的检查使用 notnull() 和 isnull() 

重新建立一个测试数据集:

df = pd.DataFrame({'col2':['A','B',np.NaN, 'C', 'D'],
                   'col1':['F', np.NaN, 'G','H','I']})


SQL语句:

SELECT * FROM df WHERE col2 IS NULL;

Python语句:

# 选择变量是col为null的行(观测)
df[df['col2'].isnull()]


SQL语句:

SELECT * FROM df WHERE col1 IS NOT NULL;

Python语句:

# 选择col1不是空值的行(观测)
df[df['col1'].notnull()]


JOIN

可以使用 join() 或 merge() 执行 JOIN 。 默认情况下, join() 将在其索引上加入 DataFrames 。 每个方法都有参数允许您指定要执行的连接类型(LEFT,RIGHT,INNER,FULL)或要加入的列(列名称或索引)。

df1 = pd.DataFrame({'key':['A','B','C','D'], 'value':np.random.randn(4)})
df2 = pd.DataFrame({'key':['B','D','D','E'], 'value':np.random.randn(4)})

INNER JOIN

SQL语句:

SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1,df2, on = 'key')

indexed_df2 = df2.set_index('key')
pd.merge(df1, indexed_df2, left_on='key',right_index=True)

LEFT OUTER JOIN

SQL语句:

-- show all records from df2
SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key=df2.key;

Python语句:

pd.merge(df1, df2, on = 'key', how='left')

RIGHT OUTER JOIN

SQL语句:

-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1, df2, on = 'key', how='right')

FULL JOIN

SQL语句:

-- show all records from both tables
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;

Python语句:

pd.merge(df1, df2 , on = 'key', how = 'outer')

UNION

新建数据集:

df1 = pd.DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'],
                    'rank': range(1, 4)})
df2 = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'],
                    'rank': [1, 4, 5]})

SQL语句:

SELECT city, rank FROM df1
UNION ALL
SELECT city, rank FROM df2;
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

Python语句:

pd.concat([df1,df2])


SQL UNION类似于UNION ALL,但是UNION将删除重复的行。

SELECT city, rank FROM df1
UNION
SELECT city, rank FROM df2;
-- notice that there is only one Chicago record this time
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
       Boston     4
  Los Angeles     5
*/

在pandas中,您可以使用 concat()  与 drop_duplicate() 结合使用。

pd.concat([df1, df2]).drop_duplicates()

“真”pandas“假”sql的更多相关文章

  1. 真与假与c#,java中的不同之处

    /************真与假************/ /*C语言中:真(非0).假(0) * Java.C#中:真(true).假(false) * JavaScript中:真(非0.true. ...

  2. pandas 读写sql数据库

    如何从数据库中读取数据到DataFrame中? 使用pandas.io.sql模块中的sql.read_sql_query(sql_str,conn)和sql.read_sql_table(table ...

  3. JavaScript基本概念C - 真与假

    真与假 与 c 和 c++ 非常相似, 但与 Java 不同, JS中被认为true或false范围很广.所有对象 (空字符串除外) 和非零数字都被视为 true.空字符串.零.null 和undef ...

  4. python入门:while循环里面True和False的作用,真和假

    #!/usr/bin/env python # -*- coding:utf-8 -*- #while循环里面True和False的作用,真和假 """ n1等于真(Tr ...

  5. 【Pandas vs SQL】数据分析代码逐行比对,孰优孰劣?

    在数据分析领域,pandas是python数据分析基础工具,SQL是数据库最常用分析语言.二者有相通的地方,也有很大的语法不同,做起数据分析来,谁将更胜一筹呢? 做过业务开发.跟数据库打交道比较多的小 ...

  6. Python的真和假

    python和其他编程语言一样,,,0是假,非0是真,,python 一切皆对象,真假是每个对象的属性.像数据结构,,空的数据结构是False. eg: "spam" True & ...

  7. Pandas与SQL比较

    由于许多潜在的Pandas用户对SQL有一定的了解,因此本文章旨在提供一些如何使用Pandas执行各种SQL操作的示例. import pandas as pd url = 'tips.csv' ti ...

  8. JavaScript中的真和假,==和===, 不等

    咋JS中,下面这些值表示 “假”: "" (empty string) 0,-0,NaN (invalid number) null, undefined false 除了上面这些 ...

  9. PHP empty函数判断0返回真还是假?

    最近项目中,遇到一个字段是 “是否启用”值为0,1 在查询时没想就写了 if ( isset($args_array['useFlg']) && !empty($args_array[ ...

随机推荐

  1. [GO语言的并发之道] Goroutine调度原理&Channel详解

    并发(并行),一直以来都是一个编程语言里的核心主题之一,也是被开发者关注最多的话题:Go语言作为一个出道以来就自带 『高并发』光环的富二代编程语言,它的并发(并行)编程肯定是值得开发者去探究的,而Go ...

  2. 基于ZooKeeper的三种分布式锁实现

    [欢迎关注公众号:程序猿讲故事 (codestory),及时接收最新文章] 今天介绍基于ZooKeeper的分布式锁的简单实现,包括阻塞锁和非阻塞锁.同时增加了网上很少介绍的基于节点的非阻塞锁实现,主 ...

  3. Flink集群Standalone启动脚本(源码分析)

    整个Flink集群的角色分为Jobmanager和TaskManager 以Standalone为例来看一下脚本里面是怎样启动集群的 找到源码的dist这里面包含了启动的脚本文件 standalone ...

  4. 图表控件业界革命 -Arction新产品LightningChart JS 上市

    芬兰高科技企业Arction Ltd 在今年8月份推出了用于网页的数据可视化控件新解决方案—— LightningChart JS. 初次的基准测试表明,该产品为网页应用程序的数据可视化刷新了新的纪录 ...

  5. jvm系列(六):Java服务GC参数调优案例

    本文介绍了一次生产环境的JVM GC相关参数的调优过程,通过参数的调整避免了GC卡顿对JAVA服务成功率的影响. 这段时间在整理jvm系列的文章,无意中发现本文,作者思路清晰通过步步分析最终解决问题. ...

  6. 礼盒抖动动画(CocosCreator)

    推荐阅读:  我的CSDN  我的博客园  QQ群:704621321       这个月还有一天了,别问我为什么是一天,996,懂吗?项目是做不完了,策划又加新功能,又不能安静的改bug了.又是动画 ...

  7. [Python] Django框架入门3——深入视图

    说明: 本文主要深入了解视图(views.py),涉及路由配置.定义视图.Request对象.Response对象.状态保持等. 一.路由配置 1.配置位置(settings.py 的 ROOT_UR ...

  8. React生命周期函数理解

    一.组件挂载阶段 1. componentWillMount() 该方法在首次渲染之前调用,在一个组件挂载到卸载的过程中,仅仅执行这一次.该函数内可以state初始化的工作,与constructor的 ...

  9. 微信小程序捕获async/await函数异常实践

    背景 我们的小程序项目的构建是与web项目保持一致的,完全使用webpack的生态来构建,没有使用小程序自带的构建功能,那么就需要我们配置代码转换的babel插件如Promise.Proxy等:另外, ...

  10. 带你了解什么是Push消息推送

    前言 只有光头才能变强. 文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y 如果有看我最近文章的同学可能就知道我在公司负责的是一 ...