Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

安装命令:pip install pandas

具体操作如下:值得注意得是配置环境变量和添加项目路径要优先于导包 否则系统将检测不到pandas库

#导包
import os
import sys
#将脚本所在得工程添加到环境变量 绝对路径
sys.path.append('c:/Users/王建/www/mymac')
#相对路径
sys.path.append('../mymac')
#将项目路径添加到系统搜索路径
os.environ["DJANGO_SETTINGS_MODULE"] = 'mymac.settings'
#导入django模块
import django
#导入pandsa
import numpy as np
import pandas as pd
#导入sqlalchemy
from sqlalchemy import create_engine
#加载项目配置
django.setup()
#加载数据类
from myapp.models import Student
if __name__ == "__main__":
#加入数据库引擎
engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac')
#sql语句
sql = ' select * from student '
#建立数据框架
df = pd.read_sql_query(sql,engine)
print(df)
# 按照年龄正序 加ascending=False倒序
# 类似sql语句 select * from student order by age asc 或者 desc
df = df.sort_values(["age","height"],ascending=False)
print(df)
# 取年龄最小得学生
# select * from student order by age limit 1
df = df.sort_values(["age"])
print(df)
# 求整个班级得平均年龄 使用loc方法指定字段
print(df.mean())
print(df.mean(0))
print(df.mean(1))
print(df.loc[df['gender'] == 0].age.mean())
avg_age = df.loc[df['gender'] == 0].age.mean()
print(df.loc[ (df['age'] < avg_age) & (df['gender'] == 0) ])
# 取全班得平均年龄
print(df.age.mean())
# 全班年龄求个
print(df.age.sum())
# 获取男生得年龄求和
print(df.loc[df['gender']==1].age.sum())
# 取全班年龄最小
print(df.age.min())
# 或者 |
print(df.loc[(df['gender'] == 0) | (df['gender'] == 1)])
# 获取人数
print(df.id.count())
# 排除法
print(df.loc[(df['gender'] != 0) & (df['gender'] != 1)])
# 修改操作
df.loc[1,'gender'] = 1
print(df)
df.loc[0,'age'] = 10
print(df)
# 取单值
print(df.loc[5,'name'])
# 获取指定字段
print(df.loc[df['gender'] == 1 , ['id','name','age','height']])
# 将dataframe写入数据表 表名,数据引擎 索引是否入库
df.to_sql('student_copy',engine,index=False)
# 导出excel文件
# df.to_excel('student.xlsx')
# print(Student.objects.all())
 
参考数据库表:

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

  1. Pandas中DataFrame修改列名

    Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...

  2. Spark与Pandas中DataFrame对比

      Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制paral ...

  3. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  4. Spark与Pandas中DataFrame对比(详细)

      Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制paral ...

  5. 机器学习 三剑客 之 pandas + numpy

    机器学习 什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商 等... 目的: 让机器学习 ...

  6. pandas中DataFrame对象to_csv()方法中的encoding参数

    当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的enco ...

  7. pandas中DataFrame和Series的数据去重

    在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.on ...

  8. pandas中DataFrame重置设置索引

    在pandas中,经常对数据进行处理 而导致数据索引顺序混乱,从而影响数据读取.插入等. 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as n ...

  9. pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)

    数据介绍 先随机生成一组数据: import pandas as pd import numpy as np state = ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'N ...

随机推荐

  1. Markdown简单上手

    标题 # +内容 一级标题 二级标题 三级标题 四级标题 五级标题 六级标题 字体 1. 加粗(Ctrl+B) **加粗** 2. 斜体(Ctrl+I) *斜体* 3. 斜体加粗(Ctrl+B+I) ...

  2. 2018-11-29 VS Code英汉词典插件v0.0.6-改为TS实现, 加测试

    如前文VS Code英汉词典插件v0.0.4-驼峰下划线命名打算, 首先将JS源码改为TypeScript实现, 并添加了必要的测试. 昨天得知vue.js 3.0会用TypeScript实现, 正好 ...

  3. mysql安装完成之后为root用户添加密码

    编辑MySql的配置文件:my.ini(在MySql安装目录下). 打开配置文件,在文件最后一行添加:skip-grant-tables,然后保存退出. 意思为就是在启mysql时不启动grant-t ...

  4. Html:html是什麽、html文件结构

    相关内容: html是什麽 html文件结构 首发日期:2018-02-12 html是什么: hmtl超文本标记语言,标准通用标记语言下的一个应用. html专门用于网页,它的“标志符”告诉了浏览器 ...

  5. 使用IEDriverServer.exe驱动IE11,实现自动化测试

            +  下载IEDriverServer   http://dl.pconline.com.cn/download/771640-1.html 解压缩得到IEDriverServer.e ...

  6. java----堆区、方法区和栈区

    堆区:只存放类对象,线程共享: 方法区:又叫静态存储区,存放class文件和静态数据,线程共享; 栈区:存放方法局部变量,基本类型变量区.执行环境上下文.操作指令区,线程不共享; class A { ...

  7. sqlserver——cube:多维数据集

    1.cube:生成多维数据集,包含各维度可能组合的交叉表格,使用with 关键字连接 with cube 根据需要使用union all 拼接 判断 某一列的null值来自源数据还是 cube 使用G ...

  8. Linux CFS调度器之pick_next_task_fair选择下一个被调度的进程--Linux进程的管理与调度(二十八)

    1. CFS如何选择最合适的进程 每个调度器类sched_class都必须提供一个pick_next_task函数用以在就绪队列中选择一个最优的进程来等待调度, 而我们的CFS调度器类中, 选择下一个 ...

  9. IO测试工具之fio详解

    目前主流的第三方IO测试工具有fio.iometer和Orion,这三种工具各有千秋. fio在Linux系统下使用比较方便,iometer在window系统下使用比较方便,Orion是oracle的 ...

  10. 什么是JDK?什么是JRE?JDK与JRE的区别和用途

    一.编程环境与运行环境 JDK(Java Development Kit)称为Java开发包或Java开发工具.是一个编写Java的Applet小程序和应用程序的程序开发环境.JDK是整个Java的核 ...