Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

安装命令:pip install pandas

具体操作如下:值得注意得是配置环境变量和添加项目路径要优先于导包 否则系统将检测不到pandas库

#导包
import os
import sys
#将脚本所在得工程添加到环境变量 绝对路径
sys.path.append('c:/Users/王建/www/mymac')
#相对路径
sys.path.append('../mymac')
#将项目路径添加到系统搜索路径
os.environ["DJANGO_SETTINGS_MODULE"] = 'mymac.settings'
#导入django模块
import django
#导入pandsa
import numpy as np
import pandas as pd
#导入sqlalchemy
from sqlalchemy import create_engine
#加载项目配置
django.setup()
#加载数据类
from myapp.models import Student
if __name__ == "__main__":
#加入数据库引擎
engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac')
#sql语句
sql = ' select * from student '
#建立数据框架
df = pd.read_sql_query(sql,engine)
print(df)
# 按照年龄正序 加ascending=False倒序
# 类似sql语句 select * from student order by age asc 或者 desc
df = df.sort_values(["age","height"],ascending=False)
print(df)
# 取年龄最小得学生
# select * from student order by age limit 1
df = df.sort_values(["age"])
print(df)
# 求整个班级得平均年龄 使用loc方法指定字段
print(df.mean())
print(df.mean(0))
print(df.mean(1))
print(df.loc[df['gender'] == 0].age.mean())
avg_age = df.loc[df['gender'] == 0].age.mean()
print(df.loc[ (df['age'] < avg_age) & (df['gender'] == 0) ])
# 取全班得平均年龄
print(df.age.mean())
# 全班年龄求个
print(df.age.sum())
# 获取男生得年龄求和
print(df.loc[df['gender']==1].age.sum())
# 取全班年龄最小
print(df.age.min())
# 或者 |
print(df.loc[(df['gender'] == 0) | (df['gender'] == 1)])
# 获取人数
print(df.id.count())
# 排除法
print(df.loc[(df['gender'] != 0) & (df['gender'] != 1)])
# 修改操作
df.loc[1,'gender'] = 1
print(df)
df.loc[0,'age'] = 10
print(df)
# 取单值
print(df.loc[5,'name'])
# 获取指定字段
print(df.loc[df['gender'] == 1 , ['id','name','age','height']])
# 将dataframe写入数据表 表名,数据引擎 索引是否入库
df.to_sql('student_copy',engine,index=False)
# 导出excel文件
# df.to_excel('student.xlsx')
# print(Student.objects.all())
 
参考数据库表:

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

  1. Pandas中DataFrame修改列名

    Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...

  2. Spark与Pandas中DataFrame对比

      Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制paral ...

  3. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  4. Spark与Pandas中DataFrame对比(详细)

      Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制paral ...

  5. 机器学习 三剑客 之 pandas + numpy

    机器学习 什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商 等... 目的: 让机器学习 ...

  6. pandas中DataFrame对象to_csv()方法中的encoding参数

    当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的enco ...

  7. pandas中DataFrame和Series的数据去重

    在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.on ...

  8. pandas中DataFrame重置设置索引

    在pandas中,经常对数据进行处理 而导致数据索引顺序混乱,从而影响数据读取.插入等. 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as n ...

  9. pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)

    数据介绍 先随机生成一组数据: import pandas as pd import numpy as np state = ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'N ...

随机推荐

  1. AOJ1370: Hidden Anagrams(hash)

    题意 题目链接 Sol 直接对出现的次数hash即可,复杂度\(O(26n^2)\) 一开始没判长度条件疯狂wa #include<bits/stdc++.h> //#define int ...

  2. The value of ESP was not properly saved across a function call 快速解决

    The value of ESP was not properly...快速解决 今天遇到这个问题,真的是非常头疼,期间电脑居然崩掉一次.所以,分享一下解决办法. 如果是:类定义的时候,新添加了属性, ...

  3. 淘宝开放平台使用WebClient,WebRequest访问时的错误提示导致麻烦

    淘宝开放平台(TOP)提供OAuth2.0支持 通过C#的WebClient/WebRequest直接访问时会提示grant type is empty,这是一个非常恼人的错误,你会发现即使传了这个参 ...

  4. vue自定义一个v-model

    目标 js <template> <my-form v-model="form"> </my-form> </template> & ...

  5. mssql sql server ceiling floor 函数用法简介

    摘自: http://www.maomao365.com/?p=5581摘要: 下文主要讲述ceiling.floor函数的功能及举例说明  一.ceiling floor函数功能简介 ceiling ...

  6. Django的安装和启动

    花了将近半个月的时间终于完成了Django的初步学习,从安装到实践MVTC架构,再到写简易的model和view,踩过不少坑,因此这里分享出来,也算一个阶段性的总结. 1.安装Django pip i ...

  7. 单线程泵问题(com操作时间超过60s报错)

    CLR   无法从   COM   上下文   0x197bf0   转换为   COM   上下文   0x197a80,这种状态已持续   60  秒.拥有目标上下文/单元的线程很有可能执行的是非 ...

  8. malloc和calloc用法

    malloc和calloc用法 #include <stdio.h> #include <stdlib.h> int main(){ int n; printf("i ...

  9. c/c++ 链栈

    c/c++ 链栈 链栈 下面的代码实现了以下功能 函数 功能描述 push 压入 pop 弹出 show_list 打印 clear 释放所有内存空间 destroy 释放所有内存空间 nodesta ...

  10. python爬虫起步...开发环境搭建,最简单的方式

    研究一门编程语言,一般第一步就是配置安装部署相关的编程环境.我认为啊,在学习的初期,大家不是十分了解相关的环境,或者是jar包,python模块等的相关内容,就不需要花费大量的时间去研究如何去安装它. ...