机器学习三剑客之Pandas中DataFrame基本操作

Pandas 是基于Numpy 的一种工具，是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

安装命令：pip install pandas

具体操作如下：值得注意得是配置环境变量和添加项目路径要优先于导包否则系统将检测不到pandas库

#导包

import os

import sys

#将脚本所在得工程添加到环境变量绝对路径

sys.path.append('c:/Users/王建/www/mymac')

#相对路径

sys.path.append('../mymac')

#将项目路径添加到系统搜索路径

os.environ["DJANGO_SETTINGS_MODULE"] = 'mymac.settings'

#导入django模块

import django

#导入pandsa

import numpy as np

import pandas as pd

#导入sqlalchemy

from sqlalchemy import create_engine

#加载项目配置

django.setup()

#加载数据类

from myapp.models import Student

if __name__ == "__main__":

#加入数据库引擎

engine = create_engine('mysql+pymysql://root:mysql@localhost:3306/mymac')

#sql语句

sql = ' select * from student '

#建立数据框架

df = pd.read_sql_query(sql,engine)

print(df)

# 按照年龄正序加ascending=False倒序

# 类似sql语句 select * from student order by age asc 或者 desc

df = df.sort_values(["age","height"],ascending=False)

print(df)

# 取年龄最小得学生

# select * from student order by age limit 1

df = df.sort_values(["age"])

print(df)

# 求整个班级得平均年龄使用loc方法指定字段

print(df.mean())

print(df.mean(0))

print(df.mean(1))

print(df.loc[df['gender'] == 0].age.mean())

avg_age = df.loc[df['gender'] == 0].age.mean()

print(df.loc[ (df['age'] < avg_age) & (df['gender'] == 0) ])

# 取全班得平均年龄

print(df.age.mean())

# 全班年龄求个

print(df.age.sum())

# 获取男生得年龄求和

print(df.loc[df['gender']==1].age.sum())

# 取全班年龄最小

print(df.age.min())

# 或者 |

print(df.loc[(df['gender'] == 0) | (df['gender'] == 1)])

# 获取人数

print(df.id.count())

# 排除法

print(df.loc[(df['gender'] != 0) & (df['gender'] != 1)])

# 修改操作

df.loc[1,'gender'] = 1

print(df)

df.loc[0,'age'] = 10

print(df)

# 取单值

print(df.loc[5,'name'])

# 获取指定字段

print(df.loc[df['gender'] == 1 , ['id','name','age','height']])

# 将dataframe写入数据表表名，数据引擎索引是否入库

df.to_sql('student_copy',engine,index=False)

# 导出excel文件

# df.to_excel('student.xlsx')

# print(Student.objects.all())

参考数据库表：

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

Pandas中DataFrame修改列名
Pandas中DataFrame修改列名:使用 rename df = pd.read_csv('I:/Papers/consumer/codeandpaper/TmallData/result01- ...
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
pandas中DataFrame的ix，loc，iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
机器学习三剑客之 pandas + numpy
机器学习什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商等... 目的: 让机器学习 ...
pandas中DataFrame对象to_csv()方法中的encoding参数
当使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符而产生字符编码错误,造成读取文件错误,在这个时候,我们可以尝试将pd.read_csv()函数的enco ...
pandas中DataFrame和Series的数据去重
在SQL语言中去重是一件相当简单的事情,面对一个表(也可以称之为DataFrame)我们对数据进行去重只需要GROUP BY 就好. select custId,applyNo from tmp.on ...
pandas中DataFrame重置设置索引
在pandas中,经常对数据进行处理而导致数据索引顺序混乱,从而影响数据读取.插入等. 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as n ...
pandas中Dataframe的查询方法（[], loc, iloc, at, iat, ix）
数据介绍先随机生成一组数据: import pandas as pd import numpy as np state = ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'N ...

随机推荐

AOJ1370: Hidden Anagrams(hash)
题意题目链接 Sol 直接对出现的次数hash即可,复杂度\(O(26n^2)\) 一开始没判长度条件疯狂wa #include<bits/stdc++.h> //#define int ...
The value of ESP was not properly saved across a function call 快速解决
The value of ESP was not properly...快速解决今天遇到这个问题,真的是非常头疼,期间电脑居然崩掉一次.所以,分享一下解决办法. 如果是:类定义的时候,新添加了属性, ...
淘宝开放平台使用WebClient，WebRequest访问时的错误提示导致麻烦
淘宝开放平台(TOP)提供OAuth2.0支持通过C#的WebClient/WebRequest直接访问时会提示grant type is empty,这是一个非常恼人的错误,你会发现即使传了这个参 ...
vue自定义一个v-model
目标 js <template> <my-form v-model="form"> </my-form> </template> & ...
mssql sql server ceiling floor 函数用法简介
摘自: http://www.maomao365.com/?p=5581摘要: 下文主要讲述ceiling.floor函数的功能及举例说明一.ceiling floor函数功能简介 ceiling ...
Django的安装和启动
花了将近半个月的时间终于完成了Django的初步学习,从安装到实践MVTC架构,再到写简易的model和view,踩过不少坑,因此这里分享出来,也算一个阶段性的总结. 1.安装Django pip i ...
单线程泵问题（com操作时间超过60s报错）
CLR 无法从 COM 上下文 0x197bf0 转换为 COM 上下文 0x197a80,这种状态已持续 60 秒.拥有目标上下文/单元的线程很有可能执行的是非 ...
malloc和calloc用法
malloc和calloc用法 #include <stdio.h> #include <stdlib.h> int main(){ int n; printf("i ...
c/c++ 链栈
c/c++ 链栈链栈下面的代码实现了以下功能函数功能描述 push 压入 pop 弹出 show_list 打印 clear 释放所有内存空间 destroy 释放所有内存空间 nodesta ...
python爬虫起步...开发环境搭建，最简单的方式
研究一门编程语言,一般第一步就是配置安装部署相关的编程环境.我认为啊,在学习的初期,大家不是十分了解相关的环境,或者是jar包,python模块等的相关内容,就不需要花费大量的时间去研究如何去安装它. ...

机器学习三剑客之Pandas中DataFrame基本操作

机器学习三剑客之Pandas中DataFrame基本操作的更多相关文章

随机推荐

热门专题