dataframe操作

1.去除重复项drop_duplication

#去除重复项drop_duplication

import pandas as pd

df = pd.DataFrame({"col1":[1, 1, 2, 2], "col2" : ["a", "a", "b", "b"]})

print(df)

#指定某个列,保留第一出现的元素

df.drop_duplicates("col1", "first", inplace=True)

print(df)

df = pd.DataFrame({"col1":[1, 1, 2, 2], "col2" : ["a", "a", "b", "b"]})

print(df)

#对某一列进行去除

df = df["col1"].drop_duplicates()

print(df)

   col1 col2

0     1    a

1     1    a

2     2    b

3     2    b

   col1 col2

0     1    a

2     2    b

   col1 col2

0     1    a

1     1    a

2     2    b

3     2    b

0    1

2    2

Name: col1, dtype: int64

2.设置索引

#设置索引

import pandas as pd

df = pd.DataFrame({"col1":[1, 1, 2, 2], "col2" : ["a", "a", "b", "b"]})

df.set_index("col1", inplace=True)

print(df)

df.index.name = "索引"

print(df)

df = pd.DataFrame({"col1":[1, 1, 2, 2], "col2" : ["a", "a", "b", "b"]})

index = df.pop("col1")

df.index = index

df.index.name = "索引"

print(df)

     col2

col1

1       a

1       a

2       b

2       b

   col2

索引

1     a

1     a

2     b

2     b

   col2

索引

1     a

1     a

2     b

2     b

3.round操作
发现该操作只能把小数点位数减少,而不能够把小数点位数变多.比如小数点后3位的可以round成小数点后2位,反之则不可以.
可以用applymap来增加小数点的位数,但是对所有的列进行的操作.只针对某列的还有找到.

df = pd.DataFrame({"a":[,2.0,], "b":[,5.0,]}, columns = ["a", "b"])

df = df.applymap(lambda x : "%.3f" % x)

       a      b

0  1.000  4.000

1  2.000  5.000

2  3.000  6.000

dataframe操作的更多相关文章

spark学习（1）---dataframe操作大全
一.dataframe操作大全 https://blog.csdn.net/dabokele/article/details/52802150 https://www.jianshu.com/p/00 ...
pandas基础：Series与DataFrame操作
pandas包 # 引入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt Series Series 是 ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFra ...
pandas数据结构之DataFrame操作
这一次我的学习笔记就不直接用官方文档的形式来写了了,而是写成类似于“知识图谱”的形式,以供日后参考. 下面是所谓“知识图谱”,有什么用呢? 1.知道有什么操作(英文可以不看) 2.展示本篇笔记的结构 ...
Spark-SQL之DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表.在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现.可以参考,Scala提供的DataFra ...
spark dataframe操作集锦（提取前几行，合并，入库等）
https://blog.csdn.net/sparkexpert/article/details/51042970 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当 ...
SparkR(R on Spark)编程指南含 dataframe操作 2.0
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...
SparkR(R on Spark)编程指南含 dataframe操作
SparkR(R on Spark)编程指南 Spark 2015-06-09 28155 1评论下载为PDF 为什么不允许复制关注iteblog_hadoop公众号,并在这里评论区留言 ...

随机推荐

【转载】Eclipse快捷键 10个最有用的快捷键
Eclipse中10个最有用的快捷键组合一个Eclipse骨灰级开发者总结了他认为最有用但又不太为人所知的快捷键组合.通过这些组合可以更加容易的浏览源代码,使得整体的开发效率和质量得到提升. ...
Scriter CSS
transition: height(quart-out,1.0s,quart-in); transform:rotate(50deg); http://www.terrainformatica.co ...
QInputDialog Multiple Inputs 输入多个变量的对话框
在之前的博客QInputDialog 使用方法中展示了利用QInputDialog可以快速通过一行代码来生成一个输入框,来获取用户的输入值,那么如果我们希望获取多个输入值,怎么办呢?那么此时用QInp ...
html5__Notifications API 桌面通知
MDN地址 google 文档 https://developers.google.cn/web/fundamentals/push-notifications/ const koa2 = requi ...
scala 可变集合与内存清理的关系
留坑待填使用scala.collection.mutable._期间,发现了当程序运行内存开销较多时,使用系统工具进行内存清理,然后程序报出了变量找不到.内存无法访问.数组访问越界,堆栈溢出等多种错 ...
C# MVC+EF—页面搭建
上一篇文章搭建了基本结构,现在来搭建页面一.新建控制器 Controllers=>添加=>控制器=>MVC 5控制器=>命名为DepartmentController pub ...
Python数据结构——二叉树
数的特征和定义: 树是一种重要的非线性数据结构,直观地看,它是数据元素(在树中称为结点)按分支关系组织起来的结构,很象自然界中的树那样.树结构在客观世界中广泛存在,如人类社会的族谱和各种社会组织机构都 ...
ABP之事件总线（1）
什么是事件总线呢?官方的文档说,它是一个单例对象,由其他的类共同拥有,可以用来触发和处理事件.这个东西确实比较陌生,为什么要使用事件总线,或者说事件总线的优势是什么???首先我们可以明确的是,事件总线 ...
百度云曲显平：AIOps时代下如何用运维数据系统性地解决运维问题？
百度云智能运维负责人曲显平本文是根据百度云智能运维负责人曲显平10月20日在msup携手魅族.Flyme.百度云主办的第十三期魅族技术开放日<百度云智能运维实践>演讲中的分享内容整理而 ...
ubuntu下安装bin文件
从Java官网下载的安装文件,有的只有bin文件,没有.tar.gz文件. ①进入设备终端,通过sudo -s或su回车,切换到管理员用户:②输入管理员密码然后回车:③输入sudo chmod +x ...

dataframe操作

dataframe操作的更多相关文章

随机推荐

热门专题