被 Pandas read_csv 坑了

机器学习算法与Python 2024-09-07 20:58:57 原文

被 Pandas read_csv 坑了

-- 不怕前路坎坷，只怕从一开始就走错了方向

Pandas 是python的一个数据分析包，纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas 就是为解决数据分析任务生的，无论是数据分析还是机器学习项目数据预处理中， Pandas 无处不在。

最近掉进一坑，差点铸成大错。实在没想到居然栽在pandas.read_csv上了，这里分享一下，希望大家注意。

另：业务数据不方便拿出来演示，为尽可能复现，这里我手造了一份，另存为 income.csv 文件。

翻船记

读取csv文件小菜一碟

import numpy as np

import pandas as pd

df = pd.read_csv(r'C:\...\income.csv',encoding='utf-8')

读好了看看数据信息吧：

df.info()

RangeIndex: 6 entries, 0 to 5

Data columns (total 1 columns):

 #   Column  Non-Null Count  Dtype

---  ------  --------------  -----

 0   income  6 non-null      object

dtypes: object(1)

memory usage: 176.0+ bytes

诶，怎么数据成了object？不应该是float吗？

不管他，硬转一发

df=pd.DataFrame(df,dtype=np.float)

居然报错了，1000被读成了字符串。

其实这里我还掉进了另一个坑，使用了一个已被弃用的 .convert_objects 方法。这种方法更硬，直接把string转成了NaN，所以后面各种操作流畅且错误地进行着....这都是 pandas 没升级的锅，定期检查升级包太有必要了（pip 的高阶玩法）

说回刚才的问题，1,000被读成了字符串是因为csv文件中它使用了千位分隔符。问题其实非常简单，设置一下 thousands 参数就行了

df2 = pd.read_csv(r'C:\...\income.csv',encoding='utf-8',thousands =',')

看一下info

df2.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 6 entries, 0 to 5

Data columns (total 1 columns):

 #   Column  Non-Null Count  Dtype

---  ------  --------------  -----

 0   income  6 non-null      float64

dtypes: float64(1)

往下继续



df2.describe()

	    income

count	6.000000

mean	16934.983333

std	40695.203980

min	0.000000

25%	32.425000

50%	300.000000

75%	875.000000

max	100000.000000

一切正常!

pandas.read_csv()参数

pandas.read_csv()的参数特别多，除了filepath，其他均可缺省。参数的具体含义这里就不赘述，还想复习一下的同学可以直接去看官方文档

http://pandas.pydata.org/pandas-docs/stable/io.html

英语不好的同学可以看一下热心博主的翻译版：

https://www.cnblogs.com/datablog/p/6127000.html

被 Pandas read_csv 坑了的更多相关文章

API:详解 pandas.read_csv
pandas.read_csv 作为常用的读取数据的常用API,使用频率非常高,但是API中可选的参数有哪些呢? pandas项目代码答案是: .read_csv(filepath_or_buffe ...
pandas read_csv读取大文件的Memory error问题
今天在读取一个超大csv文件的时候,遇到困难:首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时:MemoryError 最后查阅read_csv文档发现 ...
pandas.read_csv() 部分参数解释
read_csv()所有参数 pandas.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=N ...
pandas.read_csv()参数(转载)
文章转载地址 pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/p ...
pandas.read_csv()函数读取文件时，关于“header=None”影响读取列数区间的右闭合总结
对于一个没有字段名标题的数据,如data.csv 1.获取数据内容.pandas.read_csv("data.csv")默认情况下,会把数据内容的第一行默认为字段名标题. imp ...
pandas.read_csv to_csv参数详解
pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas ...
pandas.read_csv参数详解
读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参 ...
pandas.read_csv() 报错 OSError: Initializing from file failed，报错原因分析和解决方法
今天调用pandas读取csv文件时,突然报错“ OSError: Initializing from file failed ”,我是有点奇怪的,以前用的好好的,read_csv(path)方法不是 ...
pandas.read_csv用法（转）
的数据结构DataFrame,几乎可以对数据进行任何你想要的操作. 由于现实世界中数据源的格式非常多,pandas也支持了不同数据格式的导入方法,本文介绍pandas如何从csv文件中导入数据. 从上 ...

随机推荐

怎么在苹果笔记本上用Folx重新下载已完成的任务
大家在完成了任务下载后,有时会将下载的文件移动到其他文件夹中,或者是,当下载的文件已经使用完毕时,有些用户会将文件删除.以上的两种情况,都会导致Folx所属任务查看功能失效,也就是说,无法找到任务对应 ...
如何用ABBYY FineReader提取图片中的文字
作为OCR文字识别软件中的佼佼者,可能大家对于ABBYY FineReader的使用还不熟练,没关系,今天小编就为大家演示,如何用ABBYY FineReader这款文字识别软件,将一张截图中的文字识 ...
JDBC事务提交机制以及解决方案
JDBC中的事务是自动提交的,什么是自动提交? 只要任意执行一条DML语句,则自动提交一次.这是JDBC默认的事务行为.但是实际业务当中,通常都是N条DML语句共同联合才能完成的,必须保证它们这些DM ...
【linux】串口通讯工具-minicom简介+简单操作
目录前言简介尝试运行配置 minicom 运行 minicom minicom 其它操作前言 windows 上有不少的串口通信工具了,今天介绍一个linux下的一个串口通信工具-minic ...
flink：JobGraph生成过程分析
1.JobGraph是由StreamGraph转换而来,当client将StreamGraph提交后,job启动前会先完成转换,统一的转换入口如下: 2.StreamingJobGraphGenera ...
[GIT]获取git最新的tag
背景公司前端项目在Jenkins中打包,每次打包需要将新tag回推到仓库中.但是打包失败后如果不删除tag的话下次打包就会失败,需要手动删除,所以在Jenkinsfile中就需要在打包失败时自动删除 ...
干货分享：盘点那些最常用的Linux命令，需熟记！
DevOps Workshop | 代码管理入门：基于代码扫描实现团队效率提升
CODING「DevOps Workshop 学习营地」持续火热进行中! 在这里,你可以轻松实践 DevOps 全流程.体验高效的云端开发.赢取精美礼品--第二期大奖「戴尔 U2718Q 显示器」将于 ...
CentOS硬软链接
硬软链接说明软链接: 1.软链接,以路径的形式存在.类似于Windows操作系统中的快捷方式 2.软链接可以跨文件系统 ,硬链接不可以 3.软链接可以对一个不存在的文件名进行链接 4.软链接可以对 ...
HTTP系列（一）URI、URL、URN的区别
1.URI.URL.URN关系图 1)URI Uniform Resource Identifier 统一资源标识符每个web服务器资源都有一个名字,服务器资源名被统称为统一资源标识符:URI就像 ...