pandas的read_csv函数

pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

filepath_or_buffer：

文件的地址，可以是url。

sep:

分隔符的指定。

delimiter：

str，定界符，如果指定该参数，sep参数失效。

delim_whitespace :boolean,

default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用，等效于设定sep='\s+'。

header :

int or list of ints, default ‘infer’ ，指定行数用来作为列名。如果文件中没有列名，则默认为0，否则设置为None。

names :

array-like, default None 用于结果的列名列表，对各列重命名，即添加表头。如数据有表头，但想用新的表头，可以设置header=0,names=['a','b']实现表头定制。

index_col :

int or sequence or False, default None 用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。可使用index_col=[0,1]来指定文件中的第1和2列为索引列。

usecols :

array-like, default None 返回一个数据子集，即选取某几列，不读取整个文件的内容，有助于加快速度和降低内存。 usecols=[1,2]或usercols=['a','b']

squeeze :

boolean, default False 如果文件只包含一列，则返回一个Series。

prefix :

str, default None 在没有列标题时，给列添加前缀。例如：添加‘X’ 成为 X0, X1, ...

mangle_dupe_cols :

boolean, default True 重复的列，将‘X’...’X’表示为‘X.0’...’X.N’。如果设定为False则会将所有重名列覆盖。

dtype :

Type name or dict of column -> type, default None 每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}。

engine :

{‘c’, ‘python’}, optional 使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。

converters :

dict, default None 列转换函数的字典。key可以是列名或者列的序号。

日期类型相关参数：

parse_dates :

boolean or list of ints or names or list of lists or dict, default False 。

boolean. True -> 解析索引 list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列；

list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用

dict, e.g. {‘foo’ : [1, 3]} -> 将1,3列合并，并给合并后的列起名为"foo"。

示例：

df=pd.read_csv(file_path,parse_dates=['time1','time2'])，把time1和time2两列解析为日期格式。

这里不得不说，很遗憾中文不行，比如‘4月5日’这种格式就不能解析。

infer_datetime_format :

boolean, default False 如果设定为True并且parse_dates 可用，那么pandas将尝试转换为日期类型，如果可以转换，转换方法并解析。在某些情况下会快5~10倍。

keep_date_col :

boolean, default False 如果连接多列解析日期，则保持参与连接的列。默认为False。

date_parser :

function, default None 于解析日期的函数，默认使用dateutil.parser.parser来做转换。

Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。

1.使用一个或者多个arrays（由parse_dates指定）作为参数；

2.连接指定多列字符串作为一个列作为参数；

3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。

dayfirst :

boolean, default False DD/MM格式的日期类型。

转载：https://blog.csdn.net/liuweiyuxiang/article/details/78471036

pandas的read_csv函数的更多相关文章

详解pandas的read_csv方法
楔子使用pandas做数据处理的第一步就是读取数据,数据源可以来自于各种地方,csv文件便是其中之一.而读取csv文件,pandas也提供了非常强力的支持,参数有四五十个.这些参数中,有的很容易被忽 ...
pandas.read_csv()函数读取文件时，关于“header=None”影响读取列数区间的右闭合总结
对于一个没有字段名标题的数据,如data.csv 1.获取数据内容.pandas.read_csv("data.csv")默认情况下,会把数据内容的第一行默认为字段名标题. imp ...
pandas DataFrame apply()函数(1)
之前已经写过pandas DataFrame applymap()函数还有pandas数组(pandas Series)-(5)apply方法自定义函数 pandas DataFrame 的 app ...
pandas DataFrame apply()函数(2)
上一篇pandas DataFrame apply()函数(1)说了如何通过apply函数对DataFrame进行转换,得到一个新的DataFrame. 这篇介绍DataFrame apply()函数 ...
pandas DataFrame.shift()函数
pandas DataFrame.shift()函数可以把数据移动指定的位数 period参数指定移动的步幅,可以为正为负.axis指定移动的轴,1为行,0为列. eg: 有这样一个DataFrame ...
python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
pandas模块常用函数解析之Series（详解）
pandas模块常用函数解析之Series 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器输入网 ...
read_csv 函数
转载自 https://www.cnblogs.com/datablog/p/6127000.html pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件 ...
python pandas 合并数据函数merge join concat combine_first 区分
pandas对象中的数据可以通过一些内置的方法进行合并:pandas.merge,pandas.concat,实例方法join,combine_first,它们的使用对象和效果都是不同的,下面进行区分 ...

随机推荐

ubuntu16上传文件到服务器
用windows时候,上传文件到服务器,一般都是用xshell和xftp配合使用,用ubuntu就不需要额外安装任何软件了.只用ctrl+alt+t,打开命令行用一句话就可以上传了. 将本地war包上 ...
A+B for Input-Output Practice (VII)
A+B for Input-Output Practice (VII) Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 ...
【计算机视觉】如何使用opencv自带工具训练人脸检测分类器
前言使用opencv自带的分类器效果并不是很好,由此想要训练自己的分类器,正好opencv有自带的工具进行训练.本文就对此进行展开. 步骤 1.查找工具文件: 2.准备样本数据: 3.训练分类器: ...
poj-1170 (状态压缩形式下的完全背包）
#include <iostream> #include <algorithm> #include <cstring> using namespace std; ; ...
51Nod：1085 背包问题
1085 背包问题基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注在N件物品取出若干件放在容量为W的背包里,每件物品的体积为W1,W2--Wn(Wi为 ...
mysql完整版
mysql: dbs 数据库系统 bdms 数据库管理系统 bda 数据库管理员 db 数据库 dba通过dbms来操作db! 关系型数据库和非关系型数据库登录mysql mysql -h主机地址 ...
JPQL详解
JPA在说jpql之前必须要说一下什么是JPA,否则在后续学习的时候,你会弄混的.JPA是一种规范,什么是规范呢,规范就是一个钥匙可以开这把锁.一般对于规范来说我们都是用接口,如果有人要我们则实现我们 ...
（6）time&datetime(时间模块)
什么是时间模块就是处理时间相关的功能如用户注册的时间.统计程序运行的时间等 time 模块计算机中有三种时间 1.时间戳从1970年到今天,这个时间段中间经历的秒数获取时间戳:time.t ...
calc()语法
什么是calc()? 学习calc()之前,我们有必要先知道calc()是什么?只有知道了他是个什么东东?在实际运用中更好的使用他. calc()从字面我们可以把他理解为一个函数function.其实 ...
laravel集合
1.简介 Illuminate\Support\Collection 类为处理数组数据提供了平滑.方便的封装.例如,查看下面的代码,我们使用辅助函数 collect 创建一个新的集合实例,为每一个元素 ...

pandas的read_csv函数

pandas的read_csv函数的更多相关文章

随机推荐

热门专题