对于CSV及txt后缀的文本文件,分别使用pandas模块中的read_csv函数和read_table函数

文件类型

函数名称

CSV

read_csv()

txt

read_table()

1. read_table函数的参数

read_table(filepath_or_buffer , sep='\t' , header='infer' ,

names=None , index _col=None , usecols=None , dtype=None ,

converters=None ,  skiprows=None , skipfooter=None , nrows=None ,

na_values=None , skip_blank_lines=True , parse_dates=False ,

thousands= None , comment=None , encoding=None)

2. 参数解释

序号

参数名称

描述

1

filepath_or_buffer

文件路径、指定存储数据的URL或者文件型对象

2

sep

指定原数据集中分割每行字段的分隔符,默认为tab制表符

3

header

是否将原数据集中的第一行作为表头,默认是0,将第一行作为变量名称;如果原始数据中没有表头,该参数需要设置成None。

4

names

如果原数据集中没有列名,这个可以用来给数据添加列名。和header=None一起使用。

5

index _col

指定数据集中的某些列(字段)作为数据的行索引(标签)

6

usecols

指定要读取哪些列(字段)的数据。

7

dtype

为数据集中的每列设置不同的数据类型

8

converters

通过字典格式,为数据集中的某些列(字段)设置转换函数

9

skiprows

指定需要跳过原数据集的起始行数

10

skipfooter

指定需要跳过原数据集的末尾行数

11

nrows

指定从文件开头处读入的行数

12

na_values

指定原数据集中的哪些特征值为缺失值(默认将两个分隔符之间的空值视为缺失值)

13

skip_blank_lines

跳过空白行,默认为True

14

parse_dates

尝试将数据解析为datetime,默认为False。参数值为True时,则尝试解析数据框的行索引;参数为列表,则尝试解析对应的日期列;如果参数为嵌套列表,则将某些列合并为日期列;如果参数为字典,则解析对应的列(即字典中的值),并生成新的变量名(即字典中的键)

15

thousands

指定原数据集中的千分位符 ,例如','或'.'

16

comment

指定注释符,在读取数据时,如果碰到行首指定的注释符,则跳过该行

17

encoding

为防止中文乱码,可以借助该参数解决(通常设置为“utf-8”或者“gbk”)

18

chunksize

用于迭代的块大小

19

date_parser

用于解析日期的函数

read_csv函数的参数与之完全一致,有一个不同点:sep参数值的默认值

文件类型

函数名称

默认分隔符

CSV

read_csv()

参数的默认值为英文状态下的逗号“,”

txt

read_table()

参数的默认值为tab制表符

3 应用案例

有一个txt文件,内容如下:

2021年寒假留校过年的同学,带“!”的同学因临时变更选择回家

如有变化,及时报送

0014,多隆,男,河北石家庄人

0015,陈近南,男,福建漳州人

! 0016,韦小宝,男,江苏扬州人

0017,龙儿,女,神龙岛人

!0018,鳌拜,内蒙古呼和浩特人

数据来源于鹿鼎大学人事部

抄送给康熙

要求只读取编号、姓名、性别、籍贯等内容,且回家的不用读,实现如下效果:

id

name

gender

native place

0

14

多隆

河北石家庄人

1

15

陈近南

福建漳州人

2

17

龙儿

神龙岛人

代码

import pandas as pd

#用read_table函数读取文本文件的数据

data=pd.read_table(r'D:Desktop\新建文本文档.txt',    #文件路径,前面的filepath_or_buffer符可以省略掉

sep=',',   #指定数据中变量之间的分隔符,注意这里是中文的逗号 ,

header=None ,    #不需要将原来的数据中的第一行读作表头

names=['id','name','gender','native place'] ,  #重新为各列起变量名称

converters={'id':str} ,   #将ID转换为字符串,以免开头的00消失

skiprows=2 ,          #跳过开头的两行数据

skipfooter=2,         #跳过末尾的两行数据

comment='!'        #不读取“!”开头的数据行

)

Pandas—read_csv()/read_table()文本文件的读取的更多相关文章

  1. API:详解 pandas.read_csv

    pandas.read_csv 作为常用的读取数据的常用API,使用频率非常高,但是API中可选的参数有哪些呢? pandas项目代码 答案是: .read_csv(filepath_or_buffe ...

  2. pandas read_csv读取大文件的Memory error问题

    今天在读取一个超大csv文件的时候,遇到困难:首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时:MemoryError 最后查阅read_csv文档发现 ...

  3. pandas.read_csv()函数读取文件时,关于“header=None”影响读取列数区间的右闭合总结

    对于一个没有字段名标题的数据,如data.csv 1.获取数据内容.pandas.read_csv("data.csv")默认情况下,会把数据内容的第一行默认为字段名标题. imp ...

  4. pandas.read_csv() 部分参数解释

    read_csv()所有参数 pandas.read_csv( filepath_or_buffer, sep=',', delimiter=None, header='infer', names=N ...

  5. pandas.read_csv()参数(转载)

    文章转载地址 pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/p ...

  6. pandas.read_csv to_csv参数详解

    pandas.read_csv参数整理   读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas ...

  7. 被 Pandas read_csv 坑了

    被 Pandas read_csv 坑了 -- 不怕前路坎坷,只怕从一开始就走错了方向 Pandas 是python的一个数据分析包,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的 ...

  8. java算法面试题:从类似如下的文本文件中读取出所有的姓名,并打印出重复的姓名和重复的次数,并按重复次数排序 ;读取docx 读取doc 使用poi 相关jar包提集提供下载

    从类似如下的文本文件中读取出所有的姓名,并打印出重复的姓名和重复的次数,并按重复次数排序 1,张三,28 2,李四,35 3,张三,28 4,王五,35 5,张三,28 6,李四,35 7,赵六,28 ...

  9. pandas read_csv 读取中文列标题文件报错

    Traceback (most recent call last): File "C:/Users/arron/PycharmProjects/ML/ML/test.py", li ...

  10. pandas.read_csv参数详解

    读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参 ...

随机推荐

  1. Kubernetes 权限管理

    1. 概述 Kubernetes 中用户分登陆用户和 service account.登陆用户可通过 kubectl config 查看上下文,以及当前上下文: [root@chunqiu ~ (Ma ...

  2. mongodb 系统命令总结

    1.连接mongodb mongo ip/dbname -u username -p password #mongo -u admin -p admin 127.0.0.1:27017/pagedb ...

  3. 260. 只出现一次的数字 III

    1.题目介绍 2.题解 2.1 快排+遍历 思路 同本系列前几题一样 代码 class Solution { public: std::vector<int> singleNumber(s ...

  4. 【C++】类大小

    [来源]C++类大小详尽讲解 [来源]空类(empty class)

  5. 程序&命名-执行环境

    开发程序执行环境 系统级别 -- 编译器或解释器 程序级别 -- 命令行参数.配置文件 执行级别 -- 进程.线程.协程运行时上下文(树(命名空间 -- 函数-局部变量.包或模块-全局变量)) 命令行 ...

  6. [转帖]OceanBase 存储引擎详解

    https://zhuanlan.zhihu.com/p/436485359 作者简介:沈炼,蚂蚁集团技术风险部数据库高级专家毕业于东南大学,2014年以来从事 OceanBase 在蚂蚁的架构工作, ...

  7. [转帖]Redhat 8 磁盘调度策略变化:NOOP改为NONE

    说明 在 redhat 4/5/6/7版本中的NOOP调度策略,从8开始修改为NONE,官方解释: none Implements a first-in first-out (FIFO) schedu ...

  8. [转帖]一文读懂容器存储接口 CSI

    https://zhuanlan.zhihu.com/p/470093908 作者 | 惠志来源 | 阿里巴巴云原生公众号 导读:在<一文读懂 K8s 持久化存储流程>一文我们重点介绍了 ...

  9. 冷备份MySQL数据库并且使用Docker直接运行的操作过程

    备份数据库 查看数据库的数据文件的位置 systemctl status mysqld 查看启动进程以及防水 /etc/my.conf 查看datadir 指向Mysql数据库的存储数据路径. 关闭数 ...

  10. sed 删除部分行以及删除包含某些行的命令

    sed的简单学习 前言: 最近进行mysql数据库的备份恢复操作,发现source 命令执行时数据库表的速度非常缓慢, 本来想通过这种方式处理一下,能够减少数据备份的处理. 删除包含内容的信息 sed ...