建议42：使用pandas处理大型CSV文件

# -*- coding:utf-8 -*- ''' CSV 常用API 1)reader(csvfile[, dialect='excel'][, fmtparam]),主要用于CSV 文件的读取,返回一个 reader 对象用于在CSV 文件内容上进行行迭代. 参数: csvfile,需要是支持迭代(Iterator)的对象,通常对文件(file)对象或者列表(list)对象都是适用的,并且每次调用next() 方法的返回值是字符串(string): dialect 的默认值为excel,与…

使用Ruby处理大型CSV文件

处理大型文件是一种内存密集型操作,可能导致服务器耗尽RAM内存并交换到磁盘.让我们看一下使用Ruby处理CSV文件的几种方法,并测量内存消耗和速度性能. Prepare CSV data sample Before we start, let's prepare a CSV file data.csv with 1 million rows (~ 75 MB) to use in tests. require 'csv' require_relative './helpers' headers…

[译]使用Pandas读取大型Excel文件

上周我参加了dataisbeautiful subreddit上的Dataviz Battle,我们不得不从TSA声明数据集创建可视化.我喜欢这种比赛,因为大多数时候你最终都会学习很多有用的东西. 这次数据非常干净,但它分散在几个PDF文件和Excel文件中.在从PDF中提取数据的过程中,我了解了一些工具和库,最后我使用了tabula-py,这是Java库tabula的Python包装器.至于Excel文件,我发现单行 - 简单pd.read_excel- 是不够的. 最大的Excel文件大约是…

Python 从大型csv文件中提取感兴趣的行

帮妹子处理一个2.xG 大小的 csv文件,文件太大,不宜一次性读入内存,可以使用open迭代器. with open(filename,'r') as file # 按行读取 for line in file: process 或者简单点 for line in open('myfile.txt','r'): pass 需求是,提取时间在指定时间段的数据,另存一个文件. 全部代码如下 def is_between_time(str, start, end): """ :pa…

用pandas库对csv文件中的文本数据进行分析处理

#数据分析 import pandas import csv old_path = r'd:\2000W\200W-400W.csv' f = open(old_path,'r',encoding='utf-8') data = pandas.read_csv(f) # print(data) num = int(data.describe().ix[0,0]) # print(num) # print(num) #遍历出所有行 # print("---------遍历出所有行-------&q…

利用pandas随机切分csv文件

把数据集随机切分为训练集和测试集 method 1: df = pd.read_csv('data/tgnb_merge.csv', encoding='utf-8') df.drop_duplicates(keep='first', inplace=True) # 去重,只保留第一次出现的样本 df_test = df.sample(frac=0.1) df_train = pd.concat([df, df_test], axis=0) # 拼接 df_train.drop_duplicat…

使用Pandas读取大型Excel文件

import os import pandas as pd HERE = os.path.abspath(os.path.dirname(__file__)) DATA_DIR = os.path.abspath(os.path.join(HERE, '..', 'data')) def make_df_from_excel(file_name, nrows): """Read from an Excel file in chunks and make a single Da…

[Python]-pandas模块-CSV文件读写

Pandas 即Python Data Analysis Library,是为了解决数据分析而创建的第三方工具,它不仅提供了丰富的数据模型,而且支持多种文件格式处理,包括CSV.HDF5.HTML 等,能够提供高效的大型数据处理. 另外,csv模块也同样可以进行csv文件读写. import pandas import csv pandas模块-读取CSV文件 import pandas data = pandas.read_csv(csv_path) # 查看前两行 print(data.he…

Python之文件读写(csv文件，CSV库，Pandas库)

前言一.Python文件读取二.读取CSV文件一.Python文件读取 1. open函数是内置函数之with操作 - 关于路径设置的问题斜杠设置成D:\\文件夹\\文件或是D:/文件夹/文件 f = open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) file: 必需,文件路径(相对或者绝对路径). mode: 可选,文件打开模式 b…

109.大型的csv文件的处理方式

HttpResponse对象将会将响应的数据作为一个整体返回,此时如果数据量非常大的话,长时间浏览器没有得到服务器的响应,就会超过默认的超时时间,返回超时.而StreamingHttpResponse会将响应的数据作为一个数据流返回给浏览器,这样浏览器就可以接收到服务器发送过来的数据,不会因为长期没有得到服务器的回应而返回超时. StreamingHttpResponse: 这个类是专门用来处理流数据的,使得在处理一些大型文件的时候,不会因为服务器处理时间过长而连接超时.这个类并不是继承Http…

Django学习笔记之视图高级-CSV文件生成

生成CSV文件有时候我们做的网站,需要将一些数据,生成有一个CSV文件给浏览器,并且是作为附件的形式下载下来.以下将讲解如何生成CSV文件. 生成小的CSV文件这里将用一个生成小的CSV文件为例.我们用Python内置的csv模块来处理csv文件,并且使用HttpResponse来将csv文件返回回去.示例代码如下: import csv from django.http import HttpResponse def csv_view(request): response = HttpRe…

Django生成CSV文件

1.生成CSV文件有时候我们做的网站,需要将一些数据,生成有一个CSV文件给浏览器,并且是作为附件的形式下载下来.以下将讲解如何生成CSV文件. 2.生成小的CSV文件这里将用一个生成小的CSV文件为例,来把生成CSV文件的技术要点讲到位.我们用Python内置的csv模块来处理csv文件,并且使用HttpResponse来将csv文件返回回去. 示例代码如下: import csv from django.http import HttpResponse def csv_view(requ…

【转】Java操作CSV文件导入导出

特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/mao2080/ public class CSVUtils { /** * * 描述:导出 * @author mao2080@sina.com * @created 2017年8月26日下午2:39:13 * @since * @param file csv文件(路径+文件名),csv文件不存…

python学习之读写csv文件（使用pandas）

简介逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据.CSV文件由任意数目的记录组成,记录间以某种换行符分隔:每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符.通常,所有记录都有完全相同的字段序列. 特点读出的数据一般是字符类型哦以行为单位读取数据列之间以半角逗号或制表符为分割…

用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

假设有Excel文件data.xlsx,其中内容为: ID age height sex weight张三 1 39 181 female 85李四 2 40 180 male 80王五 3 38 178 female 78赵六 4 59 170 male 66 现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列…

Pandas 基础(4) - 读/写 Excel 和 CSV 文件

这一节将分别介绍读/写 Excel 和 CSV 文件的各种方式: - 读入 CSV 文件首先是准备一个 csv 文件, 这里我用的是 stock_data.csv, 文件我已上传, 大家可以直接下载下来使用. 正如前面讲过的, csv 文件可以放在 jupyter notebook 同目录下, 这样直接写文件名就可以了, 但是如果没有放在同目录下, 就需要写绝对路径, 否则读取不到. import pandas as pd df = pd.read_csv('/Users/rachel/Sit…

pandas 读csv文件 TypeError: Empty 'DataFrame': no numeric data to plot

简单的代码,利用pandas模块读csv数据文件,这里有两种方式,一种是被新版本pandas遗弃的Series.from_csv:另一种就是pandas.read_csv 先说一下问题这个问题就是在读csv文件时,默认的数据是object类型,因而没有字符型数据可被plot,此时仅需要转换一下类型即可,如下: from pandas import Series import matplotlib.pyplot as plt data = Series.from_csv('daily.csv',h…

使用pandas导入csv文件到MySQL

之前尝试过用命令行来解决csv文件导入到MySQL这个问题,没想到一直没有成功.之后会继续更新的吧,现在先用pandas来解决这个问题,虽然会复杂一点,但至少能用. 例子是导入movielens的rating数据,如下: 1. 创建表格 CREATE TABLE ratings( id BIGINT NOT NULL AUTO_INCREMENT, userId BIGINT NOT NULL, movieId BIGINT NOT NULL, rating DOUBLE NOT NULL, t…

pandas.DataFrame——pd数据框的简单认识、存csv文件

接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, details. 我们如何对这些数据进行存储:让每一本书的每一个元素可以一一对应起来,形成第一本书的书名.作者等等在一起,下一本书的书名.作者在一起. 这里我们接触一个新的数据存储形式:pandas库里的DataFrame. pandas.DataFrame() DataFrame是一个表格型的数据结构,它含…

使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中

参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 -*- from multiprocessing.pool import Pool import pandas as pd import requests from sqlalchemy import create_engine # 数据库相关信息 HOSTNAME = '127.0.0.1' P…

Pandas之csv文件对列行的相关操作

1.Pandas对数据某一列删除 1.删除列 import pandas as pd df = pd.read_csv(file) #axis=1就是删除列 df.drop(['列名1','列名2'], axis=1) 2.删除记录,也就是行 import pandas as pd df = pd.read_csv(file) #axis=0就是删除记录也就是行 df.drop([0,1,3], axis=0) 2.Pandas之修改列名 1.第一种是没有表头,想要添加表头因为csv文件是没有…

Python之Pandas操作csv文件dataframe

# -*- coding: utf-8 -*- # author:baoshan import pandas as pd def main(): aqi_data = pd.read_csv('china_city_aqi_teacher.csv') print('基本信息:') print(aqi_data.info()) print('数据预览') print(aqi_data.head(5)) # 基本统计 print('AQI最大值', aqi_data['AQI'].max()) pr…

使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内

这几天在用 Python3 研究一个爬虫,最后一个需求是把爬下来的20+个csv文件整合到一个excel表里的不同sheets. 初版的核心代码如下: while year <= 2018: csvPath = sys.path[0] + '/result/%d.csv' % year excelPath = sys.path[0] + '/result.xlsx' csvReader = pandas.read_csv(csvPath, encoding='utf_8_sig') excelW…

使用pandas读取csv文件和写入文件

这是我的CSV文件读取其中得tempo这一列 import pandas as pd #导入pandas包 data = pd.read_csv("E:\\毕设\\情感识别\\Music-Emotion\\Music-Emotion\\Emotion_features.csv") #读取csv文件 feature = data.loc[:, ['tempo']]#读取trmpo列得所有行 4 feature1 = data.loc[2:4, ['tempo', 'total_beat…

使用Pandas读取CSV文件

使用Pandas读取CSV文件 import pandas as pd csv_data = pd.read_csv('birth_weight.csv') # 读取训练数据 print(csv_data.shape) # (189, 9) N = 5 csv_batch_data = csv_data.tail(N) # 取后5条数据 print(csv_batch_data.shape) # (5, 9) train_batch_data = csv_batch_data[list(rang…