读文件

pd.read_csv('path/to/file.txt',header=0,names='ab',index_col=0)

names Columns这个可以不写，制定索引列是第一列，这样就没有序号

写文件

dataframe.to_csv('d:/python/end.txt')

dataframe

类似于二维列表

充分利用map函数

df.a=df.a.map(function)

修改一列的值

筛选列

new_dataframe = df[df.a!='']

这种办法可以筛选得到新的df

自动迭代

处理

def getPhoneNumFromFile(fobj):

    regex = re.compile(r'1\d{10}', re.IGNORECASE)

    phonenums = re.findall(regex, fobj)

    #print phonenums

    if len(phonenums)==1:

        return phonenums[0]

    else:

        return ''

充分体现了轮子的重要性

如果是一个熟练人员几分钟就搞定了

#! /usr/bin/env python

# -*- coding:utf-8   -*-

# __author__ == "xpro"

import pandas as pd

import re,optparse,os

def getPhoneNumFromFile(fobj):

    regex = re.compile(r'1\d{10}', re.IGNORECASE)

    phonenums = re.findall(regex, fobj)

    #print phonenums

    if len(phonenums)==1:

        return phonenums[0]

    else:

        return ''

def main():

    p = optparse.OptionParser()

    p.add_option('--source', '-s', default="d:/python/telpwd.txt", help=u'要处理的文件路径') #应该对文件进行验证判断是否存在

    p.add_option('--dist', '-d', default="d:/python/dis.txt", help=u'输出文件路径') #验证目录是否可以写

    #如果用户使用的是默认的应该给出提示

    options, arguments = p.parse_args()

    df = pd.read_csv(options.source, header = 0)

    df.a = df.a.map(getPhoneNumFromFile)

    df = df[df.a != '']

    print 'wirting ro text file...'

    df.to_csv(options.dist)

if __name__ == '__main__':

    main()

下面是不是用pandas自己写的版本

#! /usr/bin/env python

# -*- coding:utf-8   -*-

# __author__ == "tyomcat"

import re,optparse,os,time

p = optparse.OptionParser()

p.add_option('--source', '-s', default="d:/python/telpwd.txt",help=u'要处理的文件路径')

p.add_option('--dist', '-d', default="d:/python/dis.txt",help=u'输出文件路径')

options, arguments = p.parse_args()

print u'默认路径: %s' % options.source

print u'默认输出文件路径: %s' % options.dist

raw_input()

#大家自己处理txt文本的时候，只要重写这个函数就好了

def getPhoneNumFromFile(fobj):

    regex = re.compile(r'1\d{10}', re.IGNORECASE)

    phonenums = re.findall(regex, fobj)

    #print phonenums

    return phonenums

file = open(options.source)

output = []

start = time.clock()

start2 = time.time()

lines = 0

while 1:

    line = file.readline()

    lines += 1

    if not line:

        break

    arr = line.strip().split('----')

    rst = getPhoneNumFromFile(arr[0])

    if rst:

        temp = [rst[0]]

        if len(arr) == 2:

            temp.append(arr[1])

        print 'line ',lines,len(output), temp, time.clock() - start

        print line

        output.append(temp)

 # do something

rstfile = open(options.dist,'w')

for x in output:

    #x[1] += '\n'

    #print x[0] + '----' + x[1] + '\n'

    if len(x) == 2:

        rstfile.write(x[0] + '----' + x[1] + '\n')

    # else:

    #     rstfile.write(x[0] + '----'  + '\n')

print u'文件输出到: '+options.dist

end2 = time.time()

end = time.clock()

print u'程序用时cpu：',end - start

print u'程序用时：',end2 - start2

raw_input()

效率差别那是极大的，这个要3个多小时，上面要十几秒

pandas处理数据1的更多相关文章

利用Python进行数据分析(12) pandas基础: 数据合并
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法c ...
【转载】使用Pandas对数据进行筛选和排序
使用Pandas对数据进行筛选和排序本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas对数据进行筛选和排序目录: sort() 对单列数据进行排序对多列数据进行排序获取金额最小前10项 ...
【转载】使用Pandas进行数据提取
使用Pandas进行数据提取本文转载自:蓝鲸的网站分析笔记原文链接:使用python进行数据提取目录 set_index() ix 按行提取信息按列提取信息按行与列提取信息提取特定日期的信 ...
【转载】使用Pandas进行数据匹配
使用Pandas进行数据匹配本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas进行数据匹配目录 merge()介绍 inner模式匹配 lefg模式匹配 right模式匹配 outer模式 ...
【转载】使用Pandas创建数据透视表
使用Pandas创建数据透视表本文转载自:蓝鲸的网站分析笔记原文链接:使用Pandas创建数据透视表目录 pandas.pivot_table() 创建简单的数据透视表增加一个行维度(inde ...
Pandas 把数据写入csv
Pandas 把数据写入csv from sklearn import datasets import pandas as pd iris = datasets.load_iris() iris_X ...
pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
Pandas DataFrame数据的增、删、改、查
Pandas DataFrame数据的增.删.改.查 https://blog.csdn.net/zhangchuang601/article/details/79583551 #删除列 df_2 = ...
pandas 选取数据修改数据 loc iloc []
pandas选取数据可以通过 loc iloc [] 来选取使用loc选取某几列: user_fans_df = sample_data.loc[:,['uid','fans_count']] 使 ...
【笔记】Pandas分类数据详解
[笔记]Pandas分类数据详解 Pandas Pandas分类数据详解|轻松玩转Pandas(5) 参考:Pandas分类数据详解|轻松玩转Pandas(5)

随机推荐

django的分页
一.分页器的函数封装 # 分页计算最小页和最大页 def page_list_return(total, current=1): ''' 分页,返回本次分页的最小页数和最大页数列表 :param to ...
超简单的JNI——NDK开发教程
不好意思各位,我按照网上一些教程进行JNI开发,折腾了半天也没成功,最后自己瞎搞搞定了,其实超简单的,网上的教程应该过时了,最新版的AS就包含了NDK编译的功能,完全不用手动javah,各种包名路径的 ...
Hash工具下载地址
因为经常要在非常用电脑使用,这里放一个链接,方便下载: http://files.cnblogs.com/files/cxun/Hash.zip HASH计算工具,可计算MD5.SHA-1.CRC32 ...
如何写出优雅的Python（二）
Print sorted list: colors=['red','green','blue','yellow'] for color in sorted(colors): print color f ...
IOS 7 风格Checkbox
Switchery Switchery is a simple component that helps you turn your default HTML checkbox inputs into ...
Java数据结构与算法之---求两个数的最大公约数（欧几里得算法）
一个简单的小算法来获取两个数的最大公约数, public class Test { public static void main(String[] args) { long result = gcd ...
Hello Spring Framework——面向切面编程（AOP）
本文主要参考了Spring官方文档第10章以及第11章和第40章的部分内容.如果要我总结Spring AOP的作用,不妨借鉴文档里的一段话:One of the key components of S ...
socket网络编程
一.客户端/服务器架构 C/S架构,包括 1.硬件C/S架构(打印机) 2.软件C/S架构(Web服务) 最常用的软件服务器就是Web服务器,一台机器里放了一些网页或Web应用程序,然后启动服务,这样 ...
CAS示例环境部署及配置
http://wenku.baidu.com/link?url=d6JjWqOtuUediSkV18XagtVG9lVC2hTiaIEimfIgv1PIW8RMA1sXeIqqtJkW90lleYPQ ...
Kafka 0.9+Zookeeper3.4.6集群搭建、配置，新Client API的使用要点，高可用性测试，以及各种坑（转载）
Kafka 0.9版本对java client的api做出了较大调整,本文主要总结了Kafka 0.9在集群搭建.高可用性.新API方面的相关过程和细节,以及本人在安装调试过程中踩出的各种坑. 关于K ...

pandas处理数据1

读文件

写文件

dataframe

筛选列

处理

pandas处理数据1的更多相关文章

随机推荐

热门专题