数学建模之Python操作csv文件

1.用Python通过csv文件里面的某一列，形成键值，然后统计键在其他列出现的次数。

import pandas as pd

import numpy as np

import csv

import codecs

import sys

data_original = pd.read_csv('D:/csv_data_original.csv')

data = pd.read_csv('D:/week1.csv')

#data = data['retweeted_status_mid'].fillna('NOT PROVIDED',inplace=True)

#data_transpond = data[data['retweeted_status_mid'] != 'NOT PROVIDED']

#每条原创微博转发次数统计

def statistics(path1,path2):

    num1 = 0

    num2 = 0

    #这块代码用来形成键值，初始化为0

    with open(path2, 'r', encoding="iso-8859-1") as f:

        reader2 = csv.reader(f)

        data_head2 = next(reader2)

        print(data_head2)

        data_line = next(reader2)

        while(data_line):

            if data_line[0] not in mid.keys():

                mid[data_line[0].encode("iso-8859-1").decode("gbk", "ignore")] = 0

                num2 += 1

                print("正在创建第" + str(num2) + "个键")

            try:

                data_line = next(reader2)

            except StopIteration:

                print("数据处理完毕，键值完全形成" + str(num2) + "!")

                break

                #sys.exit()

        f.close()

    #这块代码用来统计每个键出现的次数

    with open(path1, 'r', encoding="iso-8859-1") as f:

        reader1 = csv.reader(f)

        data_head1 = next(reader1)

        print(data_head1)

        data_line = next(reader1)

        while(data_line):

            if data_line[1] in mid.keys():

                mid[data_line[1].encode("iso-8859-1").decode("gbk", "ignore")] += 1

                print("这条微博被转发" + str(mid[data_line[1]]) + "次")

            try:

                data_line = next(reader1)

            except StopIteration:

                print("数据处理完毕，转发次数统计完毕")

                break

                #sys.exit()

        f.close()

#字典转化为列表

def transpond(dict):

    global list_key#保存键

    global list_value#保存值

    list_key = list(dict)

    list_value = list(dict.values())

#将数据写入csv文件

def data_write_csv(file_name, list1,list2):#file_name为写入CSV文件的路径，datas为要写入数据列表

    with open(file_name,'w',newline='') as f:

        writer = csv.writer(f)

        writer.writerows(zip(list1, list2))

if __name__ == "__main__":

    path_data = 'D:/week1.csv'  # 原始数据路径

    path_data_original = 'D:/csv_data_original.csv'  # 处理后只含原创的微博数据路径

    path_save = 'D:/transpond_data.csv'  # 保存处理后的数据

    mid = {}  # 定义字典用来保存每条原创微博被转发的次数

    list_key = []  # 保存键

    list_value = []  # 保存值

    statistics(path_data,path_data_original)

    transpond(mid)

    data_write_csv(path_save,list_key,list_value)

2.与1类似的操作，具体有一些细节变动，代码中有注释

import csv

import pandas as pd

#每条原创微博转发次数统计

def statistics(path1,path2):

    num2 = 0

    #这块代码用来形成键值，初始化为0

    with open(path2, 'r', encoding="iso-8859-1") as f:

        reader2 = csv.reader(f)

        data_head2 = next(reader2)

        print(data_head2)

        data_line = next(reader2)

        while(data_line):

            if data_line[0] not in mid.keys():

                mid[data_line[0].encode("iso-8859-1").decode("gbk", "ignore")] = 0

                num2 += 1

                print("正在创建第" + str(num2) + "个键")

            try:

                data_line = next(reader2)

            except StopIteration:

                print("数据处理完毕，键值完全形成" + str(num2) + "!")

                break

                #sys.exit()

        f.close()

    #这块代码用来统计每个键出现的次数

    with open(path1, 'r', encoding="iso-8859-1") as f:

        reader1 = csv.reader(f)

        data_head1 = next(reader1)

        print(data_head1)

        data_line = next(reader1)

        while(data_line):

            if data_line[2] in mid.keys():

                mid[data_line[2].encode("iso-8859-1").decode("gbk", "ignore")] += int(data_line[1])

                print("这个用户的微博被转发一共" + str(mid[data_line[2]]) + "次")

            try:

                data_line = next(reader1)

            except StopIteration:

                print("数据处理完毕，转发次数统计完毕")

                break

                #sys.exit()

        f.close()

#字典转化为列表

def transpond(dict):

    global list_key#保存键

    global list_value#保存值

    list_key = list(dict)

    list_value = list(dict.values())

#将数据写入csv文件

def data_write_csv(file_name, list1,list2):#file_name为写入CSV文件的路径，datas为要写入数据列表

    with open(file_name,'w',newline='') as f:

        writer = csv.writer(f)

        writer.writerows(zip(list1, list2))

if __name__ == '__main__':

    path1 = 'D:/csv_data_original_num.csv'  # 用来形成键的数据路径

    path2 = 'D:/data_all.csv'  # 用来查找键值的数据路径

    path_save = 'D:/user_transpond.csv'  # 存放统计好的数据路径

    mid = {}

    list_key = []

    list_value = []

    statistics(path2,path1)

    transpond(mid)

    data_write_csv(path_save,list_key,list_value)

3.将大数据的csv文件根据特定条件分成几份小文件

#coding = utf-8

import pandas as pd

import csv

def get_txt(path1,path2,path3,path4,path5,path6,path7,path8):

    num = 0

    with open(path1, 'r',encoding = 'utf-8') as f:

        txt1 = open(path2, "w", encoding='utf-8')

        txt2 = open(path3, "w", encoding='utf-8')

        txt3 = open(path4, "w", encoding='utf-8')

        txt4 = open(path5, "w", encoding='utf-8')

        txt5 = open(path6, "w", encoding='utf-8')

        txt6 = open(path7, "w", encoding='utf-8')

        txt7 = open(path8, "w", encoding='utf-8')

        reader1 = csv.reader(f)

        data_head1 = next(reader1)

        print(data_head1)

        data_line = next(reader1)

        while(data_line):

            num += 1

            print(num)

            print(data_line[6])

            if num > 0 and num < 700000:

                txt1.write(data_line[6] + '\n')

            elif num >= 700000 and num < 1400000:

                txt2.write(data_line[6] + '\n')

            elif num >= 1400000 and num < 2100000:

                txt3.write(data_line[6] + '\n')

            elif num >= 2100000 and num < 2800000:

                txt4.write(data_line[6] + '\n')

            elif num >= 2800000 and num < 3500000:

                txt5.write(data_line[6] + '\n')

            elif num >= 3500000 and num < 4200000:

                txt6.write(data_line[6] + '\n')

            elif num >= 4200000 and num < 4700000:

                txt7.write(data_line[6] + '\n')

            try:

                data_line = next(reader1)

            except StopIteration:

                print("数据处理完毕，转发次数统计完毕")

                break

                #sys.exit()

        f.close()

if __name__ == '__main__':

    path1 = 'D:/week1.csv'

    path2 = 'D:/text1.txt'

    path3 = 'D:/text2.txt'

    path4 = 'D:/text3.txt'

    path5 = 'D:/text4.txt'

    path6 = 'D:/text5.txt'

    path7 = 'D:/text6.txt'

    path8 = 'D:/text7.txt'

    get_txt(path1,path2,path3,path4,path5,path6,path7,path8)

数学建模之Python操作csv文件的更多相关文章

Python操作csv文件
1.什么是csv文件 The so-called CSV (Comma Separated Values) format is the most common import and export fo ...
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...
Python对csv文件的读写操作
python内置了csv模块,用它可以方便的操作csv文件. 1.写文件 (1)写文件的方法一 import csv # open 打开文件有多种模式,下面是常见的4种 # r:读数据,默认模式 # ...
python中操作csv文件
python中操作csv文件读取csv improt csv f = csv.reader(open("文件路径","r")) for i in f: pri ...
python操作csv和excel文件
1.操作csv文件 1).读取文件 import csv f=open("test.csv",'r') t_text=csv.reader(f) for t,i in t_text ...
Python处理csv文件
Python处理csv文件 CSV(Comma-Separated Values)即逗号分隔值,可以用Excel打开查看.由于是纯文本,任何编辑器也都可打开.与Excel文件不同,CSV文件中: 值没 ...
使用Python读写csv文件的三种方法
Python读写csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 前言逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是 ...
python读写csv文件
文章链接:https://www.cnblogs.com/cloud-ken/p/8432999.html Python读写csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 前言逗 ...
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...

随机推荐

Python 发送企业微信消息
1.获取企业微信信息 1)我的企业 --> 企业信息 --> 企业ID 2)创建一个应用,记录该应用的 AgentId.Secret 2.python代码 #!/usr/bin/env p ...
centos安装sftp服务
一.创建sftp服务数据目录及相关测试用户 [root@localhost ~]# mkdir -pv /data/sftp/ #sftp数据目录 [root@localhost ~]# chown ...
json工具类（一）——alibaba包
package com.ruoyi.common.utils.json; import java.util.HashMap; import java.util.List; import java.ut ...
【BZOJ4942】[NOI2017]整数（分块）
[BZOJ4942][NOI2017]整数(分块) 题面 BZOJ 洛谷题解暴力就是真正的暴力,直接手动模拟进位就好了. 此时复杂度是模拟的复杂度加上单次询问的\(O(1)\). 所以我们需要优化 ...
[转] Performance_js中计算网站性能监控利器
1.Performance方法 Performance提供的方法可以灵活使用,获取到页面加载等标记的耗时情况. performance.now() //返回当前到页面打开时刻的耗时,精确到千分之一毫秒 ...
使用 Python 获取 Windows 聚焦图片
Windows 聚焦图片会定期更新,拿来做壁纸不错,它的目录是: %localappdata%\Packages\Microsoft.Windows.ContentDeliveryManager_cw ...
Oracle学习笔记（六）
Oralce行定位与rowid: drop table t purge; create table t as select * from dba_objects; create index idx_o ...
WebUploader 上传文件错误总结
近日做文件上传,粗心的问题和技术不精的问题导致了很多的bug,大部分时间都是在找自己写出来的bug,近日总结一下使用 WebUploader 开启分片上传的使用方法以及注意事项 1.上传过程中,后续上 ...
一般处理程序Session
1.要在一般处理程序中获取其他页面的session值,需要引用名空间: using System.Web.SessionState; 2.然后继承一个接口:IRequiresSessionState ...
Asp.net MVC企业级开发（01）---Autofac
1.1 控制反转在面向对象设计的软件系统中,它的底层都是由N个对象构成的,各个对象之间通过相互合作,最终实现系统的业务逻辑.同时,对象之间的耦合关系是无法避免的,也是必要的,这是协同工作的基础.但是 ...

数学建模之Python操作csv文件

1.用Python通过csv文件里面的某一列，形成键值，然后统计键在其他列出现的次数。

2.与1类似的操作，具体有一些细节变动，代码中有注释

3.将大数据的csv文件根据特定条件分成几份小文件

数学建模之Python操作csv文件的更多相关文章

随机推荐

热门专题