数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可;利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index。

  python代码如下:(data数据时csv格式)

import csv

dict2 = {}      #C
dict4 = {}      #E
dict25 = {}     #z
dict26 = {}     #AA
dict27 = {}     #AB
dict37 = {}     #AL
dict38 = {}     #AM
dict40 = {}     #AO
dict41 = {}     #AP
dict42 = {}     #AQ
dict45 = {}     #AT
dict49 = {}     #AX
index = 0
flag = False #        print(row[2],dict[row[2]]) with open("E:/test/real/test.csv", 'w+', newline='') as csv_file_write:
        writer = csv.writer(csv_file_write)
        with open('E:/test/real/b.csv', 'r', newline='') as csv_file_read:
            reader = csv.reader(csv_file_read)
            for row in reader:
                if(flag):
                    if row[2] not in dict2.keys():
                        dict2[row[2]] = index
                    if row[4] not in dict4.keys():
                        dict4[row[4]] = index
                    if row[25] not in dict25.keys():
                        dict25[row[25]] = index
                    if row[26] not in dict26.keys():
                        dict26[row[26]] = index
                    if row[27] not in dict27.keys():
                        dict27[row[27]] = index
                    if row[37] not in dict37.keys():
                        dict37[row[37]] = index
                    if row[38] not in dict38.keys():
                        dict38[row[38]] = index
                    if row[40] not in dict40.keys():
                        dict40[row[40]] = index
                    if row[41] not in dict41.keys():
                        dict41[row[41]] = index
                    if row[42] not in dict42.keys():
                        dict42[row[42]] = index
                    if row[45] not in dict45.keys():
                        dict45[row[45]] = index
                    if row[49] not in dict49.keys():
                        dict49[row[49]] = index
                    row[2] = dict2[row[2]]
                    row[4] = dict4[row[4]]
                    row[25] = dict25[row[25]]
                    row[26] = dict26[row[26]]
                    row[27] = dict27[row[27]]
                    row[37] = dict37[row[37]]
                    row[38] = dict38[row[38]]
                    row[40] = dict40[row[40]]
                    row[41] = dict41[row[41]]
                    row[42] = dict42[row[42]]
                    row[45] = dict45[row[45]]
                    row[49] = dict49[row[49]]
                    index = index + 1
                writer.writerow(row)
                flag = True
        csv_file_read.close()
csv_file_write.close() print('done!')

  上例是真实的数据处理,有两百列属性,三万条数据的原始数据。其中包括中文字符,及缺失值,需要一步步清洗。

  备注:发生异常permission denied异常;

  解决方案: 是因为正在打开着csv文件,所以python没有权限以w的方式打开文件。关闭该文件即可;

数据挖掘:python数据清洗cvs里面带中文字符的更多相关文章

  1. PHP - 传入WebService服务端带中文字符的序列化字串不能反序列化的解决方法

    因工作需要,用了web服务,通过远程调用的方式来检索雅虎拍卖数据.前几天遇到一个问题,现在记录一下 客户端: $res = $this->client->call('Get_YahooDa ...

  2. python利用utf-8编码判断中文字符

    下面这个小工具包含了 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/u ...

  3. WP8_UTF8 to GB2312转码 (url网址中带中文字符的处理)

    直接使用例如:http://www.abc.php?name=中文符 ,客户端调用,在服务端修改后,会出现乱码, 而windows phone 又不能直接支持gb2312, 经过大量分析和验证,发现 ...

  4. 判断一个python字符串中是否包含中文字符

    #在python中一个汉字算一个字符,一个英文字母算一个字符 #用 ord() 函数判断单个字符的unicode编码是否大于255即可. def is_contain_chinese(check_st ...

  5. python 处理html文本的中文字符gbk转utf-8

    #中文字符gbk转utf-8 def gbk2utf8(self,raw): rs=raw.encode('raw_unicode_escape') #转为机器识别字符串 s=repr(rs) ss= ...

  6. 带中文的路径导致NSURL初始化一直为null的问题

    一.问题描述 在学习Ojective-C过程中,需要读取文件中的内容,但发现指针变量url的值一直为nil. 代码如下: NSString *strUrl=@"file:///Users/f ...

  7. JAVA的中文字符乱码问题

    来源:http://luzefengoo.blog.163.com/blog/static/1403593882012754428536/ JAVA的中文字符乱码问题一直很让人头疼.特别是在WEB应用 ...

  8. python中文字符乱码(GB2312,GBK,GB18030相关的问题)

    转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬 ...

  9. Python中文字符的理解:str()、repr()、print

    Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...

随机推荐

  1. Winform中设置Dialog的显示位置居中

    场景 点击按钮使窗体以Dialog的方式显示,即弹窗. //声明窗体对象 ChartOption chartOption = new ChartOption(); //显示Dialog chartOp ...

  2. JSP官方文档(JavaServer Pages Specification)下载

    找了好久,终于找到官网的下载地址了.这样,就可以用一手的文档资料了! 下载地址:http://download.oracle.com/otndocs/jcp/jsp-2_3-mrel2-spec/ s ...

  3. 超实用的SQL语句之嵌套查询

    嵌套查询 什么是嵌套查询 . 嵌套查询的意思是,一个查询语句(select-from-where)查询语句块可以嵌套在另外一个查询块的where子句中,称为嵌套查询.其中外层查询也称为父查询,主查询. ...

  4. Azure Application Insights REST API使用教程

    本文是Azure Application Insights REST API的简单介绍,并会包含一个通过Python消费API的示例/小工具. 新加入的team中的一项工作是制作日常的运维报表,制作方 ...

  5. jmeter 命令压测生成报告

    1.本地复制到远程 scp -r local_folder remote_username@remote_ip:remote_folder 或者 scp -r local_folder remote_ ...

  6. 讨厌的Permission denied:adb访问手机目录时,怎么处理Permission denied问题

    故事背景 手机某app出现了无响应,我想找到手机anr日志 但我只知道在data目录的某个目录里有个tra**的文件里有anr日志 具体的我真忘了,所以想要进入data中用ls查看一下 结果就出现了讨 ...

  7. java selenium 自动化笔记-不是0基础,至少有java基础

    本来今天要学GitHub的,但是在群里问了下小伙伴时被暴击.说我学的东西太多太杂,不是很深入,都是皮毛.哎~自己早深有意识到,因个人能力吧,找的资料都不是很全,加上实际工作没有应用到.所以写一篇sel ...

  8. Python学习笔记整理总结【Memcache & Redis(基础+主从架构)】

    一.Memcached1.简介Memcached 是一个高性能的分布式内存对象缓存系统,一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度.提高可扩展性.用来存储 ...

  9. Proxy实现java动态代理

    在java设计模式中代理模式的应用比较广泛, 比如我在编写一写web程序时在filter修改request或response时, 而request中并没有相应的set方法, 这样要做到修改就需要使用一 ...

  10. KD-tree学习笔记(超全!)

    目录 K-D树 更新信息 建树 插入 查询 k远/近询问 重构 K-D 树优化建边 后记 因为之前找不到全的博客,唯一的一篇码风比较毒瘤... 所以我就来写了 K-D树 大概是高维二叉树吧 每次按一个 ...