VBA处理数据与Python Pandas处理数据案例比较

Author : Collin_PXY

需求：

现有一个 csv文件，包含'CNUM'和'COMPANY'两列，数据里包含空行，且有内容重复的行数据。

要求：

1）去掉空行；

2）重复行数据只保留一行有效数据；

3）修改'COMPANY'列的名称为'Company_New‘；

4）并在其后增加六列，分别为'C_col','D_col','E_col','F_col','G_col','H_col'。

一，使用 Python Pandas来处理：

import pandas as pd

import numpy as np

from pandas import DataFrame,Series

def deal_with_data(filepath,newpath):

    file_obj=open(filepath)

    df=pd.read_csv(file_obj)    # 读取csv文件，创建 DataFrame

    df=df.reindex(columns=['CNUM','COMPANY','C_col','D_col','E_col','F_col','G_col','H_col'],fill_value=None)   # 重新指定列索引

    df.rename(columns={'COMPANY':'Company_New'}, inplace = True)  # 修改列名

    df=df.dropna(axis=0,how='all')                 # 去除 NAN 即文件中的空行

    df['CNUM'] = df['CNUM'].astype('int32')        # 将 CNUM 列的数据类型指定为 int32

    df = df.drop_duplicates(subset=['CNUM', 'Company_New'], keep='first')  # 去除重复行

    df.to_csv(newpath,index=False,encoding='GBK')

    file_obj.close()

if __name__=='__main__':

    file_path=r'C:\Users\12078\Desktop\python\CNUM_COMPANY.csv'

    file_save_path=r'C:\Users\12078\Desktop\python\CNUM_COMPANY_OUTPUT.csv'

    deal_with_data(file_path,file_save_path)

二，使用 VBA来处理：

Option Base 1

Option Explicit

Sub main()

	On Error GoTo error_handling

	Dim wb                  As Workbook

	Dim wb_out              As Workbook

	Dim sht                 As Worksheet

	Dim sht_out             As Worksheet

	Dim rng                 As Range

	Dim usedrows            As Byte

	Dim usedrows_out        As Byte

	Dim dict_cnum_company   As Object

	Dim str_file_path       As String

        Dim str_new_file_path   As String

        'assign values to variables:

       str_file_path = "C:\Users\12078\Desktop\Python\CNUM_COMPANY.csv"

       str_new_file_path = "C:\Users\12078\Desktop\Python\CNUM_COMPANY_OUTPUT.csv"

	Set wb = checkAndAttachWorkbook(str_file_path)

	Set sht = wb.Worksheets("CNUM_COMPANY")

	Set wb_out = Workbooks.Add

	wb_out.SaveAs str_new_file_path, xlCSV  'create a csv file

	Set sht_out = wb_out.Worksheets("CNUM_COMPANY_OUTPUT")

	Set dict_cnum_company = CreateObject("Scripting.Dictionary")

	usedrows = WorksheetFunction.Max(getLastValidRow(sht, "A"), getLastValidRow(sht, "B"))

	'rename the header 'COMPANY' to 'Company_New',remove blank & duplicate lines/rows.

	Dim cnum_company As String

	cnum_company = ""

	For Each rng In sht.Range("A1", "A" & usedrows)

	    If VBA.Trim(rng.Offset(0, 1).Value) = "COMPANY" Then

	        rng.Offset(0, 1).Value = "Company_New"

	    End If

	    cnum_company = rng.Value & "-" & rng.Offset(0, 1).Value

	    If VBA.Trim(cnum_company) <> "-" And Not dict_cnum_company.Exists(rng.Value & "-" & rng.Offset(0, 1).Value) Then

	        dict_cnum_company.Add rng.Value & "-" & rng.Offset(0, 1).Value, ""

	    End If

	Next rng

	'loop the keys of dict split the keyes by '-' into cnum array and company array.

	Dim index_dict As Byte

	Dim arr_cnum()

	Dim arr_Company()

	For index_dict = 0 To UBound(dict_cnum_company.keys)

	    ReDim Preserve arr_cnum(1 To UBound(dict_cnum_company.keys) + 1)

	    ReDim Preserve arr_Company(1 To UBound(dict_cnum_company.keys) + 1)

	    arr_cnum(index_dict + 1) = Split(dict_cnum_company.keys()(index_dict), "-")(0)

	    arr_Company(index_dict + 1) = Split(dict_cnum_company.keys()(index_dict), "-")(1)

	    Debug.Print index_dict

	Next

	'assigns the value of the arrays to the celles.

	sht_out.Range("A1", "A" & UBound(arr_cnum)) = Application.WorksheetFunction.Transpose(arr_cnum)

	sht_out.Range("B1", "B" & UBound(arr_Company)) = Application.WorksheetFunction.Transpose(arr_Company)

	'add 6 columns to output csv file:

	Dim arr_columns() As Variant

	arr_columns = Array("C_col", "D_col", "E_col", "F_col", "G_col", "H_col")   '

	sht_out.Range("C1:H1") = arr_columns

	Call checkAndCloseWorkbook(str_file_path, False)

	Call checkAndCloseWorkbook(str_new_file_path, True)

Exit Sub

error_handling:

   Call checkAndCloseWorkbook(str_file_path, False)

   Call checkAndCloseWorkbook(str_new_file_path, False)

End Sub

' 辅助函数：

'Get last row of Column N in a Worksheet

Function getLastValidRow(in_ws As Worksheet, in_col As String)

    getLastValidRow = in_ws.Cells(in_ws.Rows.count, in_col).End(xlUp).Row

End Function

Function checkAndAttachWorkbook(in_wb_path As String) As Workbook

    Dim wb As Workbook

    Dim mywb As String

    mywb = in_wb_path

   For Each wb In Workbooks

        If LCase(wb.FullName) = LCase(mywb) Then

            Set checkAndAttachWorkbook = wb

            Exit Function

        End If

    Next

   Set wb = Workbooks.Open(in_wb_path, UpdateLinks:=0)

   Set checkAndAttachWorkbook = wb

End Function

Function checkAndCloseWorkbook(in_wb_path As String, in_saved As Boolean)

    Dim wb As Workbook

    Dim mywb As String

    mywb = in_wb_path

    For Each wb In Workbooks

        If LCase(wb.FullName) = LCase(mywb) Then

            wb.Close savechanges:=in_saved

            Exit Function

        End If

    Next

End Function

三，输出结果：

两种方法输出结果相同：

四，比较总结：

Python pandas 内置了大量处理数据的方法，我们不需要重复造轮子，用起来很方便，代码简洁的多。

Excel VBA 处理这个需求，使用了数组，字典等数据结构（实际需求中，数据量往往很大，所以一些地方没有直接使用遍历单元格的方法），以及处理字符串，数组和字典的很多方法，对文件的操作也很复杂，一旦出错，调试起来比python也较困难，代码已经尽量优化，但还是远比 Python要多。

Pandas_VBA_数据清洗对比的更多相关文章

[数据清洗]- Pandas 清洗“脏”数据（二）
概要了解数据分析数据问题清洗数据整合代码了解数据在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...
ETL实践--Spark做数据清洗
ETL实践--Spark做数据清洗上篇博客,说的是用hive代替kettle的表关联.是为了提高效率. 本文要说的spark就不光是为了效率的问题. 1.用spark的原因 (如果是一个sql能搞定 ...
Python、R对比分析
一.Python与R功能对比分析 1.python与R相比速度要快.python可以直接处理上G的数据:R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析, ...
Elasticsearch的几种架构(ELK,EL,EF)性能对比测试报告
Elasticsearch的几种架构性能对比测试报告 1.前言选定了Elasticsearch作为存储的数据库,但是还需要对Elasticsearch的基础架构做一定测试,所以,将研究测试报告输出如 ...
用Python进行数据清洗，这7种方法你一定要掌握
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者 | 常国珍.赵仁乾.张秋剑来源 |<Python数据科学:技术 ...
Flashtext：大规模数据清洗的利器
Flashtext:大规模数据清洗的利器在这篇文章中,我们将介绍一种新的关键字搜索和替换的算法:Flashtext 算法.Flashtext 算法是一个高效的字符搜索和替换算法.该算法的时间复杂度不 ...
MapReduce08 数据清洗(ETL)和压缩
目录数据清洗(ETL) ETL清洗案例需求需求分析实现代码编写WebLogMapper类编写WebLogDriver类打包到集群运行压缩概念 MR支持的压缩编码压缩算法对比压缩性 ...
Ignite性能测试以及对redis的对比
测试方法为了对Ignite做一个基本了解,做了一个性能测试,测试方法也比较简单主要是针对client模式,因为这种方法和使用redis的方式特别像.测试方法很简单主要是下面几点: 不作参数优化,默认 ...
IIC驱动移植在linux3.14.78上的实现和在linux2.6.29上实现对比（deep dive)
首先说明下为什么写这篇文章,网上有许多博客也是介绍I2C驱动在linux上移植的实现,但是笔者认为他们相当一部分没有分清所写的驱动时的驱动模型,是基于device tree, 还是基于传统的Platf ...

随机推荐

Fedora version history --- kernel version
Fedora version history https://en.wikipedia.org/wiki/Fedora_version_history Version (Code name)[ ...
Python的逻辑控制true/false和循环
逻辑判断简单的几个尝试,看下和java的一点不同之处 1 > 2 # False 1 < 2 <3 # True 42 != '42' # True 'Name' == 'name ...
k8s集群添加新得node节点
服务端操作: 方法一: 获取master的join token kubeadm token create --print-join-command 重新加入节点 kubeadm join 192.16 ...
我不信这篇文章能让你学会C语言，但是我还是想分享一下！
前言 C 语言是一门抽象的.面向过程的语言,C 语言广泛应用于底层开发,C 语言在计算机体系中占据着不可替代的作用,可以说 C 语言是编程的基础,也就是说,不管你学习任何语言,都应该把 C 语言放在首 ...
【嵌入式】C语言高级编程▁▁▁嵌入式C语言入门编程学习！
✍ 1.C 语言标准什么是 C 语言标准呢? 我们生活的现实世界,就是由各种标准构成的,正是这些标准,我们的社会才会有条不紊的运行. 比如我们过马路,遵循的交通规则就是一个标准:红灯停,绿灯行,黄 ...
Drone 安装教程
Drone 安装教程一. CentOS设置 1. 更换阿里源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/ ...
JavaScript的9大排序算法详解
一.插入排序 1.算法简介插入排序(Insertion-Sort)的算法描述是一种简单直观的排序算法.它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入. ...
tr命令-转换和删除字符
tr 转换和删除字符支持标准输入格式 tr [OPTION]...SET1[SET2] Translate, squeeze, and/or delete characters from stan ...
TNS-12541 TNS no listener
转载:https://blog.csdn.net/haha_201510/article/details/88119587 centOS环境下的解决方案: 查看监听状态lsnrctl status 如 ...
一个基于canvas的移动端图片编辑器
欢迎使用 canvas_mobile_drag 项目地址:https://github.com/xiaosu95/canvas_mobile_drag 点击查看demo(在移动端上查看) 该插件是一款 ...

Pandas_VBA_数据清洗对比