先来几个原始数据的截图,如下所示:

示例图就举一个吧,因为这些数据量还挺大的,大概的总结了一下,这下列这几栏中不合规范的数据占比很大:

  (1)民族(经分析,在此表中所涉及到的民族分别为:汉族,满族,蒙古族,回族,土家族,侗族,瑶族,彝族,苗族,藏族,东乡族,壮族,傣族,仫佬族)原始数据中有写汉族,也有写汉的,其他民族的写法类似,为了将这些数据规范化,我们利用Excel中的批量替换功能,直接按快捷键Ctrl+f,如下:选中民族这一列,然后先进行查找,确认一下那些只写‘汉’的这些数据行,然后再进行批量替换。如图所示:

然后在替换,如下图所示:

这样就把单个字‘汉’, 替换成‘汉族’, 同时也将那些写成‘汉族’的规范的数据替换成了‘汉族族’, 这个并不碍事,利用同样的功能,选中民族这一列,先查找‘汉族族’,然后再进行替换,如下图:

然后点击全部替换,如下图:

这样一来,民族这一列中所有关于“汉”,“汉族”的替换也就完成了,数据的规范化工作也就完成了一小部分。同样其他的'民族' 也使用这种方法修改,这样就效率提高很多。

  (2)年级:年级这一栏基本出现的是这样的情况:92级,88,还有范围的数据2009-2013,还有一些莫名其妙的数字例如40098。这些数据的修改应当统一规范,对刚才这几种情况的数据应该改成: 1992, 1988, 2009, 对于40098类似的不合规范的数据将其标注红色。下面是一组原始数据与修改之后数据的对比: 

这一栏的修改基本就采用这样的方法。

  (3)学院:学院这一栏基本都是写的学院的简称,这一栏同样采用批量代换的方法,根据已建好的学院表将其进行替换,学院表如下:

替换方法和上面所用到的方法一样,下面给一组原始数据与替换后的数据对比,如下图所示:

  (4)专业:专业这一栏同样也是写的简称,也有一些现在所属的学院中没法找到的一些专业(估计是换了专业名字吧)土木学院的居多,同样的方法批量替换,将那些不合规范和找不见的专业红底标注,参照已建立好的专业表对其进行数据规范化,现有学院对应的专业表如下:

一共是71个现有专业。替换过程和上边用到的过程一样,再次不在啰嗦,,,下面给一组原始数据与修改完成的数据的比对:

红底标注的专业是不合规范的或者是在现有学院中找不到的专业。

  (5)学历:学历这一栏经分析写的大概都是这样的(大学本科,大学,本科,,研究生,硕士,博士毕业生,大专,专科,本科毕业生,工程硕士,工学硕士等等),在新建好的学历数据表中一般将学历分成下列几种,如图:

根据数据表中规范的数据,对学历这一栏进行修改,也是采用同样的方法,批量代换,将(大专)替换成专科,将(大学本科,大学,本科毕业生)替换成本科,将(研究生,工程硕士,工学硕士)替换成硕士,将(博士毕业生)替换成博士,这样对这一列的数据规范化,给出一组原始数据与规范化之后的数据的比对:

其他的地方也采用一样的方法进行修改。

附录:一些常见的统计分析函数,

在excel中,统计个数有三个常用的函数:
1 COUNT函数
COUNT函数可以统计一个区域中数字的个数。
如:=COUNT(A1:A10)可以统计A1:A10区域数字的个数
2 COUNTA函数
COUNTA函数可以统计非空单元格的个数,只要是非空都可以统计在内。
3 COUNTIF函数
COUNTIF函数可以按条件求和。是一个非常有用的EXCEL函数。
countif函数是使用频率最高的几个函数之一,下面针对这个函数做一个小小的专题.以方便大家学习,此文是本站原创。转载请注明转自“excel精英培训”

一、countif函数的用途
countif函数是根据条件在另一个区域进行个数的统计,一方面它可以完成符合条件的统计计算。另一方面由此扩展出它可以进行重复值的查找我表格的核对。
二、countif的基本语法:
COUNTIF(单元格引用, 条件)

参数说明:
1 第一个参数只能是单元格引用方式,不能使用内存数组
2 第二个参数是条件,条件可以是值,可以是字符串构成的复合条件,可以使用通配符进行模糊统计,可以使用内存数组。
应用示例:
例1:统计在A列是“公司A”的个数
公式=Countif(A:A,"公司A")
例2:统计A列包含“公司A”的个数
公式=Countif(A:A,"*公司A*")
注:这里使用通配*表示字符前后有任意个字符。
例3:统计C列成绩大于60的学生个数
公式 =Countif(C:C,">60")
注:这里是用运算对比符号和数字构成的条件
例4:统计大于C1单元格数值的C列个数。
公式:=Countif(c:c,">" & c1)
注:这里是用&插入了一个变量,即C1的值。
例5:统计C列大于平均数的个数
公式:=Countif(c:c,">" & average(c:c))
注:这里是使用了平均值函数average先计算平均值,然后作为条件。
例6:统计A列为“公司A”或“公司B”的个数
公式:{=Sum(Countif(A:A,{"公司A","公司B"})) }
注:这里在第二个参数里加入了常量数组,使用countif的结果是分别按两个公司名称统计的结果,也是一个数组假如是{3,4},得到数组后用sum函数对两个数进行求和,得到总的个数,这个公式是数组公式,所以一定要输入公式后把光标放在公式最后,按ctrl+shift,然后按enter键结束输入。
另:也许也还会问,如果设置更多条件该怎么弄,兰色幻想建议使用另一个可以多条件求和与计数的函数:sumproduct
例:统计大于1000,小于3000的数字个数
=sumprodcut((a1:a100>1000)*(a1:a100<3000))

利用Excel做一些简单的数据分析的更多相关文章

  1. java结合testng,利用excel做数据源的数据驱动实例

    数据驱动部分,是自动化测试常用部分,也是参数化设计的重要环节,前面分享了,mysql.yaml做数据源,那么再来分享下excel做数据驱动 思路: 先用POI读取excel.解析读取数据,返回list ...

  2. 利用 html2canvas 做个简单的诗词卡片生成器

    html2canvas 简介 html2canvas 顾名思义,就是一个可以把 DOM 元素转换成图片的类库,常用于网页截图.网页截图常见的应用场景是,在意见反馈里对当前页面进行截图,方便反馈页面出现 ...

  3. 利用jmeter做一个简单的性能测试并进行参数化设置

    1.新增一个线程组,并在下面添加基本原件,包括:监听器.http请求默认值和一个事务控制器 在http请求默认值中填写 ip 地址和端口号,协议类型默认为http 2.添加代理服务器,以便之后进行录制 ...

  4. 利用Django做一个简单的分页页面

    views代码: from django.shortcuts import render from django.conf import settings from booktest.models i ...

  5. 无插件,无com组件,利用EXCEL、WORD模板做数据导出(一)

    本次随笔主要讲述着工作中是如何解决数据导出的,对于数据导出到excel在日常工作中大家还是比较常用的,那导出到word呢,改如何处理呢,简单的页面导出问题应该不大,但是如果是标准的公文导出呢,要保证其 ...

  6. 我用Python做了一个咖啡馆数据分析

    在做案例前,我还想回答大家一个疑问,就是excel做数据分析可以实现Python一样的效果,那用Python的意义在哪呢? 经过这段时间学习理解,我的回答是: (https://jq.qq.com/? ...

  7. 别人都在用数据分析软件,你还在用excel做数据分析?

    之前听朋友吐槽过,他们是上千人的企业,但做数据分析居然还是靠手动上传数据,而且还是用的excel做的.但其实excel并不是企业做数据分析的好工具. 数据分析是指用适当的统计分析方法对收集来的大量数据 ...

  8. 利用Apache POI 实现简单的Excel表格导出

    1.利用POI API实现简单的Excel表格导出 首先假设一个学生实体类: package com.sun.poi.domain; import java.io.Serializable; impo ...

  9. 《深入浅出数据分析》-利用Excel的Solver求橡皮玩具的最大利润

    背景:一玩具厂可以生产两种浴盆玩具,分别是橡皮鸭和橡皮鱼,并且原材料和生产时间都有所限制,求如何才分配生产两种玩具的数量才可以让厂商达到最大利润. 假设条件如下: 产品名称 数量   duck a   ...

随机推荐

  1. phpcms 制作简单企业站的常用标签

    标题 title 关键字 keywords 描述 description 来源 copyfrom 允许访问 allow_visitor==1 thumb 缩略图 {template "con ...

  2. webrtc学习笔记1(建立连接基本流程)

    最近在做一个基于webrtc的视频软件,以下是自己对于上层建立通话连接流程的基本理解,记录于此. 假设A和B要建立视频通话,A为房间创建端,B为加入房间端: 1.A通过http登录.获取其他服务器地址 ...

  3. react+redux+generation-modation脚手架添加一个todolist

    当我遇到问题: 要沉着冷静. 要管理好时间. 别被bug或error搞的不高兴,要高兴,又有煅炼思维的机会了. 要思考这是为什么? 要搞清楚问题的本质. 要探究问题,探究数据的流动. TodoList ...

  4. linux下安编译安装redis

    1.先进入要安装到的目录,比如我要把redis安装到/usr/local/redis下,那就先进入/usr/local cd /usr/local 2.然后下载安装包,并解压 wget http:// ...

  5. 为linux系统实现回收站

    在linux系统中,经常采用"rm *"或"rm -r *"操作删除一下文件,但是有时某些文件并不是我们想要删除的,但是已经被删除.很多时候都是悲剧的,数据是难 ...

  6. hdu1054最小顶点覆盖

    最小定点覆盖是指这样一种情况: 图G的顶点覆盖是一个顶点集合V,使得G中的每一条边都接触V中的至少一个顶点.我们称集合V覆盖了G的边.最小顶点覆盖是用最少的顶点来覆盖所有的边.顶点覆盖数是最小顶点覆盖 ...

  7. SDN学习之OpenFlow协议分析

    学习SDN相关的学习也已经有快半年了,期间从一无所知到懵懵懂懂,再到现在的有所熟悉,经历了许多,也走了不少弯路,其中,最为忌讳的便是,我在学习过程中,尚未搞明白OpenFlow协议的情况下,便开始对S ...

  8. 玩转spring boot——ajax跨域

    前言  java语言在多数时,会作为一个后端语言,为前端的php,node.js等提供API接口.前端通过ajax请求去调用java的API服务.今天以node.js为例,介绍两种跨域方式:Cross ...

  9. OC 动态类型和静态类型

    多态 允许不同的类定义相同的方法 动态类型 程序直到执行时才能确定所属的类 静态类型 将一个变量定义为特定类的对象时,使用的是静态形态 将一个变量定义为特定类的对象时,使用的是静态类型,在编译的时候就 ...

  10. 【Android Widget】2.ImageView

    1.属性详解 1.1 ScaleType属性详解 ImageView的Scaletype决定了图片在View上显示时的样子,如进行何种比例的缩放,及显示图片的整体还是部分,等等. 设置的方式包括: 1 ...