先来几个原始数据的截图,如下所示:

示例图就举一个吧,因为这些数据量还挺大的,大概的总结了一下,这下列这几栏中不合规范的数据占比很大:

  (1)民族(经分析,在此表中所涉及到的民族分别为:汉族,满族,蒙古族,回族,土家族,侗族,瑶族,彝族,苗族,藏族,东乡族,壮族,傣族,仫佬族)原始数据中有写汉族,也有写汉的,其他民族的写法类似,为了将这些数据规范化,我们利用Excel中的批量替换功能,直接按快捷键Ctrl+f,如下:选中民族这一列,然后先进行查找,确认一下那些只写‘汉’的这些数据行,然后再进行批量替换。如图所示:

然后在替换,如下图所示:

这样就把单个字‘汉’, 替换成‘汉族’, 同时也将那些写成‘汉族’的规范的数据替换成了‘汉族族’, 这个并不碍事,利用同样的功能,选中民族这一列,先查找‘汉族族’,然后再进行替换,如下图:

然后点击全部替换,如下图:

这样一来,民族这一列中所有关于“汉”,“汉族”的替换也就完成了,数据的规范化工作也就完成了一小部分。同样其他的'民族' 也使用这种方法修改,这样就效率提高很多。

  (2)年级:年级这一栏基本出现的是这样的情况:92级,88,还有范围的数据2009-2013,还有一些莫名其妙的数字例如40098。这些数据的修改应当统一规范,对刚才这几种情况的数据应该改成: 1992, 1988, 2009, 对于40098类似的不合规范的数据将其标注红色。下面是一组原始数据与修改之后数据的对比: 

这一栏的修改基本就采用这样的方法。

  (3)学院:学院这一栏基本都是写的学院的简称,这一栏同样采用批量代换的方法,根据已建好的学院表将其进行替换,学院表如下:

替换方法和上面所用到的方法一样,下面给一组原始数据与替换后的数据对比,如下图所示:

  (4)专业:专业这一栏同样也是写的简称,也有一些现在所属的学院中没法找到的一些专业(估计是换了专业名字吧)土木学院的居多,同样的方法批量替换,将那些不合规范和找不见的专业红底标注,参照已建立好的专业表对其进行数据规范化,现有学院对应的专业表如下:

一共是71个现有专业。替换过程和上边用到的过程一样,再次不在啰嗦,,,下面给一组原始数据与修改完成的数据的比对:

红底标注的专业是不合规范的或者是在现有学院中找不到的专业。

  (5)学历:学历这一栏经分析写的大概都是这样的(大学本科,大学,本科,,研究生,硕士,博士毕业生,大专,专科,本科毕业生,工程硕士,工学硕士等等),在新建好的学历数据表中一般将学历分成下列几种,如图:

根据数据表中规范的数据,对学历这一栏进行修改,也是采用同样的方法,批量代换,将(大专)替换成专科,将(大学本科,大学,本科毕业生)替换成本科,将(研究生,工程硕士,工学硕士)替换成硕士,将(博士毕业生)替换成博士,这样对这一列的数据规范化,给出一组原始数据与规范化之后的数据的比对:

其他的地方也采用一样的方法进行修改。

附录:一些常见的统计分析函数,

在excel中,统计个数有三个常用的函数:
1 COUNT函数
COUNT函数可以统计一个区域中数字的个数。
如:=COUNT(A1:A10)可以统计A1:A10区域数字的个数
2 COUNTA函数
COUNTA函数可以统计非空单元格的个数,只要是非空都可以统计在内。
3 COUNTIF函数
COUNTIF函数可以按条件求和。是一个非常有用的EXCEL函数。
countif函数是使用频率最高的几个函数之一,下面针对这个函数做一个小小的专题.以方便大家学习,此文是本站原创。转载请注明转自“excel精英培训”

一、countif函数的用途
countif函数是根据条件在另一个区域进行个数的统计,一方面它可以完成符合条件的统计计算。另一方面由此扩展出它可以进行重复值的查找我表格的核对。
二、countif的基本语法:
COUNTIF(单元格引用, 条件)

参数说明:
1 第一个参数只能是单元格引用方式,不能使用内存数组
2 第二个参数是条件,条件可以是值,可以是字符串构成的复合条件,可以使用通配符进行模糊统计,可以使用内存数组。
应用示例:
例1:统计在A列是“公司A”的个数
公式=Countif(A:A,"公司A")
例2:统计A列包含“公司A”的个数
公式=Countif(A:A,"*公司A*")
注:这里使用通配*表示字符前后有任意个字符。
例3:统计C列成绩大于60的学生个数
公式 =Countif(C:C,">60")
注:这里是用运算对比符号和数字构成的条件
例4:统计大于C1单元格数值的C列个数。
公式:=Countif(c:c,">" & c1)
注:这里是用&插入了一个变量,即C1的值。
例5:统计C列大于平均数的个数
公式:=Countif(c:c,">" & average(c:c))
注:这里是使用了平均值函数average先计算平均值,然后作为条件。
例6:统计A列为“公司A”或“公司B”的个数
公式:{=Sum(Countif(A:A,{"公司A","公司B"})) }
注:这里在第二个参数里加入了常量数组,使用countif的结果是分别按两个公司名称统计的结果,也是一个数组假如是{3,4},得到数组后用sum函数对两个数进行求和,得到总的个数,这个公式是数组公式,所以一定要输入公式后把光标放在公式最后,按ctrl+shift,然后按enter键结束输入。
另:也许也还会问,如果设置更多条件该怎么弄,兰色幻想建议使用另一个可以多条件求和与计数的函数:sumproduct
例:统计大于1000,小于3000的数字个数
=sumprodcut((a1:a100>1000)*(a1:a100<3000))

利用Excel做一些简单的数据分析的更多相关文章

  1. java结合testng,利用excel做数据源的数据驱动实例

    数据驱动部分,是自动化测试常用部分,也是参数化设计的重要环节,前面分享了,mysql.yaml做数据源,那么再来分享下excel做数据驱动 思路: 先用POI读取excel.解析读取数据,返回list ...

  2. 利用 html2canvas 做个简单的诗词卡片生成器

    html2canvas 简介 html2canvas 顾名思义,就是一个可以把 DOM 元素转换成图片的类库,常用于网页截图.网页截图常见的应用场景是,在意见反馈里对当前页面进行截图,方便反馈页面出现 ...

  3. 利用jmeter做一个简单的性能测试并进行参数化设置

    1.新增一个线程组,并在下面添加基本原件,包括:监听器.http请求默认值和一个事务控制器 在http请求默认值中填写 ip 地址和端口号,协议类型默认为http 2.添加代理服务器,以便之后进行录制 ...

  4. 利用Django做一个简单的分页页面

    views代码: from django.shortcuts import render from django.conf import settings from booktest.models i ...

  5. 无插件,无com组件,利用EXCEL、WORD模板做数据导出(一)

    本次随笔主要讲述着工作中是如何解决数据导出的,对于数据导出到excel在日常工作中大家还是比较常用的,那导出到word呢,改如何处理呢,简单的页面导出问题应该不大,但是如果是标准的公文导出呢,要保证其 ...

  6. 我用Python做了一个咖啡馆数据分析

    在做案例前,我还想回答大家一个疑问,就是excel做数据分析可以实现Python一样的效果,那用Python的意义在哪呢? 经过这段时间学习理解,我的回答是: (https://jq.qq.com/? ...

  7. 别人都在用数据分析软件,你还在用excel做数据分析?

    之前听朋友吐槽过,他们是上千人的企业,但做数据分析居然还是靠手动上传数据,而且还是用的excel做的.但其实excel并不是企业做数据分析的好工具. 数据分析是指用适当的统计分析方法对收集来的大量数据 ...

  8. 利用Apache POI 实现简单的Excel表格导出

    1.利用POI API实现简单的Excel表格导出 首先假设一个学生实体类: package com.sun.poi.domain; import java.io.Serializable; impo ...

  9. 《深入浅出数据分析》-利用Excel的Solver求橡皮玩具的最大利润

    背景:一玩具厂可以生产两种浴盆玩具,分别是橡皮鸭和橡皮鱼,并且原材料和生产时间都有所限制,求如何才分配生产两种玩具的数量才可以让厂商达到最大利润. 假设条件如下: 产品名称 数量   duck a   ...

随机推荐

  1. sqoop关系型数据迁移原理以及map端内存为何不会爆掉窥探

    序:map客户端使用jdbc向数据库发送查询语句,将会拿到所有数据到map的客户端,安装jdbc的原理,数据全部缓存在内存中,但是内存没有出现爆掉情况,这是因为1.3以后,对jdbc进行了优化,改进j ...

  2. webUI自动化测试框架---”pyswat“介绍

    webUI自动化测试框架---"pyswat"介绍 大家好我是lamecho 辣么丑,今天给大家介绍一款web自动化测试框架pyswat.  "pyswat"是 ...

  3. ABP官方文档翻译 2.5 设置管理

    设置管理 介绍 关于 ISettingStore 定义设置 设置范围 重写设置定义 获取设置值 服务端 客户端 更改设置 关于缓存 介绍 每个应用都需要存储设置,并且在应用的某些地方需要使用这些设置. ...

  4. php代码效率小常识

    1, 尽量不要使用@来进行抑制错误,效率很低 2,能使用单引号时不要使用双引号 3,echo的效率比print要高,同时echo可以输出多个变量 4,使用include,require时候最好使用绝对 ...

  5. JS上了贼船

    本文纯属个人观点,没有引经据典,没有小心求证,just吐槽. 互联网的火热.移动web,带动了前端的飞速发展,js好像搭上了顺风车,身价水涨船高,如日中天. web前端是啥?html + css + ...

  6. mysql修改数据库名

    1.创建新库 2.创建新库用户 3.备份旧库 4.修改表名 5.删除旧库   环境:mysql5.6已经有数据库dbbzpt,需要把它修改为dbedu.   1,2.使用root用户登录创建新库.创建 ...

  7. linux上安装tcl

    1. 首先下载安装包,推荐下载activetcl(对tcl源码进行了预编译,安装步骤简单).打开网址http://activestate.com找到activetcl的社区版(社区版是免费的,找到li ...

  8. linux下MongoDB客户端shell基本操作

    MongoDB 是一款NoSql数据库,没有固定的模式,即同一个集合中的不同文档结构可以不同,如:第一条记录{name:”xiaoming”},第二条记录:{name:”xiaoli”,age:15} ...

  9. 一个简单易用的容器管理平台-Humpback

    什么是Humpback? 在回答这个问题前,我们得先了解下什么的 Docker(哦,现在叫 Moby,文中还是继续称 Docker). 在 Docker-百度百科 中,对 Docker 已经解释得很清 ...

  10. 在web项目启动时,使用监听器来执行某个方法

    在web项目中有很多时候需要在项目启动时就执行一些方法,而且只需要执行一次,比如:加载解析自定义的配置文件.初始化数据库信息等等,在项目启动时就直接执行一些方法,可以减少很多繁琐的操作. 这里写了个简 ...