本文总结在使用Excel进行数据分析时,最常用的功能和函数. Excel的功能和函数非常多,用进废退,除了学习基本的函数和功能,最重要的是遇到问题可以快速的搜索并解决. 首先Excel可以处理的数据量有大多? 使用Ctrl +  → , Ctrl + ↓可以看到下界为104,8576,右界为24(X)*6(F)*4(D)=576    (Excel 2010版本) 一.数据清理 1)Trim()--空格清理 清除掉字符串两边的空格 2)CONCATENATE()--连接 CONCATENATE函…
多传统行业的数据分析师只要求掌握Excel即可,会SPSS/SAS是加分项.即使在挖掘满街走,Python不如狗的互联网数据分析界,Excel也是不可替代的. Excel是我们工作中经常使用的一种工具,对于数据分析来说,这也是处理数据最基础的工具.很多传统行业的数据分析师甚至只要掌握Excel和SQL即可.对于初学者而言,因为Excel涵盖的功能足够多,有时候并不需要急于苦学R语言等专业工具,也有很多统计.分析.可视化的插件等,只不过我们平时处理数据的时候对于许多函数都不知道怎么用!如何使用EX…
之前听朋友吐槽过,他们是上千人的企业,但做数据分析居然还是靠手动上传数据,而且还是用的excel做的.但其实excel并不是企业做数据分析的好工具. 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程.这一过程也是质量管理体系的支持过程. 在实际工作中,数据分析可帮助企业作出判断,以便采取适当行动.我们先来看看企业数据分析的过程:       既然说到Excel做数据分析,那就先看看excel是如何分析数据的 一般接触信息化和数…
"Excel在过去.现在和未来都是一个无比优秀和天才的工具,无数虔诚的信徒将其奉为唯一的法门,而我却并不在其中了." 作为一个数据分析师,Excel是我入门必备的数据分析工具,虽然上手快,但也给我带了诸多不便,各种复杂问题. 一旦超过10万的数据量.或者函数.逻辑复杂一些,Excel绝对能卡到怀疑人生:想要实现数据的分析和清洗,不得不依靠各种函数和VBA,繁琐程度不亚于任何一门编程语言:业务流转过程中根本没办法保证数据的原貌,拿到手的Excel表不知道修改了多少次....... 相信我…
最近一段时间连续的做了几十张报表,通过原生sql对数据进行分析 ,也算是有了一定的了解,发现其中一些函数和表达式使用频率较高,现总结如下: (1).round()函数   round函数说白了就是把一个数按照指定的小数位元数进行四舍五入运算的结果 语法形式:ROUND( number, decimal_places ) number: 需要处理的数值   decimal_places : 四舍五入 , 小数取几位 ( 预设为 0 ) 例子: select round(123.456, 0) fr…
一. apply函数 作用:对 DataFrame 的某行/列应用函数之后,Apply 返回一些值.函数既可以使用默认的,也可以自定义.注意:在第二个输出中应用 head() 函数,因为它包含了很多行. #创建一个新函数 def num_missing(x): return sum(x.isnull()) #应用每一列 print "Missing values per column:" print data.apply(num_missing, axis=0) #axis=0 def…
一:移除重复数据 DataFrame经常出现重复行,就像下面的这样 In [7]: data=DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]}) In [8]: data Out[8]: k1  k2 0  one   1 1  one   1 2  one   2 3  two   3 4  two   3 5  two   4 6  two   4 duplicated方法可以判断出每行是否重复了 In [9]: data.d…
DataFrame合并: merge运算是将一个或多个键将行链接起来.来看下面的这个例子: In [5]: df1=DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})  In [6]: df2=DataFrame({'key':['a','b','d'],'data2':range(3)})  In [7]: df1 Out[7]:     data1 key 0      0   b 1      1   b 2 …
Excel是我们工作中经常使用的一种工具,对于数据分析来说,这也是处理数据最基础的工具. 本文对数据分析需要用到的函数做了分类,并且有详细的例子说明,文章已做了书签处理,点击可跳转至相应位置. 函数分类: 关联匹配类 清洗处理类 逻辑运算类 计算统计类 时间序列类 一.关联匹配类 经常性的,需要的数据不在同一个excel表或同一个excel表不同sheet中,数据太多,copy麻烦也不准确,如何整合呢?这类函数就是用于多表关联或者行列比对时的场景,而且表越复杂,用得越多. 包含函数:VLOOKU…
摘要:本篇我们将以分析历史股价为例,介绍怎样从文件中载入数据,以及怎样使用NumPy的基本数学和统计分析函数.学习读写文件的方法,并尝试函数式编程和NumPy线性代数运算,来学习NumPy的常用函数. 一.文件读入 :读写文件是数据分析的一项基本技能 CSV(Comma-Separated Value,逗号分隔值)格式是一种常见的文件格式.通常,数据库的转存文件就是CSV格式的,文件中的各个字段对应于数据库表中的列. NumPy中的 loadtxt 函数可以方便地读取CSV文件,自动切分字段,并…