数据分析基础概念:标准计分: 1.无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1.2.无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1.公式为: 离差:离差就是应用标准计分所得的数值.1.无论作为变量的满分为几分,其离差的平均数势必为50,而其标准差势必为10.2.无论作为变量的单位是什么,其标准计分的平均数势必为50,而其标准差势必为10.公式为:离差=标准计分*10+50建立数据分析环境: * FROM FactSanguo11 ORDER…
原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创作的一部原创作品,为了本教程及早与广大读者同仁见面.分享,特采用定稿一部分就发布一部分的连载方式发布.…
根据游戏<三国志11>武将数据,利用决策树分析,找出三国武将特性分布.其中变量包括统率.武力.智力.政治.魅力.身分.变量说明:统率:武将带兵出征时的部队防御力.统帅越高受到普通攻击与兵法攻击越少.武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高:并且当发动单挑时双方武将武力值相差越少则成功率越高,同时武力也代表单挑时的武将攻击力.智力:武将发动部队计略时的效果与成功率,当武将智力高时则可以降低中计的几率:同时智力代表军师能力.政治:武将发展内政时的能力,…
雷达图分析三国超一流谋士.统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 建立数据环境: -- 抽取三国超一流谋士TOP 10数据 DECLARE @t1 TABLE ( ) , [统率] FLOAT , [武力] FLOAT , [智力] FLOAT , [政治] FLOAT , [魅力] FLOAT ) INSERT INTO @t1 [姓名] , [统率] , [武力] , [智力] , [政治] , [魅力] FROM FactSanguo11 )…
什么是数据挖掘? 数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则. 数据挖掘技术来源于数据库,统计和人工智能. 数据挖掘能够做什么 对企业中产生的大量的数据进行分析,找出其中潜藏的规则更加清晰的了解目前的业务运行状况使得决策者把握未来的决策方向有了科学的依据预测销售额 向特定客户发送邮件 确定可能需要搭售的产品 查找客户将产品放入购物车的顺序序列 ...... 数据挖掘算法数据挖掘是从特定…
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的统率.武力.智力.政治.魅力.特技.枪兵.戟兵.弩兵.骑兵.兵器.水军等.但是…
微软的Power BI现在是一种正在大量结合人工智能(AI)的商业分析服务,它使用户无需编码经验或深厚的技术专长就能够创建报告,仪表板等.近日西雅图公司宣布推出几款新的AI功能,包括图像识别和文本分析,关键驱动程序分析,机器学习模型创建和Azure机器学习集成,旨在展示数据科学家的工作以及授权更多用户利用人工智能.   提供AI模型构建器 微软人工智能平台公司副总裁埃里克·博伊德在接受VentureBeat采访时说:“我认为能够接触到更广泛的受众,包括认知服务点亮和Power BI--这很酷.”…
ETL(Extract/Transformation/Load)是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤. ETL过程中的主要环节就是数据抽取.数据转换和加工.数据装载.为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流.调度引擎.规则引擎.脚本支持.统计信息等. 数据抽取 数据抽取是从数据源中抽取数据的过程.实际应用中,数据源较多采用的是关系数据库.从数据库中抽取数据一般有以下几种…
BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据.假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据.这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找.这种策略需要花费大量的时间和精力来设计算法,测试,维护,并且它们都是基于词汇的,复用的可能性很小.也可能你会放弃自己处理并把它抛给一些有经验的高手专家来做这些工作,也可能你会在表中添加一些新的数据已达到外…
一.回归分析目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来.所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式).回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析:当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析.此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析.通常线性回归分析法是最基本的分析方法…