Spark2 ML 学习札记】的更多相关文章

摘要: 1.pipeline 模式 1.1相关概念 1.2代码示例 2.特征提取,转换以及特征选择 2.1特征提取 2.2特征转换 2.3特征选择 3.模型选择与参数选择 3.1 交叉验证 3.2 训练集-测试集 切分 内容: 1.pipeline 模式 1.1相关概念 DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型,text,特征向量,Label和预测结果 Transformer:将DataFrame转化为另外一个DataFrame的算法,通过实现t…
感觉自我表述能力有欠缺,技术也不够硬,所以之后的Windows8应用开发学习札记的文章就偏向于一些我认为较难的地方和重点了多有抱歉. 上节课是入门,这节课就已经开始进行视图设计了. Windows应用的三种常用的数据展示控件:FlipView.ListView和 GridView. FlipView是用来显示集合数据的控件,用户可以点击上/下或者左/右按钮实现子窗口间的切换. 值得一提的是包括后面要介绍的两个控件,这三个均继承自ItemsControl类.但需要注意的是:不要使用FlipView…
刚开始学SQL,从最基础的语句开始写,用一个LOL数据库做实验.目前使用的工具是MySQL Workbench,感觉比较顺手,界面没花多久时间就读懂的差不多了,所以目前就使用这个工具来做SQL的学习了. (1)多条件查询,然后修改值.因为我这里是需要编辑原来是0值的行,所以多条件查询中使用的是 A = 0为条件搜索. 刚刚提到的0值行就是这个样子,刚开始Copy行的时候遇到了很奇葩的错误--有些行必须存在默认值才能将数据进行表与表之间的Copy和Paste,所以就给默认值放了个0值. (2)仔细…
java学习札记 0x0 学习原因  本来打算大三再去跟着课程去学习java的,但是现在题目越来越偏向java,所以迫于无奈开启了java的学习篇章,同时也正好写个笔记总结下自己学习一门语言的流程. 0x1 java学习过程 1.了解java的历史 2.安装eclipse,尝试写一个hellowworld 3.了解java的基本数据类型 ​ (1)bytes ​ (2)int short long 整形 ​ (3)double float 浮点型 ​ (4)string ​ (5)boolean…
Masnory学习札记 在之前的文章里有草草提到过Masonry自动布局,可这么重要第三方布局框架的怎么可以怎么随便带过呢!昨天在完成页面的时候刚好遇到了被Masorny功能惊叹的部分,所以趁热打铁写下了这篇札记,记录一下方便日后回忆. 一.概念 Autolayout最重要的是约束:UI元素之间关系的数学表达式.约束包括尺寸.由优先级和阈值管理的相对位置.但约束冲突和约束不足都会造成布局无法确定,从而产生异常报错. Masonry是公认非常简洁优美的一款Autolayout框架,也是纯手写代码关…
1.使用环境 很多时候我们用的是官网的解压免安装版的Tomcat,相比安装Tomcat除了少了安装步骤以外还少了tomcat6w.exe运行所需要的环境变量,所以一般Java开发免安装版的已经足够使用了,但是如果部署服务的时候我们不可能只运行startup.bat文件,我们需要新建一个服务并可以通过tomcat6w.exe启动和关闭服务. 2.无法运行tomcat6w.exe (1)提示错误: 运行tomcat6w.exe ,提示 指定的服务未安装 unable to open the serv…
[ML学习笔记] XGBoost算法 回归树 决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这时候就没法用信息增益.信息增益率.基尼系数来判定树的节点分裂了,那么回归树采用新的方式是预测误差,常用的有均方误差.对数误差等(损失函数).而且节点不再是类别,而是数值(预测值),划分到叶子后的节点预测值有不同的计算方法,有的是节点内样本均值,有的是最优化算出来的比如Xgboost. XGBoost…
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断.P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估.P(B|A)/P(B)称为"可能性函数"(Lik…
[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树 决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支. 一棵决策树的组成:根节点.非叶子节点(决策点).叶子节点.分支 算法分为两个步骤:1. 训练阶段(建模) 2. 分类阶段(应用) 熵的概念 设用P(X)代表X发生的概率,H(X)代表X发生的不确定性,则有:P(X)越大,H(X)越小:P(X)越小,H(X)越大. 信息熵的一句话解释是:消除不确定性的程度…
[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量的关系. 回归与分类的区别:回归预测的是连续变量(数值),分类预测的是离散变量(类别). 线性回归 线性回归通过大量的训练出一个与数据拟合效果最好的模型,实质就是求解出每个特征自变量的权值θ. 设有特征值x1.x2(二维),预测值 $ h_\theta(x)=\theta_0 + \theta_1x…