ml基本问题

作者：NgShawn

链接：https://www.nowcoder.com/discuss/33737?type=2&order=3&pos=19&page=1

来源：牛客网

机器学习

Boost算法
CART（回归树用平方误差最小化准则，分类树用基尼指数最小化准则）
GBDT与随机森林比较。
GBDT（利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树）
KKT条件用哪些，完整描述
KNN（分类与回归）
L1 与 L2 的区别以及如何解决 L1 求导困难。
L1和L2函数。
L1和L2正则相关问题。
L1和L2正则项，它们间的比较
L1正则为什么可以把系数压缩成0，坐标下降法的具体实现细节
LR为什么用sigmoid函数。这个函数有什么优点和缺点？为什么不用其他函数？
LR和SVM有什么区别，libsvm和liblinear有什么区别。
Logistics与随机森林比较
Logistics（推导）
Logistic回归的推导，怎么得到objective function。
SVM与随机森林比较
SVM为什么要引入拉格朗日的优化方法。
SVM原问题和对偶问题关系？
SVM在哪个地方引入的核函数, 如果用高斯核可以升到多少维。
SVM怎么防止过拟合
SVM的目标函数。常用的核函数。
SVM的过程，讲了推导过程，可能表达不清晰，都是泪
bagging、adaboost、boosting
em 与 kmeans 的关系；
k-means的k怎么取等等
k-means算法初始点怎么选择？你的项目里面推荐算法是怎么实现的？
kmeans的原理，优缺点以及改进。
k折交叉验证中k取值多少有什么关系
l2惩罚项是怎么减小Overfitting的？l1，l2等范数的通式是什么？他们之间的区别是什么？在什么场景下用什么范数？l1在0处不可导，怎么处理？
randomforest,GBDT
rf, gbdt, xgboost的区别。
softmax公式
为什么要做数据归一化？
主要问最优化方面的知识，梯度下降法的原理以及各个变种（批量梯度下降，随机梯度下降法，mini 梯度下降法），以及这几个方法会不会有局部最优问题，牛顿法原理和适用场景，有什么缺点，如何改进（拟牛顿法）
什么情况下一定会发生过拟合？
什么是贝叶斯估计
介绍LR、RF、GBDT ，分析它们的优缺点，是否写过它们的分布式代码
介绍SVD、SVD++
会哪些机器学习算法
信息熵公式
假设面试官什么都不懂，详细解释 CNN 的原理；
决策树原理
决策树处理连续值的方法。
决策树如何防止过拟合
决策树过拟合哪些方法，前后剪枝
分类模型可以做回归分析吗？反过来可以吗？
分类模型和回归模型的区别
判别模型，生成模型
各个模型的Loss function，牛顿学习法、SGD如何训练。
因为面我的总监是做nlp的,所以讲了很多rnn、lstm、还有HMM的东西。不算很熟，但是接触过，以前稍微看过一些相关论文，所以还是勉强能聊的。
在平面内有坐标已知的若干个点P0...Pn，再给出一个点P，找到离P点最近的点。
在模型的训练迭代中，怎么评估效果。
如何减少参数（权值共享、VGG的感受野、GoogLeNet的inception）
如何防止过拟合（增加数据，减少模型复杂度->正则化）
对于同分布的弱分类器，求分类器均值化之后的分布的均值跟方差。
对于机器学习你都学了哪些？讲一个印象深的。
常见分类模型（ svm，决策树，贝叶斯等）的优缺点，适用场景以及如何选型
归一化方式
手写k-means的伪代码。
手写k-means的伪代码和代码。（Code）
手撕svm硬软间隔对偶的推导
手撕逻辑回归（损失函数及更新方式推导）
接着写一下信息增益的公式。
推一下bp算法等等
改变随机森林的训练样本数据量，是否会影响到随机森林学习到的模型的复杂度。
数据挖掘各种算法，以及各种场景下的解决方案
是否了解mutual infomation、chi-square、LR前后向、树模型等特征选择方式。
是否了解线性加权、bagging、boosting、cascade等模型融合方式
有哪些常见的分类器，简单介绍下原理
机器学习与深度学习的区别
机器学习基础（线性回归与逻辑回归区别等）
机器学习：几种树模型的原理和对比，朴素贝叶斯分类器原理以及公式，出现估计概率值为 0 怎么处理（拉普拉斯平滑），缺点； k-means 聚类的原理以及缺点及对应的改进；
梯度下降牛顿拟牛顿原理
梯度下降的优缺点。
深度学习和普通机器学习有什么不同？
深度学习有很大部分是CNN，给他用通俗的语言解释下卷积的概念，解释下CNN中的优势及原因
激活函数的选择（sigmoid->ReLu->LReLU->PReLU）
然后20分钟内手写k-means
牛顿法、随机梯度下降算法和直接梯度下降算法的区别？
牛顿法推导
特征选择的方法
由数据引申到数据不平衡怎么处理（10W正例，1W负例，牛客上有原题）
聊聊SVM，这段说了好久，从基本的线性可分到不可分，相关升维，各种核函数，每个是如何实现升。以及出现了XX问题，分析是样本的原因还是其他原因。针对不同情况，采取什么解决方案较好。
自己实现过什么机器学习算法
解决过拟合的方法有哪些？
解释 word2vec 的原理以及哈夫曼树的改进。
解释一下过拟合和欠拟合，有哪些方法防止过拟合。
让我一步一步地构造决策树，怎么计算信息熵、信息增益、然后C4.5 ID3 CART的区别，还说了一下优缺点
详细讨论了样本采样和bagging的问题
说一下Adaboost，权值更新公式。当弱分类器是LR时，每个样本的的权重是w1，w2...,写出最终的决策公式。
说了一下bagging跟boosting。
说明L1L2正则的效果与为什么形成这种情况（L1正则稀疏，L2正则平滑，之后说明就是画图说明正则化）
过拟合的解决方法；
选个你熟悉的机器学习方法，着重介绍一下产生原因，推导公式，背后统计意义什么等等
逻辑回归估计参数时的目标函数，如果加上一个先验的服从高斯分布的假设，会是什么样。
逻辑回归估计参数时的目标函数
逻辑回归的值表示概率吗？
问了会不会RNN,LSTM。
问了很多数据挖掘的基础知识，包括SVM,逻辑回归、EM、K-means等，然后给我很多场景问我遇到这些情况我要怎么来处理数据，怎么进行建模等等，问得很细
随机梯度下降，标准梯度
随机森林和GBDT的区别？LR的参数怎么求解？有没有最优解？
随机森林（Bagging+CART）

ml基本问题的更多相关文章

Spark2 ML 学习札记
摘要: 1.pipeline 模式 1.1相关概念 1.2代码示例 2.特征提取,转换以及特征选择 2.1特征提取 2.2特征转换 2.3特征选择 3.模型选择与参数选择 3.1 交叉验证 3.2 训 ...
[Machine Learning & Algorithm]CAML机器学习系列2：深入浅出ML之Entropy-Based家族
声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文. 写在前面记得在<Pattern Recognition And Machine ...
[Machine Learning & Algorithm]CAML机器学习系列1：深入浅出ML之Regression家族
声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文. 符号定义这里定义<深入浅出ML>系列中涉及到的公式符号,如无特殊说明,符号 ...
机器学习 - ML
CNCC - 2016 | 机器学习(原文链接) Machine Learning - ML,机器学习起源于人工智能,是AI的一个分支. 机器学习的理论基础:计算学习理论 - Computationa ...
ML 基础知识
A computer program is said to learn from experience E with respect to some task T and some performan ...
[OpenCV] Samples 06: [ML] logistic regression
logistic regression,这个算法只能解决简单的线性二分类,在众多的机器学习分类算法中并不出众,但它能被改进为多分类,并换了另外一个名字softmax, 这可是深度学习中响当当的分类算法 ...
AI,DM,ML,PR的区别与联系
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述<机器学习与数据挖掘>可以帮助大家理解.数据挖掘受到很多学科领域的影响,其中数据库.机器学习.统计学无疑影响最大.简言之,对数据挖掘而 ...
2认识HTML中的“ML”：深入理解超文本
HTML是描述网页结构的标记语言(即HTML中的'ML'),而HT指把一个网页链接到其他网页. <a>元素可以创建超文本链接到另外一个网页,<a>元素中的内容在网页中是可点击的 ...
Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...

随机推荐

dede的使用-2
自己开发站点的规律, 跟cms开发的规律应该是一样的, 而且应该学习和借鉴cms的开发规律方法和思想.比如也要分站点的内容性质, 是文章类站点, 还是图片类, 还是shopping类等. 也要分栏目. ...
bzoj1497 [NOI2006]最大获利最大权闭合子图
链接 https://www.lydsy.com/JudgeOnline/problem.php?id=1497 思路最大权闭合子图的裸题一开始知道是这个最大权闭合子图(虽然我不知道名字),但是我 ...
【做题】BZOJ2342 双倍回文——马拉车&并查集
题意:有一个长度为\(n\)的字符串,求它最长的子串\(s\)满足\(s\)是长度为4的倍数的回文串,且它的前半部分和后半部分都是回文串. \(n \leq 5 \times 10^5\) 首先,显然 ...
python 之条件语句
python 编程语言指定任何非0和非空(null)值为true, 0或者null为false. python 编程中if语句用于控制程序的执行,基本形式为: if 判断条件: 执行语句…… else ...
.net Core 2.1 后 Session保存，新页面获取不到值
https://blog.csdn.net/kuui_chiu/article/details/81060051 https://blog.csdn.net/niunan/article/detail ...
p2042 维修数列（SPLAY）
终于yy过去了撒花调了一天半,出了无数锅以下是出锅列表 rotate的时候要判断父亲节点的父亲节点是否存在 rotate的时候记得修改节点的父亲信息 pushdown的时候注意特判有无左右子树 ...
facebook api之Marketing API
General information on the Marketing APIs, access, versioning and more. The main use cases for the M ...
自定义Exception：MVC抛出自定义异常，并以Json方式返回
相关链接优点: 可以统一处理所有页面的异常,对所有需要返回json数据的异常,都用同样的方法throw new DVMException().页面展示,controller的错误处理方式一样节省编 ...
Arch 安装后，一些基本设置(1)
1.安装成功后新建普通用户不能使用useradd进行一步添加,应该下载adduser交互式添加新用户,否则用户无法登陆. 2.安装openkeeper之前需要安装ppp和net-tools (需要里面 ...
HDU 5976 Detachment（拆分）
HDU 5976 Detachment(拆分) 00 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Problem D ...

ml基本问题

ml基本问题的更多相关文章

随机推荐

热门专题