案例背景 银行评判用户的信用考量规避信用卡诈骗 ▒ 数据 数据共有 31 个特征, 为了安全起见数据已经向了模糊化处理无法读出真实信息目标 其中数据中的 class 特征标识为是否正常用户 (0 代表正常, 1 代表异常) ▒ 目标 本质依旧是一个分类问题, 0/1 的问题判断是否为信用卡诈骗用户 而在数据中 class 已经进行标识, 而且这次的样本数据的两项结果是极度的不均衡 既正常用户的样本数量是远远大于异常数据的. 不均衡的数据处理方式可以进行 下采样, 或者上采样 ▨ 下采样 -  对…
一.前述 怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结. 二.具体 1.混淆矩阵 混淆矩阵如图:  第一个参数true,false是指预测的正确性.  第二个参数true,postitives是指预测的结果.  相关公式: 检测正列的效果: 检测负列的效果: 公式解释: fp_rate: tp_rate: recall:(召回率) 值越大越好 presssion:(准确率) TP:本来是正例,通过模型预测出来是正列 TP+FP:通过模型预测出来的所有正列数(其中包括本来…
在机器学习分类结果的评估中,ROC曲线下的面积AOC是一个非常重要的指标.下面是调用weka类,输出AOC的源码: try { // 1.读入数据集 Instances data = new Instances( new BufferedReader( new FileReader("E:\\Develop/Weka-3-6/data/contact-lenses.arff"))); data.setClassIndex(data.numAttributes() - ); // 2.训…
目录 写在前面 缓解样本不均衡 模型层面解决样本不均衡 Focal Loss pytorch代码实现 数据层面解决样本不均衡 提升模型鲁棒性 对抗训练 对抗训练pytorch代码实现 知识蒸馏 防止模型过拟合 正则化 L1和L2正则化 Dropout 数据增强 Early stopping 交叉验证 Batch Normalization 选择合适的网络结构 多模型融合 参考资料 写在前面 ​ 文本分类是nlp中一个非常重要的任务,也是非常适合入坑nlp的第一个完整项目.虽然文本分类看似简单,但…
怎样选用正确的特征构造学习算法或者如何选择学习算法中的正则化参数lambda?这些问题我们称之为模型选择问题. 在对于这一问题的讨论中,我们不仅将数据分为:训练集和测试集,而是将数据分为三个数据组:也就是训练集.验证集和测试集.本节将会介绍这些内容的含义,以及如何使用它们进行模型选择.在前面的学习中,我们已经多次接触到过拟合现象.在过拟合的情况中学习算法在适用于训练集时表现非常完美,但这并不代表此时的假设也很完美(如下图). 更普遍地说,过拟合是训练集误差通常不能正确预测出该假设是否能很好地拟合…
 下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
论文记录:Identifying Encrypted Malware Traffic with Contextual Flow Data from:https://songcoming.github.io/lectures/%E8%AE%BA%E6%96%87%E8%AE%B0%E5%BD%95-Identifying-Encrypted-Malware-Traffic-with-Contextual-Flow-Data.html 0x00 本系列笔记是用来记录论文阅读过程中产生的问题与思考的随…
One Class SVM 是指你的training data 只有一类positive (或者negative)的data, 而没有另外的一类.在这时,你需要learn的实际上你training data 的boundary.而这时不能使用 maximum margin 了,因为你没有两类的data. 所以呢,在这边文章中,“Estimating the support of a high-dimensional distribution”, Schölkopf 假设最好的boundary要远…
Python:SMOTE算法 直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number of re-sampling techniques commonly used in datasets showing strong between-class imbalance. It is compatible with scikit-learn and is part of scikit-l…
转自:https://blog.csdn.net/songyunli1111/article/details/82285266 在对分类模型的评价标准中,除了常用的错误率,精确率,召回率和F1度量外,还有两类曲线:ROC曲线和PR曲线,它们都是基于混淆矩阵,在不同分类阈值下两个重要量的关系曲线. 在二分类问题中,分类器将一个实例分类为正样本和负样本,全部分类样本可以用一个混淆矩阵来表示.混淆矩阵有四个分类,如下表: 对于PR曲线,它是精确率(precision,简称P)和召回率(Recall,简…