海外支付:抵御信用卡欺诈的CyberSource 吴剑 2014-06-04 原创文章,转载必需注明出处:http://www.cnblogs.com/wu-jian 吴剑 http://www.cnblogs.com/wu-jian 前言 最近技术文章写的很少,不是因为不热爱技术了,而是因为随着年龄越来越大,各种压力也随之而来,无法做到像刚毕业那会儿,纯碎的学习和研究一个技术话题. 在深圳搬过很多次家,家具换了很多次,但一直没变的是大书架上的书越堆越多,有时在书架前徘徊一会儿,看着.Net F…
海外支付:遍布全球的Paypal 吴剑 2015-11-26 原创文章,转载必需注明出处:http://www.cnblogs.com/wu-jian 吴剑 http://www.cnblogs.com/wu-jian 前言 Paypal是全球在线支付的领导者,2002年被eBay收购,2015年又戏剧性的从eBay分离,以500亿美元市值反超eBay.创始人 Elon Musk 同时是Paypal.空间探索技术公司.以及特斯拉汽车三家公司的CEO,电影“钢铁侠”的人物原型就是这哥们. 海外支付…
[原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践…
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn 基于二元分类和PCA的信用卡欺诈检测 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态API 更新至0.7 两个控制台应用程序 .csv 文件 欺诈检测 二元分类 Fa…
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异常值定义为与其余数据群1不一致的样本或事件.异常值通常包含有关影响数据生成过程2的系统和实体的异常特征的有用信息. 异常检测算法的常见应用包括: 入侵检测系统信用卡诈骗有趣的传感器事件医学诊断在本文中,我们将重点介绍异常检测 - 信用卡欺诈的最常见应用之一.通过一些简单的离群值检测方法,可以在真实世…
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型集成,样本不做处理,将各个模型进行特征选择.参数调优后进行集成,通常也能够取得不错的结果.(3)其他方法:偶尔可以使用异常检测技术,主要有IsolationForest,OneClassSVM,LocalOutlierFactor,KMeans,其中IsolationForest效果最好.但是不及前…
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好 线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值 误差满足,均值为0的高斯分布,即正态分布.这个假设是靠谱的,符合一般客观统计规律.若使 模型与测量数据最接近,那么其概率积就最大.概率积,就是概率密度函数的连续积,这样,就形成了一个最大似然函数估计.对最大似然函数估计进行推导,就得出了推导后结果: 平方和最小公式 注: 1.x的平方等于x的转置乘以x. 2…
本文是对100天搞定机器学习|Day33-34 随机森林的补充 前文对随机森林的概念.工作原理.使用方法做了简单介绍,并提供了分类和回归的实例. 本期我们重点讲一下: 1.集成学习.Bagging和随机森林概念及相互关系 2.随机森林参数解释及设置建议 3.随机森林模型调参实战 4.随机森林模型优缺点总结 集成学习.Bagging和随机森林 集成学习 集成学习并不是一个单独的机器学习算法,它通过将多个基学习器(弱学习器)进行结合,最终获得一个强学习器.这里的弱学习器应该具有一定的准确性,并且要有…
本篇文章为大家提供了数据集分析的思路和步骤,同时也分享了自己的经验. 一.背景 反欺诈是一项识别服务,是对交易诈骗.网络诈骗.电话诈骗.盗卡盗号等行为的一项风险识别.其核心是通过大数据的收集.分析和处理,建立反欺诈信用评分和反欺诈模型,解决不同场景中的风险问题. 国内常见的提供反欺诈服务的公司有:同盾科技,百融金服,众安保险的Xmodel,腾讯的天御借贷反欺诈AF,阿里云的云盾,蚂蚁金服的蚁盾:模式多为Sass服务,产品形态为客户端控制台+服务端调用反欺诈API. 二.数据集分析 数据样本为20…
from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from unzip_utils import unzip import numpy as np import tflearn from matplotlib import pyplot as plt import seaborn as sns from sklearn.metrics impo…