背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件,搭建出一套评分卡建模方案. 本…
一.背景 最近热播的反腐神剧"人民的名义"掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用.笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入. 本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验: 分词以及词频统计 每一章的关键词提取 每一章的文本摘要 每一章文本之间的相似度分析 实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要…
背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练. 关于PAI的深度学习功能开通,请务必提前阅读https://…
背景 最近互联网上出现一个热词就是"freestyle",源于一个比拼rap的综艺节目.在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap.freestyle除了考验一个人rap的技巧,其实我觉得最难的是如何在短时间内在脑海中浮现出有韵律的歌词. PAI平台是阿里云人工智能平台,在上面可以通过最简单的拖拉拽的方式,完成对各种结构化以及非结构化数据的处理.因为有了PAI,这种自动生成歌词的事情都不再成为难题.我现在不光可以…
背景 我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见http://blog.csdn.net/buptgshengod/article/details/53609878.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,…
开始挑战第三十二关(Bypass addslashes) 0x1查看源代码 (1)代码关键点 很明显,代码中利用正则匹配将 [ /,'," ]这些三个符号都过滤掉了 function check_addslashes($string) { $string = preg_replace('/'. preg_quote('\\') .'/', "\\\\\\", $string); //escape any backslash $string = preg_replace('/\…
开始挑战第二十一关(Cookie Injection- Error Based- complex - string) 和二十二关(Cookie Injection- Error Based- Double Quotes - string) 这关其实和二十关是一样的,只是这关的cookie采用了base64加密,和单引号括号 来吧,开搞吧,利用单引号进行报错,注意需要利用base64进行转换下,可以利用hackbar的,也可以用一些转换工具 已经报错,错误信息就不说明了,相信到二十一关这些都是应该…
一.背景 感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值.本系列文章包含详细的实验流程以及相关的文档教程,欢迎大家进入阿里云数加机器学习平台体验.实验案例请在新建实验页签查看,如下图.  本章作为玩转数据系列的开篇,先提供一个简单的案例给大家热身.通过截取一份人口普查的数据,对学历和收入进行统计和分析.主要目的是帮助大家学习阿里云机器学习实验的搭建流程和组件的使用方式.任何关于阿里云机器学习方…
今天要来讨论的是EM算法.第一眼看到EM我就想到了我大枫哥,EM Master,千里马.RUA!!!不知道看这个博客的人有没有懂这个梗的. 好的,言归正传.今天要讲的EM算法,全称是Expectation maximization.期望最大化. 怎么个意思呢,就是给你一堆观測样本.让你给出这个模型的參数预计.我靠,这套路我们前面讨论各种回归的时候不是已经用烂了吗?求期望,求对数期望,求导为0,得到參数预计值.这套路我懂啊,MLE! 但问题在于,假设这个问题存在中间的隐变量呢?会不会把我们的套路给…
(本文数据为实验用例) 一.背景 母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些. 本文的数据采集于某中学在校生的家庭背景数据以及在校行为数据.通过逻辑回归算法生成离线模型和学业指标评估报告,并且可以对学生的期末成绩进行预测. 二.数据集介绍 数据集由25个特征和一个打标数据构成, 具体字段如下: 字段名 含义 类型 描述 sex 性别 s…
一.背景 新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器智能化实现. 本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自动分类.包括了分词.词型转换.停用词过滤.主题挖掘.聚类等流程. 二.数据集介绍 具体字段如下: 字段名 含义 类型 描述 category 新闻类型 string 体育.女性.社会.军事.科技等…
一.背景 心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用.本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例. 二.数据集介绍 数据源: UCI开源数据集heart_disease 针对美国某区域的心脏病检查患者的体测数据,共303条数据.具体字段如下表: 字段名 含义 类型 描述 age 年龄…
一.背景 如果要人们评选当今最受关注话题的top10榜单,雾霾一定能够入选.如今走在北京街头,随处可见带着厚厚口罩的人在埋头前行,雾霾天气不光影响了人们的出行和娱乐,对于人们的健康也有很大危害.本文通过爬取并分析北京一年来的真实天气数据,挖掘出二氧化氮是跟雾霾天气(这里指的是PM2.5)相关性最强的污染物,从而为您揭秘形成雾霾的罪魁祸首. 这里我们是用阿里云机器学习平台来完成实验: https://data.aliyun.com/product/learn 登陆阿里云机器学习平台,即可在demo…
一.背景 很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还.农业贷款发放问题是一个典型的数据挖掘问题.贷款发放人通过往年的数据,包括贷款人的年收入.种植的作物种类.历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力. 本文借助真实的农业贷款业务场景,利用回归算法解决贷款发放业务. 线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛.本文通过农业贷款的历史发放情况,预测是否给预…
(本文数据为虚构,仅供实验) 一.背景 本文将针对阿里云平台上图算法模块来进行实验.图算法一般被用来解决关系网状的业务场景.与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱.图算法更多的是考虑边和点的概念.阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core.最大联通子图.标签传播聚类等. 本文的业务场景如下: 下图是已知的一份人物通联关系图,每两个人之间的连线表示两人有一定关系,可以是同事关系或者亲人关系等.已知"Enoch"是信用用户,"Evan&…
主要内容: 一.Photo OCR 二.Getting lots of data:artificial data synthesis 三.Ceiling analysis 一.Photo OCR Photo OCR就是从图片中提取文本或者需要的数据,其具体步骤可分三个: 第一步:Text detection or pedestrain detection 采用的方法是,sliding windows.即设置一个大小固定的窗口去扫描增长图片,以次去检测文字(文字检测稍微复杂)或者行人.当然由于字体…
这一次我们深入的学习一下JavaScript面向对象技术,在学习之前,必要的说明一下一些面向对象的一些术语. 这也是全部面对对象语言所拥有的共同点.有这样几个面向对象术语: 对象 ECMA-262把对象(object)定义为"属性的无序集合,每一个属性存放一个原始值.对象或函数". 严格来说.这意味 着对象是无特定顺序的值的数组.虽然ECMAScript如此定义对象.但它更通用的定义是基于代码的名词(人.地点或 事物)的表示. 类 每一个对象都由类定义,能够把类看做对象的配方.类不仅要…
Envoy 可以作为 Sevice Mesh 微服务框架中的代理实现方案,Rainbond 内置的微服务框架同样基于 Envoy 实现.本文所描述的全局限速实践也是基于 Envoy 已有的方案所实现. Envoy 全局限速 尽管分布式熔断器在大多数情况下控制分布式系统中的吞吐量非常有效,但有时它的效果并不是很好,这时候便需要全局限速.最常见的情况是当大量主机转发到少量主机并且平均请求延迟很短时(例如,发送给数据库服务器的连接/请求).若目标主机成为备机,则下游主机将压垮上游集群.在这种情况下,很…
由于低版本浏览器不支持css3 animation,因此我们需要根据浏览器来选择不同的动画引擎.如果浏览器支持css3 animation,那么就使用此动画引擎,如果不支持,就使用javascript的动画引擎. 首先,我们看一下判定条件,方便切换.前面说过,浏览器把所有事件类型的构造器放在window上,只不过不可遍历.我们用Object.getOwnPropertyNames(window),可以得到window对象中的所有属性,然后再filter一下,就能得到所有的事件构造器了.最后,我们…
前言 之前曾经学习过一对回射客户/服务器程序的例子,不过那个是基于TCP协议的.本文将讲解另一对回射客户/服务器程序,该程序基于UDP协议. 由于使用的协议不同,因此编写出的程序也有本质上的区别,应将它们对比来进行理解. 通信框架 服务器端 #include "unp.h" int main(int argc, char **argv) { int sockfd; struct sockaddr_in servaddr, cliaddr; // 创建UDP套接字 sockfd = So…
四原型方式 我们创建的每一个函数都有一个通过prototype(原型)属性.这个属性是一个对象,它的用途是包括能够由特定类型 的全部实例共享的属性和方法. 逻辑上能够这么理解:prototypt通过条用构造函数而创建的那个对象的原型对象.使 用原型的优点就是能够让全部对象实例共享它所包括的属性和方法.也就是说,不必在构造函数中定义对象信息.而 是直接将这些信息加入到原型中. 原型方式利用了对象的prototype 属性.能够把它看成创建新对象所依赖的原型.这里.首先用空构造函数来设置 函数名.然…
多租户技术的基本概念:   多租户技术(英语:multi-tenancy technology)或称多重租赁技术,是一种软件架构技术,它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件,并且仍可确保各用户间数据的隔离性.   在云计算的加持之下,多租户技术被广为运用于开发云各式服务,不论是IaaS,PaaS还是SaaS,都可以看到多租户技术的影子.   前面介绍过GitEgg框架与数据库交互使用了Mybatis增强工具Mybatis-Plus,Mybatis-Plus提供了Tenant…
经常看到问题,如何取出每组的前N条记录 http://blog.csdn.net/acmain_chm/article/details/4126306 问题:有表 如下,要求取出各班前两名(允许并列第二) Table1 +----+------+------+-----+ | id |SName |ClsNo |Score| +----+------+------+-----+ |  1 |AAAA  |  C1  | 67  | |  2 |BBBB  |  C1  | 55  | |  3…
子类化内置类型的缺点 多重集成和方法解析顺序 tkinter…
机器学习PAI 机器学习PAI(Platform of Artificial Intelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案.本文介绍什么是机器学习PAI. 什么是机器学习 机器学习是指机器通过统计学算法,对大量历史数据进行学习,进而利用生成的经验模型指导业务.目前机器学习主要应用在以下场景: 营销类场景:商品推荐.用户群体画像或广告精准投放. 金融类场景:贷款发放预测.金融风险控制.股票走势预测或黄金价格预测. 社交网络服务关系挖掘场景:微博粉丝领袖分析或社交关系…
十一章:软件设计与实现 工作时要懂得平衡进度和质量.我一直有一个困扰:像我们团队这次做 男神女神配 社区交友网,我负责主页的设计及内容模块,有个队友负责网站的注册和登录模块,有个队友负责搜索模块,有个队友负责活动查看模块.但是一个项目是一个整体的,每一个人所负责的每一个模块都必须关联起来才能成为一个整体,例如我的主页完成了50%后,为了查看整体效果, 发给队友与他的模块连接起来,如果对方在我的程序上修改了部分,然后同时我也继续编写我剩下的内容,双方都在我那个原本完成了50%的进度模块上做了修 改…
讲授Boosting算法的原理,AdaBoost算法的基本概念,训练算法,与随机森林的比较,训练误差分析,广义加法模型,指数损失函数,训练算法的推导,弱分类器的选择,样本权重削减,实际应用. AdaBoost算法它最典型的应用是视觉的目标检测,比如说人脸检测.行人检测.车辆检测等等.在深度学习流行之前,用这些简单的特征加上AdaBoost分类器来做目标检测,始终是我们工业界的一个主流的方案,在学术界里边它发的论文也是最多的. 大纲: 实验环节应用简介VJ框架简介分类器级联Haar特征训练算法的原…
EM算法 作者:樱花猪   摘要: 本文为七月算法(julyedu.com)12月机器学习第十次次课在线笔记.EM算法全称为Expectation Maximization Algorithm,既最大期望算法.它是一种迭代的算法,用于含有隐变量的概率参数模型的最大似然估计和极大后验概率估计.EM算法经常用于机器学习和机器视觉的聚类领域,是一个非常重要的算法.而EM算法本身从使用上来讲并不算难,但是如果需要真正的理解则需要许多知识的相互串联. 引言:      EM算法是机器学习十大经典算法之一.…
关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2017年12月04日 22:54:26所撰写内容(http://blog.csdn.net/qq_37608890/article/details/78714664).     本文根据最近学习机器学习书籍 网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. 一.k-近邻算法(k-Nearest Neighbor,KNN)概述 1.简…
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空间中的K个最相似(即特征空间最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 我们采用一个图来进行说明(如下): 图中的蓝色小正方形和红色的小正方形属于两类不同的样本数据,图正中间的绿色的圆代表的是待分类的数据.现在我们可以根据K最近邻算法来判断绿色的圆属于哪一类数据? 如果K=3,绿色圆点的…