(写在前面:机器学习入行快2年了,多多少少用过一些算法,但由于敲公式太过浪费时间,所以一直搁置了开一个机器学习系列的博客.但是现在毕竟是电子化的时代,也不可能每时每刻都带着自己的记事本.如果可以掏出手机或iPad登陆网站就可以看到自己的一些笔记,才更有助于知识的巩固.借此机会,重新整理各大算法,希望自己能有更深的认识,如果有可能,也大言不惭的说希望能够帮助到需要帮助的朋友-) (本篇博客内容来自台大林轩田老师Coursera Machine Learning Technology视频及周志华老师…
今天是机器学习专题的第34篇文章,我们继续来聊聊SVM模型. 我们在上一篇文章当中推导了SVM模型在硬间隔的原理以及公式,最后我们消去了所有的变量,只剩下了\(\alpha\).在硬间隔模型当中,样本是线性可分的,也就是说-1和1的类别可以找到一个平面将它完美分开.但是在实际当中,这样的情况几乎是不存在的.道理也很简单,完美是不存在的,总有些样本会出错. 那针对这样的问题我们应该怎么解决呢? 软间隔 在上文当中我们说了,在实际的场景当中,数据不可能是百分百线性可分的,即使真的能硬生生地找到这样的…
SVM入门(一)至(三)Refresh 按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅. (一)SVM的简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本.非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]. 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本…
https://cloud.tencent.com/developer/article/1411618 (关于hinge损失函数的定义) https://zhuanlan.zhihu.com/p/61794781(核函数的解惑) https://zhuanlan.zhihu.com/p/49331510(一些更深刻的svm理解,包括了hinge损失,惩罚因子C的理解)…
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天的文章和大家聊聊文本分析当中的一个简单但又大名鼎鼎的算法--TF-idf.说起来这个算法是自然语言处理领域的重要算法,但是因为它太有名了,以至于虽然我不是从事NLP领域的,但在面试的时候仍然被问过好几次,可见这个算法的重要性. 好在算法本身并不困难,虽然从名字上看疑惑重重,但是一旦理解了其中的原理,一切都水到渠成,再也不怕面试的时候想不起来了.废话不多说,我们进入正题. 算法原理 TF-idf名字的中间用分隔号进行了分割,并且TF和…
技巧:Linux 动态库与静态库制作及使用详解 标准库的三种连接方式及静态库制作与使用方法 Linux 应用开发通常要考虑三个问题,即:1)在 Linux 应用程序开发过程中遇到过标准库链接在不同 Linux 版本下不兼容的问题: 2)在 Linux 静态库的制作过程中发现有别于 Windows 下静态库的制作方法:3)在 Linux 应用程序链接第三方库或者其他静态库的时候发现链接顺序的烦人问题.本文就这三个问题针对 Linux 下标准库链接和如何巧妙构建 achrive(*.a) 展开相关介…
title: LDM与STM指令详解 date: 2019/2/26 17:58:00 toc: true --- LDM与STM指令详解 指令形式如下,这里的存储方向是针对寄存器的 Load Multiple (LDM) and Store Multiple (STM) LDM{<cond>}<addressing_mode> Rn{!}, <registers>{^} STM{<cond>}<addressing_mode> Rn{!}, &…
一.Hibernate操作的基本流程 使用 Hibernate 进行数据持久化操作,通常有如下步骤: 1.编写持久化类: POJO + 映射文件 2.获取 Configuration 对象 3.获取 SessionFactory 对象 4.获取 Session,打开事务 5.用面向对象的方式操作数据库 6.关闭事务,关闭 Session 二.配置文件hibernate.cfg.xml详解 <!--标准的XML文件的起始行,version='1.0'表明XML的版本,encoding='UTF-8…
原文:http://blog.csdn.net/suipingsp/article/details/41645779 支持向量机基本上是最好的有监督学习算法,因其英文名为support vector machine,简称SVM.通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解. (一)理解SVM基本原理 1,SVM的本质--分类 给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些…
在前面的几篇文章中,我们介绍了EasyPR中车牌定位模块的相关内容.本文开始分析车牌定位模块后续步骤的车牌判断模块.车牌判断模块是EasyPR中的基于机器学习模型的一个模块,这个模型就是作者前文中从机器学习谈起中提到的SVM(支持向量机). 我们已经知道,车牌定位模块的输出是一些候选车牌的图片.但如何从这些候选车牌图片中甄选出真正的车牌,就是通过SVM模型判断/预测得到的.   图1 从候选车牌中选出真正的车牌 简单来说,EasyPR的车牌判断模块就是将候选车牌的图片一张张地输入到SVM模型中,…
在上篇文章学机器学习,不会数据处理怎么行?—— 一.NumPy详解中,介绍了NumPy的一些基本内容,以及使用方法,在这篇文章中,将接着介绍另一模块——Pandas.(本文所用代码在这里) Pandas数据结构介绍 大家应该都听过表结构,但是,如果让你自己来实现这么一个结构,并且能对其进行数据处理,能实现吗?我相信,大部分人都能做出来,但是不一定能做的很好.而Python中的一个模块pandas给我们提供了一个很好的数据结构,它包括了序列Series和数据框DataFrame.pandas是基于…
直接conda install libsvm安装的不完整,缺几个.py文件. 第一种安装方法: 下载:http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+tar.gz 在/home/common/anaconda3/lib/python3.6/site-packages下创建一个libsvm文件夹,并将libsvm.so.2复制到到libsvm文件夹中(lib…
[机器学习基本理论]详解最大似然估计(MLE).最大后验概率估计(MAP),以及贝叶斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们. 下文将详细说明MLE和MAP的思路与区别.先讲解MLE的相应知识.…
标准IO库是由Dennis Ritchie于1975年左右编写的,它是Mike Lestbain写的可移植IO库的主要修改版本,2010年以后, 标准IO库几乎没有进行什么修改.标准IO库处理了很多细节,如缓冲区分配.以优化的块长度执行IO等,用户不必在担心不能正确选择块长度,这些处理方便了用户的使用.与系统调用I/O相似,也包括打开.读写.关闭这些操作,主要的函数列举如下.◆ 打开与关闭文件:fopen,fclose.◆ 读写文件:fread,fwrite.◆ 读写文本行:fgets,fput…
python标准库中socket模块详解 socket模块简介 原文:http://www.lybbn.cn/data/datas.php?yw=71 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket.socket通常被叫做“套接字”,用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信.在Internet上的主机一般运行了多个服务软件,同时提供几种服务.每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应…
[机器学习详解]SMO算法剖析 转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51227754 CSDN−勿在浮沙筑高台 本文力求简化SMO的算法思想,毕竟自己理解有限,无奈还是要拿一堆公式推来推去,但是静下心看完本篇并随手推导,你会迎刃而解的.推荐参看SMO原文中的伪代码. 1.SMO概念 上一篇博客已经详细介绍了SVM原理,为了方便求解,把原始最优化问题转化成了其对偶问题,因为对偶问题是一个凸二次规划问题,这样的凸二次规…
机器学习中的隐马尔科夫模型(HMM)详解 在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了.Russell等在文献[1]中指出:"在统计学中,图模型这个术语指包含贝叶斯网络在内的比较宽泛的一类数据结构." 维基百科中更准确地给出了PGM的定义:"A graphical model or probabilistic graphical model is a probabilistic model for which a graph expresses t…
1.CRF的预测算法条件随机场的预测算法是给定条件随机场P(Y|X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注.条件随机场的预测算法是著名的维特比算法(Vitebi Algorthim). 维特比算法在隐马尔科夫模型的预测算法中已经详细介绍和Python实现过,详见以前的博客: [机器学习][隐马尔可夫模型-4]维特比算法:算法详解+示例讲解+Python实现 2.CRF的预测算法之维特比算法2.1维特比算法简介维特比算法实际使用动态规划解CRF条件…
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第31篇文章,我们一起继续来聊聊GBDT模型. 在上一篇文章当中,我们学习了GBDT这个模型在回归问题当中的原理.GBDT最大的特点就是对于损失函数的降低不是通过调整模型当中已有的参数实现的,若是通过训练新的CART决策树来逼近的.也就是说是通过增加参数而不是调整参数来逼近损失函数最低点. 如果对于这部分不是很理解的话,可以通过下方的链接回顾一下之前的内容: 机器学习 | 详解GBDT梯度提升树原理,看完再也不怕面试…
Thread作为线程的抽象,Thread的实例用于描述线程,对线程的操纵,就是对Thread实例对象的管理与控制. 创建一个线程这个问题,也就转换为如何构造一个正确的Thread对象. 构造方法列表 构造方法核心 如前面两个图所示,Thread共有8个构造方法 而且所有的构造方法都依赖于init方法     private void init(ThreadGroup g, Runnable target, String name,long stackSize) 所以换一个角度思考,可以认为只有一…
[机器学习基本理论]详解最大后验概率估计(MAP)的理解 https://blog.csdn.net/weixin_42137700/article/details/81628065 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们. 下文将详细说明MLE和MAP的思路与区别.上篇讲解了ML…
标准库 插入迭代器 详解 插入迭代器作用:copy等函数不能改变容器的大小,所以有时copy先容器是个空的容器,如果不使用插入迭代器,是无法使用copy等函数的. 例如下面的代码就是错误的: list<int> lst{1,2,3,4}; list<int> lst2,lst3; copy(lst.cbegin(), lst.cend(), lst2.begin()); lst2是个空的容器,copy函数不能扩容容器lst2,所以会发生运行时错误. 用插入迭代器就可以很好的解决上面…
标准库 bind 函数 详解 bind函数:接收一个函数名作为参数,生成一个新的函数. auto newCallable = bind(callbale, arg_list); arg_list中的参数可能包含入_1, _2等,这些是新函数newCallable的参数. 在这篇博客lambda 表达式 介绍 中,讨论了find_if的第三个参数的问题,当时是用lambda表达式解决的,有了bind函数后,也可以用bind函数解决. 解决办法:bind(check_size, _1, sz) au…
原文:NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩.机器学习及最优化算法 导读 AI领域顶会NeurIPS正在加拿大蒙特利尔举办.本文针对实验室关注的几个研究热点,模型压缩.自动机器学习.机器学习与最优化算法,选取23篇会议上入选的重点论文进行分析解读,与大家分享.Enjoy! NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学…
前端之前端初识   前端初识 本节目录 一 web标准 二 浏览器介绍 三 开发工具介绍 四 HTML介绍 五 HTML颜色介绍 六 规范 七 HTML结构详解 一 web标准 web准备介绍: 1.w3c:万维网联盟组织,用来制定web标准的机构(组织) 2.web标准:制作网页遵循的规范 3.web准备规范的分类:结构标准.表现标准.行为标准. 4.结构:html.表示:css.行为:Javascript. web准备总结: 1.结构标准:相当于人的身体.html就是用来制作网页的. 2.表…
od命令 以二进制的形式查看文件 od -t x1 /usr/local/FT/config/hsm_create.utf8.sql ef bb bf 4c 5f 0d 0a 5f 4e 4e 4f 4e 4c 4c 4d 4b 摘自:https://www.cnblogs.com/hdk1993/p/4395574.html Linux之od命令详解   功能说明:输出文件内容.语 法:od [-abcdfhilovx][-A <字码基数>][-j <字符数目>][-N <…
在上面一个章节中,详细的讲解了Kotlin中关于Lambda表达式的语法以及运用,如果还您对其还不甚理解,请参见Kotlin--高级篇(一):Lambda表达式详解.在这篇文章中,多次提到了Kotlin中关于高阶函数的内容,故而在这一篇文章中会详解的对Kotlin高阶函数的方方面面. 目录 一.高阶函数介绍 在介绍高阶函数之前,或许您先应该了解Kotlin中,基础函数的使用与定义.您可以参见Kotlin--初级篇(七):函数(方法)基础使用这边文章的用法. 在Kotlin中,高阶函数即指:将函数…
一 前言 Word2Vec是同上一篇提及的PageRank一样,都是Google的工程师和机器学习专家所提出的的:在学习这些算法.模型的时候,最好优先去看Google提出者的原汁Paper和Project,那样带来的启发将更大.因为创造者对自己所创之物的了解程度优于这世上的绝大部分者,这句话,针对的是爱看博文的读者,like me. 另外,补充几句. 1.防止又被抄袭,故关键笔记以图贴之. 2.标题前带阿拉伯数字标号的内容,便是使用Gensim的Word2Vec模型过程中的完整流程序号,通常也较…
机器学习03 /jieba详解 目录 机器学习03 /jieba详解 1.引言 2.分词 2.1.jieba.cut && jieba.cut_for_search 2.2.jieba.lcut && jieba.lcut_for_search 2.3 全模式和精确查找模式 2.4.搜索引擎模式 2.5.HMM模型 3.繁体字分词 4.添加自定义分词 4.1.载入词典 4.2.调整词典 5.关键词提取 5.1.基于TF-IDF算法的关键词提取 5.2.基于 TextRank…
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/34 本文地址:http://www.showmeai.tech/article-detail/195 声明:版权所有,转载请联系平台与作者并注明出处 引言 之前ShowMeAI对强大的boosting模型工具XGBoost做了介绍(详见ShowMeAI文章图解机器学习 | XGBoost模型详解).本篇我们来学习一下GBDT模型(详见ShowMeAI文章 图解机器学习 | GBDT模…