1 概述 两个向量之间的距离(此时向量作为n维坐标系中的点)计算,在数学上称为向量的距离(Distance),也称为样本之间的相似性度量(Similarity Measurement).它反映为某类事物在距离上接近或远离的程度.直觉上,距离越近的就越相似,越容易归为一类:距离越远越不同. 2 常用距离及其python实现 2.1 闵可夫斯基距离(Minkowski Distance) 严格意义上讲,闵可夫斯基距离不是一种距离,而是一组距离的定义.两个n维变量A(x11,x12,...,x1n)与…
<机器学习实战>kMeans算法(K均值聚类算法) 机器学习中有两类的大问题,一个是分类,一个是聚类.分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类.这属于supervised learning(监督学习).而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在机器学习中被称作 unsupervised learning (无监督学习).在本文中,我们关注其中一个比较简单的聚类算法:k-means算法. k…
这篇是关于排序的,把常见的排序算法和面试中经常提到的一些问题整理了一下.这里面大概有3个需要提到的问题: 虽然专业是数学,但是自己还是比较讨厌繁琐的公式,所以基本上文章所有的逻辑,我都尽可能的用大白话说,希望能说明白: 语言使用的是Python,原因是写的快一些,当然会尽可能的抛开一些Python的特点,比如数组处理的时候尽可能的不使用一些tuple交换等方式: 测试算法的时候会用到一些Python编程的技巧,这里只是简单的提一下,不做深入介绍: 常用的排序算法(主要指面试中)包含两大类,一类是…
coursera上吴恩达的机器学习课程使用Octave/Matlab实现算法,有必要知道Octave简单的语句.最重要的:在遇到不会的语句,使用'''help '''或者'''doc '''查看官方文档. 基本操作 help/显示命令的简要帮助信息 doc/显示命令的详细帮助文档 length/应用到到矩阵时返回较高的一维的dimension save/保存数据,如保存变量到.mat文件:save hello.mat b 以二进制压缩保存数据 mean/矩阵每列求平均,如x为33矩阵,mean(…
Python机器学习 学习意味着通过学习或经验获得知识或技能.基于此,我们可以定义机器学习(ML)如下 - 它可以被定义为计算机科学领域,更具体地说是人工智能的应用,其为计算机系统提供了学习数据和从经验改进而无需明确编程的能力. 基本上,机器学习的主要焦点是允许计算机自动学习而无需人为干预.现在问题是如何开始和完成这种学习?它可以从数据的观察开始.数据可以是一些示例,指令或一些直接经验.然后在此输入的基础上,通过查找数据中的某些模式,机器可以做出更好的决策. 机器学习类型(ML) 机器学习算法帮…
Python编程中常用的12种基础知识总结:正则表达式替换,遍历目录方法,列表按列排序.去重,字典排序,字典.列表.字符串互转,时间对象操作,命令行参数解析(getopt),print 格式化输出,进制转换,Python调用系统命令或者脚本,Python 读写文件. 1.正则表达式替换目标: 将字符串line中的 overview.gif 替换成其他字符串 1 2 3 4 5 6 7 8 9 10 11 >>> line = '<IMG ALIGN="middle&quo…
原地址:http://blog.jobbole.com/48541/ Python编程中常用的12种基础知识总结:正则表达式替换,遍历目录方法,列表按列排序.去重,字典排序,字典.列表.字符串互转,时间对象操作,命令行参数解析(getopt),print 格式化输出,进制转换,Python调用系统命令或者脚本,Python 读写文件. 1.正则表达式替换目标: 将字符串line中的 overview.gif 替换成其他字符串 1 2 3 4 5 6 7 8 9 10 11 >>> lin…
转载于博客:各种距离 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1.欧氏距离 2.曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5.标准化欧氏距离 6.马氏距离 7.夹角余弦 8.汉明距离 9.杰卡德距离& 杰卡德相似系数 10.相关系数…
Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性,这里就为大家分享几个不错的数据分析工具,需要的朋友可以参考下 Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力. Python数据分析需要安装的第三…
介绍 想象一下-你已经在给定的数据集上训练了机器学习模型,并准备好将它交付给客户.但是,你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型? 当然是有的,简而言之,机器学习中损失函数可以解决以上问题. 损失函数是我们喜欢使用的机器学习算法的核心.但大多数初学者和爱好者不清楚如何以及在何处使用它们. 它们并不难理解,反而可以增强你对机器学习算法的理解.那么,什么是损失函数,你如何理解它们的意义? 在本文中,我将讨论机器学习中使用的7种常见损失函数,并解释每种函数的使…