Logistics Regression 二分类问题. 模型 线性模型 响应 sigmoid 损失函数(显示) 最小均方 优化方法 BGD 例子: #coding utf-8 import numpy as np def load_data(file_name): feature_data = [] label_data = [] f = open(file_name) # 打开文件 for line in f.readlines(): # @ strip() 去除字符串首尾的空格 # @ sp…
(草稿) 过程: 1. 初始化所有节点的 labels 成唯一的值: 2. 对每个节点,将 label 更新为和其相连的所有节点中,标签最多的 节点的label: 2. 初始化情况下,假如所有相连的节点的label没有重复,则随机选取一个. 3. 直到不再更新,停止.…
(草稿) 两点关系的三种定义: 1. 直接密度可达:A在B的邻域内: 2. 密度可达:AB之间存在,直接密度可达的点串: 3. 密度连接:AB之间存在点k,使得Ak和Bk都密度可达: 过程: 1. 对每个点 2. 分别求满足 连接性和最大性的 簇 . 3. 所有点都归类,结束. 参考: https://blog.csdn.net/column/details/jqxx.html…
(草稿) k-means: 1. 随机选取n个中心 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类. 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环的n个中心的偏移不大,停止. k-means++: 1. 随机选取n个中心(越远的被选取的概率越大,n个中心尽量远离) 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类. 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环的n个中心的偏移不大,停止.…
(草稿) meanshift 也是一种聚类方法. 优点在于:不需要提前指定类型数. 缺点就是计算量大 过程:(最一般的做法,没有使用核函数) 1. 逐点迭代,设置为位置中心 2. 计算所有点到位置中心的距离 3. 计算位置的质心(平均) 4. 位置中心的质心的距离够小就停止,该位置中心点就属于(质心)类.(使用质心来标记所属类别) 5. 位置中心的质心的距离不够小,位置中心移动到质心,继续 6. 每个点都被标记了(标记为某个质心),统计一下,有几种标记.聚类完成. 过程:(使用核函数) 1. 逐…
# coding:UTF-8 ''' Date:20160901 @author: zhaozhiyong ''' import numpy as np from lr_train import sig def load_weight(w): '''导入LR模型 input: w(string)权重所在的文件位置 output: np.mat(w)(mat)权重的矩阵 ''' f = open(w) w = [] for line in f.readlines(): lines = line.s…
4.45925637575900 8.22541838354701 0 0.0432761720122110 6.30740040001402 0 6.99716180262699 9.31339338579386 0 4.75483224215432 9.26037784240288 0 8.66190392439652 9.76797698918454 0 7.17376551727269 8.69456339325210 0 0.134053879775005 1.968780529438…
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据 首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding=utf-8# import flattenimport tensorflow as tffrom numpy import *import numpy as npimport matplotlib.pyplot as pltdef LDA(c1,c2): m1=mean(c1,axis=0) m2…
周志华-机器学习 pdf,下载地址: https://u12230716.pipipan.com/fs/12230716-239561959 统计学习方法-李航,  下载地址: https://u12230716.pipipan.com/fs/12230716-336803118 人工智能-李开复,     下载地址:       https://u12230716.pipipan.com/fs/12230716-336902476 吴恩达深度学习笔记,下载地址:     https://u12…
机器学习系统设计(Building Machine Learning Systems with Python)- Willi Richert Luis Pedro Coelho 总述 本书是 2014 的,看完以后才发现有第二版的更新,2016.建议阅读最新版,有能力的建议阅读英文版,中文翻译有些地方比较别扭(但英文版的书确实是有些贵). 我读书的目的:泛读主要是想窥视他人思考的方式. 作者写书的目标:面向初学者,但有时间看看也不错.作者说"我希望它能激发你的好奇心,并足以让你保持渴望,不断探索…
tensorflow学习笔记2 edit by Strangewx 2019.01.04 4.1 机器学习基础 4.1.1 一般结构: 初始化模型参数:通常随机赋值,简单模型赋值0 训练数据:一般打乱.random.shuffle() 在训练数据上推断模型:得到输出 计算损失:loss(X, Y)多种损失函数 调整模型参数:最小化损失 SGD等优化方法. 评估:70%:30% 分训练集和校验集 代码框架: 首先模型参数初始化, 然后为每个训练闭环中的运算定义一个方法:读取训练数据input,计算…
线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 0 准备数据 kaggle2.blob.core.windows.net/competitions-data/kaggle/3526/train.tsv sed 1d train.tsv > train_noheader.tsv 0 运行环境 cd /Users/erichan/G…
这个线性回归的作业需要上传到https://inclass.kaggle.com/c/ml2016-pm2-5-prediction 上面,这是一个kaggle比赛的网站.第一次接触听说这个东西,恰好在京东上有一本刚出来的关于这个的书<Python机器学习及实践:从零开始通往Kaggle竞赛之路>.把我自己写的代码运行保存的结果提交上去后发现,损失函数值很大,baseline是6,而我的却是8,于是很不心甘,尝试了其他方法无果后,准备利用scikit learn 工具刷刷数据. 具体步骤: 1…
话说学机器学习,不写代码就太扯淡了.好了,接着上一次的线性回归作业. hw1作业的链接在这: http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw1.pdf 作业是预测台湾的PM2.5的指数,既然是回归问题,肯定是用的是上一节课的线性回归了. 以上数据我传到https://pan.baidu.com/s/1dFhwT13 上面了,供有兴趣的人做做. 实际上上述中分为训练数据和测试数据,都是CSV格式的,而且只用到PM2.5有…
在浏览本篇博客之前,最好先查看一下我写的还有一篇文章机器学习之初识SVM(点击可查阅哦).这样能够更好地为了结以下内容做铺垫! 支持向量机学习方法包括构建由简至繁的模型:线性可分支持向量机.线性支持向量机及非线性支持向量机.当训练数据线性可分时.通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机.又称为硬间隔支持向量机:当训练数据近似线性可分时.通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机:当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习…
在IJCAI 于2015年举办的竞赛:Repeat Buyers Prediction Competition 中, 很多参赛队伍在最终的Slides展示中都表示使用了 AUC 作为评估指标:     那么,AUC是什么呢? AUC是一个机器学习性能度量指标,只能用于二分类模型的评价.(拓展二分类模型的其他评价指标:logloss.accuracy.precision)   对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive).假正例(false…
版权声明:小博主水平有限,希望大家多多指导.本文仅代表作者本人观点,转载请联系知乎原作者——BG大龍. 目录 1 什么是机器学习? 2 机器学习的3个步骤 3 李宏毅老师的机器学习课程 4 按“模型的不同学习理论”分,机器学习的模型可以分为有监督学习,半监督学习,无监督学习,迁移学习和强化学习. ——4.1[解读] 有监督学习(Supervised Learning) ————4.1.1 监督学习Supervised Learning-> 回归Regression ————4.1.2 监督学习S…
http://www.shouce.ren/post/d/id/112300    黑客攻防实战入门与提高.pdfhttp://www.shouce.ren/post/d/id/112299    黑客入门新手特训.pdfhttp://www.shouce.ren/post/d/id/112298    黑客与设计-剖析设计之美的秘密(彩印).pdfhttp://www.shouce.ren/post/d/id/112297    鸟哥的LINUX私房菜:服务器架设篇 (第二版).pdfhttp…
http://www.matlabsky.com/thread-43937-1-1.html   <量化投资:以MATLAB为工具>连载(3)基础篇-N分钟学会MATLAB(下)     <量化投资:以MATLAB为工具>简介          <量化投资:以MATLAB为工具>是由电子工业出版社(PHEI)下属旗舰级子公司——北京博文视点资讯有限公司出版的<量化投资与对冲基金丛书>之一,丛书主编为丁鹏博士,<量化投资:以MATLAB为工具>由李…
原文地址:http://www.cnblogs.com/beer/p/3325242.html 免责声明: 当时写完这篇调查报告,给同事看了后,他觉得蛮喜欢,然后想把这篇文章修改一下,然后往期刊上发表出来,我也答应了.但是后来此事却因各种原因一再被耽搁拖延,转眼就是一年多过去了,估计已经被遗忘了吧,直到前几天自己的清理电脑的时候,在硬盘里面发现了它,这篇文章确实在当时花了自己不少心血,实在是不忍心让它在自己的硬盘里面"终老"下去了.所以对不住了,我还是让它发挥点余热吧. 由于这篇文章是…
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 参考资料 https://www.cnblogs.com/webRobot/p/9034079.html 逻辑回归重点: 1.sigmoid函数(…
首先听一下官方的话: https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html 我尝试了使用Java作为Client向ES操作,结果发现这个家伙要引入大量的JAR包,而且还必须是JDK1.8!!!!!我只好使用python操作ES写入和操作数据了. 1.创建mapping 参考地址: https://www.elastic.co/guide/en/elasticsearch/reference/curre…
数据来源:http://www.acpaa.cn/ 目前事务所的信息没有做反爬限制,还是很容易拿到数据的 没有用html解析工具,直接上正则,结果就是需要处理很多乱七八糟的空格...为了能将日期顺利的插入到数据库,做了很多转换.这个代码没用多线程. 下面是代码,Python版本为3.5,需要安装pymsql,mysql # -*- coding: UTF-8 -*- import http.client import re import pymysql def saveAgency(code,…
Chapter 4 1. 最小二乘和正规方程 1.1 最小二乘的两种视角 从数值计算视角看最小二乘法 我们在学习数值线性代数时,学习了当方程的解存在时,如何找到\(\textbf{A}\bm{x}=\bm{b}\)的解.但是当解不存在的时候该怎么办呢?当方程不一致(无解)时,有可能方程的个数超过未知变量的个数,我们需要找到第二可能好的解,即最小二乘近似.这就是最小二乘法的数值计算视角. 从统计视角看最小二乘法 我们在数值计算中学习过如何找出多项式精确拟合数据点(即插值),但是如果有大量的数据点,…
http://blog.sina.com.cn/s/blog_4cf8aad30102uylf.html <量化投资:以MATLAB为工具>连载(1)基础篇-N分钟学会MATLAB(上) <量化投资:以MATLAB为工具>简介 <量化投资:以MATLAB为工具>是由电子工业出版社(PHEI)下属旗舰级子公司——北京博文视点资讯有限公司出版的<量化投资与对冲基金丛书>之一,丛书主编为丁鹏博士,<量化投资:以MATLAB为工具>由李洋(faruto)…
<div id=demo style="overflow:hidden; width:128px; height:300px;"> <div id=demo1> <table width=--06到</td><td --25到</td><td --10到</td><td --26到</td><td --27到</td><td --24到</td><t…
谱聚类(Spectral Clustering)详解 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的.其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized cut). 图1 谱聚类无向图划分…
这个是学校的SRP项目.去年12月做了大概3周. 直接摘个人总结报告如下: 在本次“学生研究计划”项目,研究课题是“基于JAVA的智能家居公众号”.根据课题要求之一:以微信作为媒介,实现智能设备的远程控制.为确定系统总体架构,我先是寻找到了微信硬件平台,并阅读其开发文档中介绍的三种方案,经过初步了解和后来的实际尝试,最终确定应该使用设备商云连接硬件云平台的方案.在设备端方面,我寻找到一种性价比高的wifi开发模块ESP8266,并了解到了乐鑫官网和安信可官网,找到了NONOS-SDK,并在微信硬…
option = { title: { text: '' }, tooltip: {}, animationDurationUpdate: 1500, animationEasingUpdate: 'quinticInOut', label: { normal: { show: true, textStyle: { fontSize: 12 }, } }, legend: { x: "center", show: false, data: ["朋友", "…
随着科技的迅猛发展,人工智能技术也逐渐取得了各个突破.自20世纪70年代以来,作为计算机学科的一个分支,人工智能就被列为世界三大尖端技术之一.近年来,阿尔法狗战胜世界第一柯洁,使人工智能再度迎来新的热潮. 人工智能发展猛烈,大数据变革浪潮澎湃汹涌,云计算开启的技术民主进程超越想象.随着人工智能由专业应用向通用应用的发展,AI越来越多的被应用于金融.制造.交通.物流.能源.零售等各个领域,它与各个行业的融合,自然也驱动着新一轮工业革命的到来. 12月6日,ABC Summit  2018云智峰会将…