<数据挖掘导论>读书笔记4--其他分类技术

1.基于规则的分类器 2.最近邻分类器 3.贝叶斯分类器 4.人工神经网络 5.支持向量机 6.组合方法 7.不平衡类问题 8.多类问题…

数据预处理: 1.聚集:将两个或者多个对象合并成单个对象. 2.抽样:一种选择数据对象子集进行分析的常用方法.抽象方法:简单随机抽样和渐进抽样 3.维度约:我觉得翻译的不好,英文明细是降维.降维技术:1.PCA(Principal components Analysis)是一种用于连续属性的线性代数技术,它找出新的属性,这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差.2.SVD(Singular Value Decomposition) 4.特征子集选择 a:嵌入方法 b:…

<数据挖掘导论>读书笔记11异常检测

异常检测的目标是发现与大部分其他对象不同的对象.通常,异常对象被称作离群点(Outlier). 异常检测也称偏差检测(Deviation detection),因为异常对象的属性值明显偏离期望的或者常见的属性值. 异常检测也称为例外挖掘,因为异常在某种意义上是例外的. 应用场景: 欺诈检测入侵检测生态系统失调公共卫生医疗异常检测方法基于模型的技术基于邻近度的技术基于密度的技术统计方法: 检测一元正态分布中的离群点,常用方法是高斯正态分布多元正态分布的离群点,Mahalanob…

<数据挖掘导论>读书笔记10聚类分析续

基于原型的聚类模糊c均值使用模糊逻辑和模糊集合论的概念,提出一种聚类方案,它很像K均值,但是不需要硬性地将对象分派到一个簇中.模糊c均值算法有时也称为FCM 混合模型聚类采取这样的访谈,簇集合可以用一个混合分布建模,每个分布对应一个簇.EM(Expectation-Maximization)期望最大化算法基于自组织映射SOM的聚类方法在一个框架内进行聚类,该框架要求簇具有预先指定的相互联系.SOFM/SOM 基于密度的聚类基于网格的聚类,其基本思想是将每个属性的可能值分割成许多相邻的区间,…

<数据挖掘导论>读书笔记9聚类分析

1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组. 其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的. 2.聚类分析的重要技术 K均值:K均值是基于原型的.划分的聚类技术.它试图发现用户指定个数k的簇(由质心代表) 邻近度函数质心目标函数曼哈顿距离L1 中位数最小化对象到其簇质心的L1距离和平方欧几里得距离L2平方均值最小化对象到其簇质心的L2距离的平方和余弦均值最大化对象与其簇质心的余弦相似度和 Bregman散度…

<数据挖掘导论>读书笔记7 Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.其核心是基于两阶段频集思想的递推算法.该关联规则在分类上属于单维.单层.布尔关联规则.在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样.然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度.然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义.一…

<数据挖掘导论>读书笔记3--分类

1.分类的基本概念分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y 目标函数也称为分类模型. 2. 解决分类问题的一般方法: 决策树分类法基于规则的分类法神经网络支持向量机朴素贝叶斯分类法 3.决策树归纳通常采用贪心策略,在选择划分数据的属性时,采用一系列局部最优决策来构造决策树,hunt算法就是一种这样的算法. Hunt算法是许多决策树算法的基础,包括ID3,C4.5,CART等决策树归纳的设计问题如何分裂训练记录?选择最佳划分的度量,增益是一…

<数据挖掘导论>读书笔记2

1.频率和众数 frequency(vi)=具有属性值vi的对象数/m 分类属性的众数mode是具有最高频率的值. 2.百分位数 3.位置度量:均值和中位数 4.散布度量:极差和方差绝对平均偏差 AAD:absolute average deviation 中位数绝对偏差MAD:median absolute deviation 四分位数极差IQR:interquartile range 5.多元汇总统计 6.汇总数据的其他方法:倾斜度…

<数据挖掘导论>读书笔记8FP树

1FP树…

<数据挖掘导论>读书笔记6关联分析的高级概念

处理联系属性: 基于离散化的方法基于统计学的方法非离散化方法处理概念分层定义在一个特定领域的各种实体或者概念的多层组织.概念分层可以用有向无环图DAG来标示. 序列模式可选计数方案 COBJ CWIN CMINWIN CDIST_O CDIST 子图模式…

<数据挖掘导论>读书笔记5关联分析的基本概念和算法

关联规则的强度可以用support度和confidence(置信)度来度量关联规则发现给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值. 关联规则挖据频繁项集产生:其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称之为强规则. 算法与数据结构 Apriori DIC 树投影 FP树…

深入探索Android热修复技术原理读书笔记 —— 资源热修复技术

该系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍深入探索Android热修复技术原理读书笔记 -- 代码热修复技术 1 普遍的实现方式 Android资源的热修复,就是在app不重新安装的情况下,利用下发的补丁包直接更新本app中的资源. 目前市面上的很多资源热修复方案基本上都是参考了 Instant Run的实现. 简要说来,Instant Run中的资源热修复分为两步: 构造一个新的 AssetManager,并通过反射调用 addAssetPath,把这…

深入探索Android热修复技术原理读书笔记 —— 代码热修复技术

在前一篇文章深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍中,对热修复技术进行了介绍,下面将详细介绍其中的代码修复技术. 1 底层热替换原理在各种 Android 热修复方案中,Andfix 的即时生效令人印象深刻,它稍显另类, 并不需要重新启动,而是在加载补丁后直接对方法进行替换就可以完成修复,然而它的使用限制也遭遇到更多的质疑. 1.1 Andfix 回顾我们先来看一下,为何唯独 Andfix 能够做到即时生效呢? 原因是这样的,在 app 运行到一半的时候,所有需…

【读书笔记】iOS-微定位技术

在大型商场,医院或是大楼里,你是否曾经有过找不到想去的地方的经历呢?这种情况下采用传统的定位方法就有些力不从心了.首先这些地方不能采用GPS定们,而Wifi和蜂窝式移动电话基站定位误差比较大.这种情况下的定位就叫”微定位“技术 . 微定位技术中一个比较重要的概念-地理围栏.地理围栏是LBS的一种新应用,就是用一个虚拟的栅栏围出一个虚拟地理边界.当手机进入,离开某个特定地理区域,或在该区域内活动时,手机可以接收自动通知和警告.有了地理围栏技术,位置社交网站主可以帮助用户进入某一地区时自动登记.…

[hadoop读书笔记] Hadoop下各技术应用场景

1.数据采集对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集. 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库.对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候,往往flume并不容易处理,这也是为何可以采用Pig来做进一步复杂的dat…

Python深度学习读书笔记-6.二分类问题

电影评论分类:二分类问题加载 IMDB 数据集 from keras.datasets import imdb (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) 将整数序列编码为二进制矩阵(One-hot编码) import numpy as np def vectorize_sequences(sequences, dimension=10000): resul…

深入探索Android热修复技术原理读书笔记 —— so库热修复技术

热修复系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍深入探索Android热修复技术原理读书笔记 -- 代码热修复技术深入探索Android热修复技术原理读书笔记 -- 资源热修复技术 1. SO库加载原理 Java Api 提供以下两个接口加载一个 so 库 System. loadLibrary (String libName):传进去的参数:so 库名称, 表示的 so 库文件,位于apk压缩文件中的 libs 目录,最后复制到 apk 安装目录下. S…

iPhone与iPad开发实战读书笔记

iPhone开发一些读书笔记手机应用分类1.教育工具2.生活工具3.社交应用4.定位工具5.游戏6.报纸和杂志的阅读器7.移动办公应用8.财经工具9.手机购物应用10.风景区相关应用11.旅游相关的应用12.导航工具13.企业应用 Delegation模式——delegation(委托)模式就是使用回调机制 NSData.NSMutableData——存放二进制数据的数据类型对于画图,你首先需要重载drawRect方法.UIKit提供了如下方法:UIRectFill(CGRect rect)…

《Head First 设计模式》读书笔记

目录 <Head First 设计模式>读书笔记创建模式结构模式行为模式用思维导图记录的读书笔记. <Head First 设计模式>读书笔记模式的分类遵循<设计模式>设定的三大类别: 创建模式结构模式行为模式创建模式结构模式行为模式…

Thinking In Java读书笔记--对象导论

Thinking In Java读书笔记--对象导论[对象]服务提供者==>将对象看做一个服务提供者[程序员分类][类创造者]/[客户端程序员] [访问控制存在的原因?][1]客户端程序员无法触及他们不该触及的部分[2]允许库设计者/类创造者改变类的内部工作方式而不用担心会影响客户端程序员 [Java访问指定词,access specifier]public private protected [组合,composition][聚合,aggregation][has-a,拥有关系] [继承]==…