Massive Data Mining学习记录

第一周：

学习PageRank，

知识点：每个节点的权值由其他节点的投票决定，所有节点的权值和为1

当节点很多时候必须转换成矩阵运算来计算节点的最终值，由马尔可夫链可以证明，这个值可以迭代得到

问题：可能出现无出度节点，导致总体失衡

解决办法：每个节点的入读权值矩阵M' = 0.8*M + 0.2*1/n，以0.2的概率跳出当前节点

第二周：

minhashing h(i) 随机排列后，一列数据的第一个不为1的下标

用普通hash替代每个minhashing（hash出每行每列，在移动行中，确定这一列的某hash的第一个下标）

LSH：使用hash应用到col，找出相似对

方法：把一列signature分成很多band，对每个band的r行进行hash，从而分到bucket。

这样有相似signature的列更容易分到同一个bucket中。

使用threshold t

Frequent Set:

从frequent items，筛选frequent pairs，再向其他扩展。

PCY：在第一次frequent items的时候，存储hash pair的count，满足count的bit个数为1否则为0

Simple: 随机取出Sample组判断frequent set

SON：顺序读取一部分，进行Simple，不会出现false negative

Toivonen ：利用negative border防止丢失frequent set，如果有negative border被发现为frequent set，需要重新计算

negative border：所有直接子集都frequent

Week 2C Q1:参考这里，Total Memory Needed for the Triples = 3X = 3M(1+P/S) = T = (31/32)S，其中S=S/4（转换到integer）

第三周：

图，

使用Spectral Clustering on the Laplacian matrix来进行cluster，重要的点是找到second eigenvector（first is always 0，second is the eigenvalue second min）

stream：

DGIM(计算最近有多少个1)：使用多个2^n组合而非bits来计数，在2^x有3个时，合并成2^(x+1)，最大的2^n利用估算来统计

Sampling（取样本）：将key hash到0-B-1数组，取h(key) <= t, t不断减小以丢弃存不下的Sample

Bloom Filter（过滤已经见过的）：使用hash将key hash到n bucket也就是n bits，不会有false negative，但是又false positive

Flagolet-Martin lgorithm（计算不同值出现的次数）：利用多个hash统计，得到每个hash的尾部0个数R，估算单个hash结果为2^R.将hash结果按照大小排列后分组计算平均值，对所有组的平均值取中位数。

week3 A q4

(defn ha [x] (rem (+ 7 (* 3 x)) 11))

(defn ham [coll] (map #(Integer/toBinaryString (ha %)) coll))

AMS(计算surprise number):随机取x个timestam，计算每个t位置元素到目前的出现次数m，X=n(2m-1),最终结果为所有t的X的平均数

第四周：Recommendation Systems

ContentBased：需要得到Item Profiles，可以由用户评分等得到，也可以由Content中抽取Feature来组成

Colaborating filter：对于用户根据item选出相关用户，推荐相关产品。或者对于item根据用户选出相关item，推荐给用户。

item要比用户关联度更高，因为item更单纯。

降维的方法，可以利用基向量表示高纬度数据，忽略不重要的基对应的数据

SVD：将矩阵解构（decomp-svd）成S U V三个矩阵，分别代表一些概念，可以相乘得到原矩阵

第五周：

cluster的方法：

Hierarchical Clustering，最好O(n^2*logn)

k-means:k为预选的中心点，多次循环调整中心点直到不再变化。可以用sample的HC选出来中心点个数。

BFR：要求正态分布，第一次获取：Discard Set，Compressed Set， Retained Set。第二次对RS进行HC，再将CS

Cure：第一次从Sample中选出相对最远的几个点做代表。第二次，根据代表来计算分布情况。

第六周：

SVD：找出最大margin的w向量（N维度需要N+1个点来support 这个分割线，这N+1个点叫做support vector），如果需要容忍错误，需要使用迭代的方式找到最优解

SVD的理解：从高维度里提取概念，通过概念将高维度合并到底维度。M= U sigma V^T

U 代表每个用户对应的合并后的分值

sigma 提取出来的概念

V^T 代表每一项与概念的相关程度

Decision Tree：生成各个节点的决策树，可以使用MapReduce

MapReduce可以解决矩阵相乘的问题

Massive Data Mining学习记录的更多相关文章

Spring Data JPA 学习记录1 -- 单向1:N关联的一些问题
开新坑开新坑了(笑)....公司项目使用的是Spring Data JPA做持久化框架....学习了一段时间以后发现了一点值得注意的小问题.....与大家分享主要是针对1:N单向关联产生的一系列问 ...
论文翻译：Data mining with big data
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授
Data Mining的十种分析方法: 记忆基础推理法(Memory-Based Reasoning:MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属 ...
搭建Data Mining环境（Spark版本）
前言:工欲善其事,必先利其器.倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来 ...
[Django]模型学习记录篇--基础
模型学习记录篇,仅仅自己学习时做的记录!!! 实现模型变更的三个步骤: 修改你的模型(在models.py文件中). 运行python manage.py makemigrations ,为这些修改创 ...
Matlab 进阶学习记录
最近在看 Faster RCNN的Matlab code,发现很多matlab技巧,在此记录: 1. conf_proposal = proposal_config('image_means', ...
在Ubuntu Server下搭建LAMP环境学习记录
更新于2015/6/16日,因图片地址失效,请在此地址查看:http://note.youdao.com/share/?id=1c249ae6dc6150cbf692adec67b23a33& ...
Weka 3: Data Mining Software in Java
官方网站: Weka 3: Data Mining Software in Java 相关使用方法博客 WEKA使用教程(经典教程转载) (实例数据:bank-data.csv) Weka初步一.二. ...
【转】BLE 学习记录
原文网址:http://m.blog.csdn.net/blog/chiooo/43985401 BLE 学习记录 ANROID BLE 开发,基于 bluetoothlegatt 分析 mBluet ...

随机推荐

TP-LINK配置公网映射
公室里的主机获取到的地址是路由器分配的私网地址,通常是192.168.1.x,只有挂在同一个路由器底下的其它主机可以访问,路由器外面的主机是无法访问的.但是有时候我们希望把办公室内的服务器上的服务暴露 ...
等待某（N）个线程执行完再执行某个线程的几种方法（Thread.join(),CountDownLatch,CyclicBarrier,Semaphore）
1.main线程中先调用threadA.join() ,再调用threadB.join()实现A->B->main线程的执行顺序调用threadA.join()时,main线程会挂起,等 ...
jupyter 教程
官网: http://jupyter.org/
C++迭代器之'插入迭代器
1. 定义插入型迭代器(Insert Iterator),又叫插入器(Inserter). 2. 作用插入迭代器的主要功能为把一个赋值操作转换为把相应的值插入容器的操作.算法库对所有在容器上的操作 ...
一个IT工薪族的4年奋斗成果
关于标题:为了方便传播,使用了"最简化"的一段. 过段时间,考虑改为"大学毕业4年-回顾和总结(11):一个IT工薪族的4年奋斗成果(2012年6月17日~2016年6 ...
ORACLE数据库查看执行计划的方法
一.什么是执行计划(explain plan) 执行计划:一条查询语句在ORACLE中的执行过程或访问路径的描述. 二.如何查看执行计划 1: 在PL/SQL下按F5查看执行计划.第三方工具toad等 ...
IE & table & border & border-collapse & bug
shit IE table border bug & border-collapse bug > `border-collapse: collapse;` table { width: ...
Codeforces Round #259 (Div. 2) D
D. Little Pony and Harmony Chest time limit per test 4 seconds memory limit per test 256 megabytes i ...
【01染色法判断二分匹配+匈牙利算法求最大匹配】HDU The Accomodation of Students
http://acm.hdu.edu.cn/showproblem.php?pid=2444 [DFS染色] #include<iostream> #include<cstdio&g ...
JVM 总结
面试 java 虚拟机 jvm 基础 jvm Write Once Run EveryWhere >jar 包可以在任何兼容jvm上运行 >jvm 适配器屏蔽掉底层差异 >内存管理 ...

Massive Data Mining学习记录

Massive Data Mining学习记录的更多相关文章

随机推荐

热门专题