Massive Data Mining学习记录
第一周:
学习PageRank,
知识点:每个节点的权值由其他节点的投票决定,所有节点的权值和为1
当节点很多时候必须转换成矩阵运算来计算节点的最终值,由马尔可夫链可以证明,这个值可以迭代得到
问题:可能出现无出度节点,导致总体失衡
解决办法:每个节点的入读权值矩阵M' = 0.8*M + 0.2*1/n,以0.2的概率跳出当前节点
第二周:
minhashing h(i) 随机排列后,一列数据的第一个不为1的下标
用普通hash替代每个minhashing(hash出每行每列,在移动行中,确定这一列的某hash的第一个下标)
LSH:使用hash应用到col,找出相似对
方法:把一列signature分成很多band,对每个band的r行进行hash,从而分到bucket。
这样有相似signature的列更容易分到同一个bucket中。
使用threshold t
Frequent Set:
从frequent items,筛选frequent pairs,再向其他扩展。
PCY:在第一次frequent items的时候,存储hash pair的count,满足count的bit个数为1否则为0
Simple: 随机取出Sample组判断frequent set
SON:顺序读取一部分,进行Simple,不会出现false negative
Toivonen :利用negative border防止丢失frequent set,如果有negative border被发现为frequent set,需要重新计算
negative border:所有直接子集都frequent
Week 2C Q1:参考这里,Total Memory Needed for the Triples = 3X = 3M(1+P/S) = T = (31/32)S,其中S=S/4(转换到integer)
第三周:
图,
使用Spectral Clustering on the Laplacian matrix来进行cluster,重要的点是找到second eigenvector(first is always 0,second is the eigenvalue second min)
stream:
DGIM(计算最近有多少个1):使用多个2^n组合而非bits来计数,在2^x有3个时,合并成2^(x+1),最大的2^n利用估算来统计
Sampling(取样本):将key hash到0-B-1数组,取h(key) <= t, t不断减小以丢弃存不下的Sample
Bloom Filter(过滤已经见过的):使用hash将key hash到n bucket也就是n bits,不会有false negative,但是又false positive
Flagolet-Martin lgorithm(计算不同值出现的次数):利用多个hash统计,得到每个hash的尾部0个数R,估算单个hash结果为2^R.将hash结果按照大小排列后分组计算平均值,对所有组的平均值取中位数。
week3 A q4 (defn ha [x] (rem (+ 7 (* 3 x)) 11))
(defn ham [coll] (map #(Integer/toBinaryString (ha %)) coll))
AMS(计算surprise number):随机取x个timestam,计算每个t位置元素到目前的出现次数m,X=n(2m-1),最终结果为所有t的X的平均数
第四周:Recommendation Systems
ContentBased:需要得到Item Profiles,可以由用户评分等得到,也可以由Content中抽取Feature来组成
Colaborating filter:对于用户根据item选出相关用户,推荐相关产品。或者对于item根据用户选出相关item,推荐给用户。
item要比用户关联度更高,因为item更单纯。
降维的方法,可以利用基向量表示高纬度数据,忽略不重要的基对应的数据
SVD:将矩阵解构(decomp-svd)成S U V三个矩阵,分别代表一些概念,可以相乘得到原矩阵
第五周:
cluster的方法:
Hierarchical Clustering,最好O(n^2*logn)
k-means:k为预选的中心点,多次循环调整中心点直到不再变化。可以用sample的HC选出来中心点个数。
BFR:要求正态分布,第一次获取:Discard Set,Compressed Set, Retained Set。第二次对RS进行HC,再将CS
Cure:第一次从Sample中选出相对最远的几个点做代表。第二次,根据代表来计算分布情况。
第六周:
SVD:找出最大margin的w向量(N维度需要N+1个点来support 这个分割线,这N+1个点叫做support vector),如果需要容忍错误,需要使用迭代的方式找到最优解
SVD的理解:从高维度里提取概念,通过概念将高维度合并到底维度。M= U sigma V^T
U 代表每个用户对应的合并后的分值
sigma 提取出来的概念
V^T 代表每一项与概念的相关程度
Decision Tree:生成各个节点的决策树,可以使用MapReduce
MapReduce可以解决矩阵相乘的问题
Massive Data Mining学习记录的更多相关文章
- Spring Data JPA 学习记录1 -- 单向1:N关联的一些问题
开新坑 开新坑了(笑)....公司项目使用的是Spring Data JPA做持久化框架....学习了一段时间以后发现了一点值得注意的小问题.....与大家分享 主要是针对1:N单向关联产生的一系列问 ...
- 论文翻译:Data mining with big data
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and dat ...
- Data Mining的十种分析方法——摘自《市场研究网络版》谢邦昌教授
Data Mining的十种分析方法: 记忆基础推理法(Memory-Based Reasoning:MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属 ...
- 搭建Data Mining环境(Spark版本)
前言:工欲善其事,必先利其器.倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来 ...
- [Django]模型学习记录篇--基础
模型学习记录篇,仅仅自己学习时做的记录!!! 实现模型变更的三个步骤: 修改你的模型(在models.py文件中). 运行python manage.py makemigrations ,为这些修改创 ...
- Matlab 进阶学习记录
最近在看 Faster RCNN的Matlab code,发现很多matlab技巧,在此记录: 1. conf_proposal = proposal_config('image_means', ...
- 在Ubuntu Server下搭建LAMP环境学习记录
更新于2015/6/16日,因图片地址失效,请在此地址查看:http://note.youdao.com/share/?id=1c249ae6dc6150cbf692adec67b23a33& ...
- Weka 3: Data Mining Software in Java
官方网站: Weka 3: Data Mining Software in Java 相关使用方法博客 WEKA使用教程(经典教程转载) (实例数据:bank-data.csv) Weka初步一.二. ...
- 【转】BLE 学习记录
原文网址:http://m.blog.csdn.net/blog/chiooo/43985401 BLE 学习记录 ANROID BLE 开发,基于 bluetoothlegatt 分析 mBluet ...
随机推荐
- WC2007 石头剪刀布 数学+最小费用最大流
题面: 有N个人参加一场比赛,赛程规定任意两个人之间都要进行一场比赛:这样总共有N*(N-1)/2场比赛.比赛已经进行了一部分,我们想知道在极端情况下,比赛结束后最多会发生多少剪刀石头布情况.即给出已 ...
- [GXOI/GZOI2019]宝牌一大堆(dp)
luogu bzoj 这个麻将题还算挺友善的,比隔壁zjoi的要好得多... 比较正常的做法是五维dp 但事实上六维dp也是完全不会被卡的 七对子选权值最高的七个,国士无双直接$13^2$暴力 ...
- [Python3网络爬虫开发实战] 7.3-Splash负载均衡配置
用Splash做页面抓取时,如果爬取的量非常大,任务非常多,用一个Splash服务来处理的话,未免压力太大了,此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上.这相当于多台机器多个服务共同参与 ...
- ruby cucumber安装
创建rails工程
- 本地==〉Github(push)
[概述] Git中的项目是本地的,为了可以协同工作.需要将项目推送到GitHub服务器上. [步骤] 1) 第一步:创建项目 2) 第二步:在github上创建一个同名的空项目 ①选择Your rep ...
- word 给段落添加背景色
word 2007 单击"页面布局"选项卡->单击"页面背景"一栏中的"页面边框"->(弹出边框与底纹对话框)->点击底纹 ...
- [BZOJ1029] [JSOI2007]建筑抢修(贪心 + 优先队列)
传送门 把数据存在结构体中,至于怎么贪心? 肯定会有些想法,正确错误先不必说,先来试一试. 1.按照 t2 为第一关键字从小到大排,按照 t1 为第二关键字从小到大排 这个显然错,比如后面有个数的 t ...
- [luoguP1972] [SDOI2009]HH的项链(莫队 || 树状数组 || 主席树)
传送门 莫队基础题,适合我这种初学者. 莫队是离线算法,通常不带修改,时间复杂度为 O(n√n) 我们要先保证通过 [ l , r ] 求得 [ l , r + 1 ] , [ l , r - 1 ] ...
- 【判断二分图】C. Catch
https://www.bnuoj.com/v3/contest_show.php?cid=9154#problem/C [题意] 给定一个无向图,给定小偷的起始位置 从这个起始位置开始,小偷可以在单 ...
- POJ3107 树的重心
题解:只不过如果有求多个点,输出所有方案. #include<cstring> #include<cmath> #include<iostream> #includ ...