Tinghua Data Mining
Learning Resources
书籍:

期刊:

业界先驱:

开阔视野,掌握业界最新动态。
工具:

数据挖掘是很多学科的综合体:

甭管叫什么名字,归根到底都是数据挖掘:

Comprehensive Learning:

Learning != Listening


数据

What is Big Data?

Big Data:

Data Mning


Data Integration & Analasis

The Process of Data Mining

DM Techniques -- Classification

Classification Boundaries

Classification -- Overfitting

Confusion Matrix

Receive Operating Charactics
男人 女人 身高

DM Techniques -- Clusting

Hierrachical Clusting
不同层面分组

Association Rule
关联规则

DM Techniques -- Regression
参数和变量之间是线性的 不是说最终的表达式线性的

Overfitting -- Regression
死记硬背
既没有那么简单 也没有那么复杂

Seeing is Knowing
耳听为虚 眼见为实 高维数据直接很难理解 发挥人的知识的储备 主观能动性 领域知识的综合理解能力 可视化 对于用户来说 挖掘出来的东西给 可解释性

Performance Dashborad
Tableau

可视化工具软件

Data Preprocessing

Gabage In Gabage Out
脏数据输入 一定会脏数据输出
预处理很重要 准确性 时效性 完整性

原材料要好 打地基 否则外面再modern也是豆腐渣工程
Privacy Protection

Cloud Computation

买 租 服务器

把软硬件转换成一种服务
Parrelal Compututing

The Big Picture
数据挖掘三要素:数据,模型,算力(支撑平台)

No Free Lunch
分类 聚类 告诉我一个哪一个算法不就行了 不行 没有那么好的事 参数 经验尝试

拿到一个问题,先找简单的,说不定可以,够用就行了。没有必要一味地去追求看起来很复杂或者很高端的算法。
量化交易:克服人内在的性格弱点。更加理性。
Grouping
正相关,负相关,可能存在内在的分组的情形。

看问题要全面

Tinghua Data Mining的更多相关文章
- Tinghua Data Mining 9
关联规则,营销购物 空缺 协同过滤
- Tinghua Data Mining 8
聚类 Clustering 根据评论信息做一些聚类,挖掘关系. bug 期望最大法 peek高峰的个数与高斯函数的个数不一定相同 Z隐含参数 不需要求 每个点属于哪个簇 类似于辅助线 跳板 借力 模型 ...
- Tinghua Data Mining 7
SVM B分割得更加无偏 比较公平 卡着分界面的点叫支持向量,就好比托着分界面 支持向量决定了可移动的范围,这个范围就叫margin 分界面可移动的距离 前提是先要被分对 对偶问题一般是不等价的,但是 ...
- Tinghua Data Mining 6
Networks 多层感知机 不是说这个神经网络要与人的大脑神经完全相似,也不是说要多么的强大,而是在一定程度上模拟了人脑神经元的能力,就足够了 为什么要w0呢,因为没有w0超平面一定会经过原点,所以 ...
- Tinghua Data Mining 5
ID3 ID3算法倾向于分的很细的变量 C4.5加入分母为惩罚量
- Tinghua Data Mining 4
贝叶斯 决策树 知道三文鱼和金枪鱼颜色 让你去猜 B命中的概率不能直接减去四分之三 因为有可能同时命中 A B 命中不是互斥事件 即便体检报告是阳性,真正得癌症的概率也很小,只有0.21 绝大多数的阳 ...
- Tinghua Data Mining 3
特征选择 男女身高 男女抽烟 先验分布 熵 衡量系统的不确定性 属性的价值 降低了不确定性 降低的幅度越高越好 主成分分析 旋转是的数据间的correlation消失掉 Q是正交阵 七长八短,长宽相关 ...
- Tinghua Data Mining 2
数据预处理 https://www.bilibili.com/video/av23933161/?p=11 http://www.xuetangx.com/courses/course-v1:Tsin ...
- Distributed Databases and Data Mining: Class timetable
Course textbooks Text 1: M. T. Oszu and P. Valduriez, Principles of Distributed Database Systems, 2n ...
随机推荐
- bzoj4486: [Jsoi2015]串分割
肉丝哥哥钦定好题 话说我的blog现在为什么到处都是肉丝哥哥 先来想一个弱化版,假如能够n整除K怎么做? 把每个数字看成一个字符串,按字典序排名,这个可以后缀数组解决,然后暴力枚举每种情况,O(1)判 ...
- 人生苦短之Python枚举类型enum
枚举类型enum是比较重要的一个数据类型,它是一种数据类型而不是数据结构,我们通常将一组常用的常数声明成枚举类型方便后续的使用.当一个变量有几种可能的取值的时候,我们将它定义为枚举类型.在Python ...
- SystemV和BSD的区别
目前,Unix操作系统不管其内核如何,其操作风格上主要分为SystemV(目前一般采用其第4个版本SVR4)和BSD两种.其代表操作系统本别是Solaris和FreeBSD.当然,在SunOS4(So ...
- PHP上传文件时,文件过大$_FILES为空
在php中判断上传文件的大小,但是文件一但过大,print_r($_FILES);的值就变为null了,有时候大家会遇到这么一个问题,上传小文件时,PHP能正常获取到,但是文件一超过8M就变为空了,我 ...
- table内 获取同一行 其他列的value
table内 获取同一行 其他列的value function move(obj,ud){ var code = document.getElementById("reportName&q ...
- Tensorflow和Caffe 简介
TensorFlow TensorFlow 是相对高阶的机器学习库,用户可以方便地用它设计神经网络结构,而不必为了追求高效率的实现亲自写 C++或 CUDA 代码.它和 Theano 一样都支持自动求 ...
- StarUML中时序图
StarUML中时序图 在看时序图的例子的时候,发现有些的时序图上有小人的图标,可是一些UML工具却没有找到小人的图标,这让我很闹心,一直没解决,今天终于将该问题给解决了.解决这个问题来自于网上的一个 ...
- <正则吃饺子> :关于Guava中 Joiner 和 Splitter 的简单使用
在现在项目中经常看到 这两个类的使用,开始时候不明白具体是做的什么事情,就单独拿出来学习下了,参照了网上的博文,这里主要是简单的讲讲用法. 具体对这两个类,不做过多介绍,有个在线文档,需要的可以自己去 ...
- Subresource Integrity(子资源一致性)和JS DDos 攻击
以下文章转载自 http://www.cnblogs.com/zoucaitou/p/4505483.html 和 http://www.puronglong.com/blog//2015/04/12 ...
- CodeForces Gym 100685I Innovative Business (贪心)
题意:给定一条路的长和宽,然后给你瓷砖的长和宽,你只能横着或者竖着铺,也可以切成片,但是每条边只能对应一条边,问你最少要多少瓷砖. 析:先整块整块的放,然后再考虑剩下部分,剩下的再分成3部分,先横着, ...