Learning Resources

书籍:

期刊:

业界先驱:

开阔视野,掌握业界最新动态。

工具:

数据挖掘是很多学科的综合体:

甭管叫什么名字,归根到底都是数据挖掘:

Comprehensive Learning:

Learning != Listening

数据

What is Big Data?

Big Data:

Data Mning

Data Integration & Analasis

The Process of Data Mining

DM Techniques -- Classification

Classification Boundaries

Classification -- Overfitting

Confusion Matrix

Receive Operating Charactics

男人 女人 身高

DM Techniques -- Clusting

Hierrachical Clusting

不同层面分组

Association Rule

关联规则

DM Techniques -- Regression

参数和变量之间是线性的 不是说最终的表达式线性的

Overfitting -- Regression

死记硬背

既没有那么简单 也没有那么复杂

Seeing is Knowing

耳听为虚 眼见为实 高维数据直接很难理解 发挥人的知识的储备 主观能动性 领域知识的综合理解能力 可视化 对于用户来说 挖掘出来的东西给 可解释性

Performance Dashborad

Tableau

可视化工具软件

Data Preprocessing

Gabage In Gabage Out

脏数据输入 一定会脏数据输出

预处理很重要 准确性 时效性 完整性

原材料要好 打地基 否则外面再modern也是豆腐渣工程

Privacy Protection

Cloud Computation

买 租 服务器

把软硬件转换成一种服务

Parrelal Compututing

The Big Picture

数据挖掘三要素:数据,模型,算力(支撑平台)

No Free Lunch

分类 聚类 告诉我一个哪一个算法不就行了 不行 没有那么好的事 参数 经验尝试

拿到一个问题,先找简单的,说不定可以,够用就行了。没有必要一味地去追求看起来很复杂或者很高端的算法。

量化交易:克服人内在的性格弱点。更加理性。

Grouping

正相关,负相关,可能存在内在的分组的情形。

看问题要全面

Tinghua Data Mining的更多相关文章

  1. Tinghua Data Mining 9

    关联规则,营销购物 空缺 协同过滤

  2. Tinghua Data Mining 8

    聚类 Clustering 根据评论信息做一些聚类,挖掘关系. bug 期望最大法 peek高峰的个数与高斯函数的个数不一定相同 Z隐含参数 不需要求 每个点属于哪个簇 类似于辅助线 跳板 借力 模型 ...

  3. Tinghua Data Mining 7

    SVM B分割得更加无偏 比较公平 卡着分界面的点叫支持向量,就好比托着分界面 支持向量决定了可移动的范围,这个范围就叫margin 分界面可移动的距离 前提是先要被分对 对偶问题一般是不等价的,但是 ...

  4. Tinghua Data Mining 6

    Networks 多层感知机 不是说这个神经网络要与人的大脑神经完全相似,也不是说要多么的强大,而是在一定程度上模拟了人脑神经元的能力,就足够了 为什么要w0呢,因为没有w0超平面一定会经过原点,所以 ...

  5. Tinghua Data Mining 5

    ID3 ID3算法倾向于分的很细的变量 C4.5加入分母为惩罚量

  6. Tinghua Data Mining 4

    贝叶斯 决策树 知道三文鱼和金枪鱼颜色 让你去猜 B命中的概率不能直接减去四分之三 因为有可能同时命中 A B 命中不是互斥事件 即便体检报告是阳性,真正得癌症的概率也很小,只有0.21 绝大多数的阳 ...

  7. Tinghua Data Mining 3

    特征选择 男女身高 男女抽烟 先验分布 熵 衡量系统的不确定性 属性的价值 降低了不确定性 降低的幅度越高越好 主成分分析 旋转是的数据间的correlation消失掉 Q是正交阵 七长八短,长宽相关 ...

  8. Tinghua Data Mining 2

    数据预处理 https://www.bilibili.com/video/av23933161/?p=11 http://www.xuetangx.com/courses/course-v1:Tsin ...

  9. Distributed Databases and Data Mining: Class timetable

    Course textbooks Text 1: M. T. Oszu and P. Valduriez, Principles of Distributed Database Systems, 2n ...

随机推荐

  1. iOS开发过程中 xcode文件与Finder中文件保持一致 + 支付宝集成出错

    目录 环境 前言 1.使用 Gem 安装 synx 2.直接在终端 Terminal 中开始使用 3.在使用的时候还可以加参数来实现不同的功能 4.解决项目中出现的一些 error 环境 OS X 1 ...

  2. 【mysql】mysql innodb 配置详解

    MySQL innodb 配置详解 innodb_buffer_pool_size:这是InnoDB最重要的设置,对InnoDB性能有决定性的影响.默认的设置只有8M,所以默认的数据库设置下面Inno ...

  3. java学习之super关键字

    对于具有public或者protected属性的父类,其子类若想继承父亲的属性或者方法,那么需要用到super 实例:

  4. C语言 写的 表达式求值。

    有不对的地方还望指出来,让我改正.谢谢.存一个代码 #include<stdio.h> #include<stdlib.h> #include<string.h> ...

  5. CodeForces669E:Little Artem and Time Machine(CDQ分治)(或者用map+树状数组优美地解决)

    Little Artem has invented a time machine! He could go anywhere in time, but all his thoughts of cour ...

  6. eslintrc.js

    此插件主要就是规范前端程序员编写JS的规范,让代码看上去很优雅,也便于后期人员的重构和维护. 因为是用vue的cli搭建项目工程,使用了eslintrc.js ,但是在写JS时发现,首字母缩进一直报错 ...

  7. POJ3273(最大化问题)

    Monthly Expense Time Limit: 2000MS   Memory Limit: 65536K Total Submissions: 20603   Accepted: 8101 ...

  8. Lecture 0 --基本说明

    Abstract:本章所记录的知识是后面章节需要的前导知识,请务必仔细读本章,理解涉及的知识点,方便后面章节的学习.本次数据结构笔记主要参考殷人昆的<数据结构(C语言描述)>这本书,需要的 ...

  9. 【223】◀▶ IDL HDF 文件操作说明

    参考:I/O - HDF Routines —— HDF 操作函数 01   HDF_SD_START 打开一个 SDS 模式的 HDF 文件. 02   HDF_SD_END 关闭一个 SDS 模式 ...

  10. Hearthstone

    题意: 有$n$个无中生有,有$m$个不同的杀,第$i$个杀掉$X_i$滴血,敌人血量$P$,求问第一回合就将敌人杀死的概率是多少. 解法: 二进制枚举$A$类,$B$类卡的顺序,这样就确定了取了几个 ...