Tinghua Data Mining
Learning Resources
书籍:
期刊:
业界先驱:
开阔视野,掌握业界最新动态。
工具:
数据挖掘是很多学科的综合体:
甭管叫什么名字,归根到底都是数据挖掘:
Comprehensive Learning:
Learning != Listening
数据
What is Big Data?
Big Data:
Data Mning
Data Integration & Analasis
The Process of Data Mining
DM Techniques -- Classification
Classification Boundaries
Classification -- Overfitting
Confusion Matrix
Receive Operating Charactics
男人 女人 身高
DM Techniques -- Clusting
Hierrachical Clusting
不同层面分组
Association Rule
关联规则
DM Techniques -- Regression
参数和变量之间是线性的 不是说最终的表达式线性的
Overfitting -- Regression
死记硬背
既没有那么简单 也没有那么复杂
Seeing is Knowing
耳听为虚 眼见为实 高维数据直接很难理解 发挥人的知识的储备 主观能动性 领域知识的综合理解能力 可视化 对于用户来说 挖掘出来的东西给 可解释性
Performance Dashborad
Tableau
可视化工具软件
Data Preprocessing
Gabage In Gabage Out
脏数据输入 一定会脏数据输出
预处理很重要 准确性 时效性 完整性
原材料要好 打地基 否则外面再modern也是豆腐渣工程
Privacy Protection
Cloud Computation
买 租 服务器
把软硬件转换成一种服务
Parrelal Compututing
The Big Picture
数据挖掘三要素:数据,模型,算力(支撑平台)
No Free Lunch
分类 聚类 告诉我一个哪一个算法不就行了 不行 没有那么好的事 参数 经验尝试
拿到一个问题,先找简单的,说不定可以,够用就行了。没有必要一味地去追求看起来很复杂或者很高端的算法。
量化交易:克服人内在的性格弱点。更加理性。
Grouping
正相关,负相关,可能存在内在的分组的情形。
看问题要全面
Tinghua Data Mining的更多相关文章
- Tinghua Data Mining 9
关联规则,营销购物 空缺 协同过滤
- Tinghua Data Mining 8
聚类 Clustering 根据评论信息做一些聚类,挖掘关系. bug 期望最大法 peek高峰的个数与高斯函数的个数不一定相同 Z隐含参数 不需要求 每个点属于哪个簇 类似于辅助线 跳板 借力 模型 ...
- Tinghua Data Mining 7
SVM B分割得更加无偏 比较公平 卡着分界面的点叫支持向量,就好比托着分界面 支持向量决定了可移动的范围,这个范围就叫margin 分界面可移动的距离 前提是先要被分对 对偶问题一般是不等价的,但是 ...
- Tinghua Data Mining 6
Networks 多层感知机 不是说这个神经网络要与人的大脑神经完全相似,也不是说要多么的强大,而是在一定程度上模拟了人脑神经元的能力,就足够了 为什么要w0呢,因为没有w0超平面一定会经过原点,所以 ...
- Tinghua Data Mining 5
ID3 ID3算法倾向于分的很细的变量 C4.5加入分母为惩罚量
- Tinghua Data Mining 4
贝叶斯 决策树 知道三文鱼和金枪鱼颜色 让你去猜 B命中的概率不能直接减去四分之三 因为有可能同时命中 A B 命中不是互斥事件 即便体检报告是阳性,真正得癌症的概率也很小,只有0.21 绝大多数的阳 ...
- Tinghua Data Mining 3
特征选择 男女身高 男女抽烟 先验分布 熵 衡量系统的不确定性 属性的价值 降低了不确定性 降低的幅度越高越好 主成分分析 旋转是的数据间的correlation消失掉 Q是正交阵 七长八短,长宽相关 ...
- Tinghua Data Mining 2
数据预处理 https://www.bilibili.com/video/av23933161/?p=11 http://www.xuetangx.com/courses/course-v1:Tsin ...
- Distributed Databases and Data Mining: Class timetable
Course textbooks Text 1: M. T. Oszu and P. Valduriez, Principles of Distributed Database Systems, 2n ...
随机推荐
- Java标准输入
Java: import java.util.*; public class Main{ public static void main(String args[]){ Scanner cin = n ...
- Chkrootkit安装配置教程 – Linux后门入侵检测
rootkit从浅显的层面来讲即一种具有自我隐蔽性的后门程序,它往往被入侵者作为一种入侵工具.通过rootkit,入侵者可以偷偷控制被入侵的电脑,因此危害巨大.chkrootkit是一个Linux系统 ...
- BZOJ2006:超级钢琴(ST表+堆求前K大区间和)
Description 小Z是一个小有名气的钢琴家,最近C博士送给了小Z一架超级钢琴,小Z希望能够用这架钢琴创作出世界上最美妙的音乐. 这架超级钢琴可以弹奏出n个音符,编号为1至n.第i个音符的美妙度 ...
- JAVA 内部类 (二)
一.为什么要使用内部类 为什么要使用内部类?在<Think in java>中有这样一句话:使用内部类最吸引人的原因是:每个内部类都能独立地继承一个(接口的)实现,所以无论外围类是否已经继 ...
- APACHE2 服务器配置 (一)
1.安装 sudo apt-get install apache2 2.重启: sudo service apache2 resatrt 3.设置根目录: /var/www 设置方法: 2.2版: / ...
- 1、css选择器
一.CSS rgb颜色对照表:https://www.114la.com/other/rgb.htm 1.在标签上设置style属性 <!DOCTYPE html> <html la ...
- 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...
- Uploadify API在项目上的应用
在项目开发中,前端使用easyui,jq的时候,我么涉及到导入的时候都要用到这个上传插件,用法是: 1:先初始化上传控件 2:打开导入的easyui dialog弹出框,dialog里面将上传的inp ...
- Flutter实战视频-移动电商-02.Flutter实战建立项目和编写入口文件
02.Flutter实战建立项目和编写入口文件 创建项目: flutter create flutter_shop 创建完成之后呢,它会提示我们, 进入flutter_shop的目录,然后执行flut ...
- java 多线程,sleep()和wait()
java 线程可谓是java中重要的一个机制,在说线程之前需要知道什么是进程,进程和线程的关系是是什麽? 1.什么是进程?什么是线程? 进程:用句简单的粗俗的来说,进程就是程序.进程是一个正在运行的程 ...