零、全部项目通用的：

http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预測器）

http://blog.csdn.net/mmc2015/article/details/46852755（载入自己的原始数据）

（适合文本分类问题的整个语料库载入）

http://blog.csdn.net/mmc2015/article/details/46906409（5. 载入内置公用的数据）

（常见的非常多公共数据集的载入，5.
Dataset loading utilities）

http://blog.csdn.net/mmc2015/article/details/46705983（Choosing the right estimator（你的问题适合什么estimator来建模呢））

（一张图告诉你，你的问题选什么estimator好。再也不用试了）

http://blog.csdn.net/mmc2015/article/details/46857949（训练分类器、预測新数据、评价分类器）

http://blog.csdn.net/mmc2015/article/details/46858009（使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參）

一、文本分类用到的：

http://blog.csdn.net/mmc2015/article/details/46857887（从文本文件里提取特征（tf、idf））

（CountVectorizer、TfidfTransformer）

http://blog.csdn.net/mmc2015/article/details/46866537（CountVectorizer提取tf都做了什么）

（深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理）

http://blog.csdn.net/mmc2015/article/details/46867773（2.5.2. 通过TruncatedSVD实现LSA（隐含语义分析））

（LSA、LDA分析）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46940373（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46941367（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic（续））

（词粒度关系：Paradigmatic(聚合关系：同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系：协同出现、用互信息挖掘)）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46771791（特征选择方法（TF-IDF、CHI和IG））

（介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用）

二、数据预处理用到的（4.
Dataset transformations）：

http://blog.csdn.net/mmc2015/article/details/46991465（4.1. Pipeline and FeatureUnion: combining estimators（特征与预測器结合；特征与特征结合））

（特征与预測器结合、特征与特征结合）

http://blog.csdn.net/mmc2015/article/details/46992105（4.2. Feature extraction（特征提取，不是特征选择））

（loading features form dicts、feature hashing、text feature extraction、image feature extraction）

http://blog.csdn.net/mmc2015/article/details/46997379（4.2.3. Text feature extraction）

（text feature extraction）

http://blog.csdn.net/mmc2015/article/details/47016313（4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value））

（Standardization, or mean removal and variance scaling（标准化：去均值、除方差）、Normalization（正规化）、Feature Binarization（二值化）、Encoding
categorical features（编码类别特征）、imputation of missing values（归责缺失值））

http://blog.csdn.net/mmc2015/article/details/47066239（4.4. Unsupervised dimensionality reduction（降维））

（PCA、Random projections、Feature agglomeration（特征集聚））

http://blog.csdn.net/mmc2015/article/details/47069869（4.8. Transforming the prediction target (y)）

（Label binarization、Lable encoding（transform non-numerical labels to numerical labels））

三、其它重要知识点：

http://blog.csdn.net/mmc2015/article/details/47099275（3.1. Cross-validation: evaluating estimator performance）

（交叉验证）

http://blog.csdn.net/mmc2015/article/details/47100091（3.2. Grid Search: Searching for estimator parameters）

（搜索最佳參数组合）

http://blog.csdn.net/mmc2015/article/details/47121611（3.3. Model evaluation: quantifying the quality of predictions）

（模型效果评估：score函数、confusion matrix、classification report等）

http://blog.csdn.net/mmc2015/article/details/47143539（3.4. Model persistence）

（保存训练好的模型到本地：joblib.dump & joblib.load pickle .dump & pickle .load）

None、经常使用的监督非监督模型：

http://blog.csdn.net/mmc2015/article/details/46867597（2.5. 矩阵因子分解问题）

http://blog.csdn.net/mmc2015/article/details/47271039（scikit-learn（project中用的相对较多的模型介绍）：1.4. Support Vector Machines）

SVM（SVC、SVR）

http://blog.csdn.net/mmc2015/article/details/47271195（scikit-learn（project中用的相对较多的模型介绍）：1.11. Ensemble methods）

Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting（Gradient Boosted Regression Trees (GBRT) ）

http://blog.csdn.net/mmc2015/article/details/47333499（scikit-learn（project中用的相对较多的模型介绍）：1.12. Multiclass
and multilabel algorithms）

Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification

http://blog.csdn.net/mmc2015/article/details/47333579（scikit-learn（project中用的相对较多的模型介绍）：1.13. Feature selection）

Univariate feature selection（单变量特征选择）、recursive feature elimination（递归特征消除）、L1-based / ree-based features selection（这个也用的比价多）、Feature selection as part of a pipeline

http://blog.csdn.net/mmc2015/article/details/47333839（

scikit-learn（project中用的相对较多的模型介绍）：1.14. Semi-Supervised

）

http://blog.csdn.net/mmc2015/article/details/47414271（scikit-learn（project中用的相对较多的模型介绍）：2.3. Clustering（可用于特征的无监督降维））

scikit-learn：在实际项目中用到过的知识点（总结）的更多相关文章

项目中用到RouteTable，发布到IIS7中无法访问
项目中用到RouteTable,发布到IIS7中,访问之后没有任何反应,google半天终于找到了解决方法,就是要把iis的“HTTP重定向”功能打开
iOS 项目中用到的一些开源库和第三方组件
iOS 项目中用到的一些 iOS 开源库和第三方组件分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...
iOS:项目中用到的Cookie
1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...
项目中用到的SQL-总结
基本sql总结: Group by的理解:having子句,分组函数 Group by使用的限定: 1.出现在Select列表中的字段或者出现在order by后面的字段,如果不是包含在分组函数中,那 ...
LinkedHashMap和HashMap的比较使用由于现在项目中用到了LinkedHashMap，并不是太熟悉就到网上搜了一下。 ? import java.util.HashMap; impo
LinkedHashMap和HashMap的比较使用由于现在项目中用到了LinkedHashMap,并不是太熟悉就到网上搜了一下. import java.util.HashMap; import ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
项目中用到的input 遇到的问题的归类
input 前几天为了这个词用在搜索框被我们总监喷,为了加强印象,我把它记录下来最原始的造型 <input type="text" value="搜索&quo ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

随机推荐

ffplay播放器移植VC的project：ffplay for MFC
本文介绍一个自己做的FFPLAY移植到VC下的开源project:ffplayfor MFC.本project将ffmpeg项目中的ffplay播放器(ffplay.c)移植到了VC的环境下.而且使用 ...
[Android 新特性] 15项大改进 Android 4.4新特性解析
腾讯数码讯(编译:刘沙) 终于,Android系统迎来了久违的重大更新——Android 4.4 KitKat,并与新旗舰Nexus 5同时问世.那么,新的系统究竟都有怎样的改进.是否值得升级呢,下面 ...
Android NDK开发----- JNI多线程
一.概述 JNI编程和Linux上的C/C++编程还是挺相似的,每次java调用JNI中的函数时都会传入有关JVM的一些参数(如JNIEnv,jobject),每次JNI回调java中的方法时都要通过 ...
Windows之权限讲解
windows中,权限指的是不同账户对文件,文件夹,注册表等的访问能力.在windows中,为不同的账户设置权限很重要,可以防止重要文件被其他人所修改,使系统崩溃. 1权限概念我们可以在控制面板中设 ...
.net维护的一些心得
做了三个月的.net的开发,其实一直在做一个维护加二次开发的工作.现在这个项目告一段落,就此总结下我的所学所感吧.总的来说,.net和JAVA还是有许多地方是不同的,比如.net中的数据绑定问题,已经 ...
java设计模式4--建造者模式（Builder）
本文地址:http://www.cnblogs.com/archimedes/p/java-builder-pattern.html,转载请注明源地址. 建造者模式将一个复杂对象的构建与它的表示分离 ...
TestNG的组測试和组中组測试
在编写測试的过程中,我们常常遇到仅仅想运行个别或者某一部分/某一类型的測试用例,这时我们能够使用TestNG的分组測试方法分组測试在配置时.TestNG运行的原则是:仅仅保留最小集合进行运行看代码 ...
C++中++i与i++效率比较
解析: 在这里声明,简单的比较前缀自增运算符和后缀自增运算符的效率是片面的,因为存在很多因素影响这个问题的答案.首先考虑内建数据类型的情况:如果自增运算表达式的结果没有被使用,而是仅仅简单的用于增加一 ...
Transform数据权限浅析2之利用Java完成权限设置
一:项目背景 1.1:cognos的两种建模工具为了更好的满足客户的需求,提升报表展现的效率,一种建模工具已经不能满足报表开发和展现的需要.Cognos除了给我们提供了一种基于关系型数据库的建模工具 ...
QPS、RT、PV、UV之间的关系
QPS: 每秒查询率(Query Per Second) ,每秒的响应请求数,也即是最大吞吐能力. QPS = req/sec = 请求数/秒 QPS统计方式 [一般使用 http_load 进行统计 ...

scikit-learn：在实际项目中用到过的知识点（总结）

scikit-learn（project中用的相对较多的模型介绍）：1.14. Semi-Supervised

scikit-learn：在实际项目中用到过的知识点（总结）的更多相关文章

随机推荐

热门专题