scikit-learn:在实际项目中用到过的知识点(总结)
零、全部项目通用的:
http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器)
http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据)
(适合文本分类问题的 整个语料库载入)
http://blog.csdn.net/mmc2015/article/details/46906409(5. 载入内置公用的数据)
(常见的非常多公共数据集的载入,5.
Dataset loading utilities)
http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢))
(一张图告诉你,你的问题选什么estimator好。再也不用试了)
http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预測新数据、评价分类器)
http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參)
一、文本分类用到的:
http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件里提取特征(tf、idf))
(CountVectorizer、TfidfTransformer)
http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么)
(深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理)
http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析))
(LSA、LDA分析)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续))
(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG))
(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用)
二、数据预处理用到的(4.
Dataset transformations):
http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预測器结合;特征与特征结合))
(特征与预測器结合、特征与特征结合)
http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择))
(loading features form dicts、feature hashing、text feature extraction、image feature extraction)
http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction)
(text feature extraction)
http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value))
(Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding
categorical features(编码类别特征)、imputation of missing values(归责缺失值))
http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维))
(PCA、Random projections、Feature agglomeration(特征集聚))
http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y))
(Label binarization、Lable encoding(transform non-numerical labels to numerical labels))
三、其它重要知识点:
http://blog.csdn.net/mmc2015/article/details/47099275(3.1. Cross-validation: evaluating estimator performance)
(交叉验证)
http://blog.csdn.net/mmc2015/article/details/47100091(3.2. Grid Search: Searching for estimator parameters)
(搜索最佳參数组合)
None、经常使用的监督非监督模型:
http://blog.csdn.net/mmc2015/article/details/46867597(2.5. 矩阵因子分解问题)
http://blog.csdn.net/mmc2015/article/details/47271039(scikit-learn(project中用的相对较多的模型介绍):1.4. Support Vector Machines)
SVM(SVC、SVR)
http://blog.csdn.net/mmc2015/article/details/47271195(scikit-learn(project中用的相对较多的模型介绍):1.11. Ensemble methods)
Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting(Gradient Boosted Regression Trees (GBRT) )
http://blog.csdn.net/mmc2015/article/details/47333499(scikit-learn(project中用的相对较多的模型介绍):1.12. Multiclass
and multilabel algorithms)
Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification
http://blog.csdn.net/mmc2015/article/details/47333579(scikit-learn(project中用的相对较多的模型介绍):1.13. Feature selection)
Univariate feature selection(单变量特征选择)、recursive feature elimination(递归特征消除)、L1-based / ree-based features selection(这个也用的比价多)、Feature selection as part of a pipeline
http://blog.csdn.net/mmc2015/article/details/47333839(
scikit-learn(project中用的相对较多的模型介绍):1.14. Semi-Supervised
)
http://blog.csdn.net/mmc2015/article/details/47414271(scikit-learn(project中用的相对较多的模型介绍):2.3. Clustering(可用于特征的无监督降维))
scikit-learn:在实际项目中用到过的知识点(总结)的更多相关文章
- 项目中用到RouteTable,发布到IIS7中无法访问
项目中用到RouteTable,发布到IIS7中,访问之后没有任何反应,google半天终于找到了解决方法,就是要把iis的“HTTP重定向”功能打开
- iOS 项目中用到的一些开源库和第三方组件
iOS 项目中用到的一些 iOS 开源库和第三方组件 分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...
- iOS:项目中用到的Cookie
1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...
- 项目中用到的SQL-总结
基本sql总结: Group by的理解:having子句,分组函数 Group by使用的限定: 1.出现在Select列表中的字段或者出现在order by后面的字段,如果不是包含在分组函数中,那 ...
- LinkedHashMap和HashMap的比较使用 由于现在项目中用到了LinkedHashMap,并不是太熟悉就到网上搜了一下。 ? import java.util.HashMap; impo
LinkedHashMap和HashMap的比较使用 由于现在项目中用到了LinkedHashMap,并不是太熟悉就到网上搜了一下. import java.util.HashMap; import ...
- scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)
scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
- 项目中用到的input 遇到的问题的归类
input 前几天 为了这个词 用在搜索框被我们总监喷,为了加强印象,我把它记录下来 最原始的造型 <input type="text" value="搜索&quo ...
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
随机推荐
- appium+python自动化24-滑动方法封装(swipe)
swipe介绍 1.查看源码语法,起点和终点四个坐标参数,duration是滑动屏幕持续的时间,时间越短速度越快.默认为None可不填,一般设置500-1000毫秒比较合适. swipe(self, ...
- Android之MVC模式
MVC (Model-View-Controller):M是指逻辑模型,V是指视图模型,C则是控制器.一个逻辑模型可以对于多种视图模型,比如一批统计数据 你可以分别用柱状图.饼图来表示.一种视图模型也 ...
- 返回content-length=0问题解决
遇到一个奇怪问题,有时候会不显示css或图片文件,通过调试工具发现请求返回长度都是0.研究半天未果,初步猜测可能是过滤器给拦截了. 果然在一个过滤器中发现相关代码: HttpRequestWrappe ...
- OpenShift和F5的集成手册
OpenShift和F5的集成步骤,记录如下,如实际操作中有变更会再度编辑修改. 1.整体架构 使用BIG-IP作为Openshift的Router,能实现以下功能: 为Services创建BIG-I ...
- Android NDK开发----- JNI多线程
一.概述 JNI编程和Linux上的C/C++编程还是挺相似的,每次java调用JNI中的函数时都会传入有关JVM的一些参数(如JNIEnv,jobject),每次JNI回调java中的方法时都要通过 ...
- Ubuntu Server 13.10 安装配置图解教程
一.Ubuntu Server 13.10系统安装 Ubuntu分为桌面版(desktop)和服务器版(Server),下面为大家介绍服务器版本Ubuntu Server 13.10的详细安装过程. ...
- Linux Centos7安装chrome浏览器
参考:https://blog.csdn.net/u010472499/article/details/72327963 1. 配置yum源 在目录 /etc/yum.repos.d/ 下新建文件 g ...
- 关于substring的char[]共享
我们知道,对于一个较大的String对象假设从中获取一个子串.jdk默认子串的char[]是共享原串的char[].即子串的char[]是原串的char[]中的一部分, 这样对于一个原串多个子串的情况 ...
- C#基础视频教程6.3 如何简单读写数据库
在继续往下做之前,我们需要把之前的代码尽可能的精简(会对后面很有好处,而且读者也应该仔细比对这一部分的代码和上一部分哪里真正得到了优化,从而提高编程水平). 首先数据库的操作类有哪些是可以做的更加普遍 ...
- [Oracle] SQL*Loader 详细使用教程(5)- 典型例子
本文介绍SQL*Loader在实际使用过程中经常用到的典型例子. 1. 表中的列比数据文件的列要少怎么办? 假设一个csv的文件如下: a1,a2,a3,a4 b1,b2,b3,b4 c1,c2,c3 ...