1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征,选择合适的方法. 2.sklearn使用的小例子 import numpy as np from sklearn import datasets from sklearn.cross_validation import train_test_split from sklearn.neighbors
首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征,选择合适的方法. 2.sklearn使用的小例子 import numpy as np from sklearn import datasets from sklearn.cross_validation import train_test_split from sklearn.neighbors i
一:sklearn中决策树的参数: 1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点. 2,splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用默认. 3,max_features: 选择最适属性时划分的特征不能超过此值. 当为整数时,即最大特征数:当为小数时,训练集特征数*小数: if