annoy ANN算法调参

search_k serach_k越大,越准确,但是要在时间和准确率之间取个trade off During the query it will inspect up to search_k nodes which defaults to n_trees * n build on memory or disk build on disk disk上build的时候,树的node个数是所有样本个数的大约2倍,(作者说无法获得多少颗树,困== build on memory 指定颗的树数(5) 差别…

算法调参 weight_ratio, weight_seqratio

from openpyxl import Workbook import xlrd import time import Levenshtein as Le target_city_list = ['北京市', '上海市', '深圳市', '广州市'] source_name = 'JMTool任务_csv_py_wholeCSV-加百度170826165729' BDpoi_list_tag, BDpoi_list_tagb = '|-|', '|--|' FEXCEL = '%s%s' %…

CatBoost算法和调参

欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share # -*- coding: utf-8 -*- """ Created on…

k-近邻算法采用for循环调参方法

//2019.08.02下午#机器学习算法中的超参数与模型参数1.超参数:是指机器学习算法运行之前需要指定的参数,是指对于不同机器学习算法属性的决定参数.通常来说,人们所说的调参就是指调节超参数.2.模型参数:是指算法在使用过程中需要学习得到的参数,即输入与输出之间映射函数中的参数,它需要通过对于训练数据集训练之后才可以得到.3.对于KNN算法,它是没有模型参数的,它的k参数就属于典型的超参数. 4.好的超参数的选择主要取决于三个方面:(1)领域知识(2)经验数值(3)实验搜索5.K近邻算法常用…

调参、最优化、ml算法（未完成）

最优化方法调参方法 ml算法梯度下降gd grid search lr 梯度上升随机梯度下降 pca 随机梯度下降sgd 贝叶斯调参 lda 牛顿算法 knn 拟牛顿算法 kmeans 遗传算法 tree 蚁群算法 gbdt 模拟退火 xgboost 反向传播算法 lightgbm 坐标上升? svm rf 一.调参的思路: 如针对上面的问题,对x1和x2两个参数调优,假设起始点为绿色点, 1.grid search(全部交叉):计算所有上面的…

scikit-learn随机森林调参小结

在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点. 1. scikit-learn随机森林类库概述在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor.当然RF的变种Extra Trees也有, 分类类ExtraTreesC…

scikit-learn 梯度提升树(GBDT)调参小结

在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点. 1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类.两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同.这些参数中,类似于Adabo…

word2vec参数调整及lda调参

一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 一般来说,比较喜欢用cbow ,因为模型中 cbow有向量相加的运算.##保留意见 -cbow 0表示不使用cbow模型,默认为Skip-Gram模型 -size 表示词向量维数:经验是不超过100…

漫谈PID——实现与调参

闲话: 作为一个控制专业的学生,说起PID,真是让我又爱又恨.甚至有时候会觉得我可能这辈子都学不会pid了,但是经过一段时间的反复琢磨,pid也不是很复杂.所以在看懂pid的基础上,写下这篇文章,方便学习和交流. ============================================================================= PID控制器是工业过程控制中广泛采用的一种控制器,其中,P.I.D分别为比例(Proportion).积分(Integral).微…

hyperopt自动调参

hyperopt自动调参在传统机器学习和深度学习领域经常需要调参,调参有些是通过通过对数据和算法的理解进行的,这当然是上上策,但还有相当一部分属于"黑盒" hyperopt可以帮助我们做很多索然无味的调参工作示例直接看代码以及注释比较直接,下面通过一个随机森林可以感受一下: # coding=utf-8 from sklearn import datasets from sklearn.ensemble import RandomForestClassifier from skl…

自动调参库hyperopt+lightgbm 调参demo

在此之前,调参要么网格调参,要么随机调参,要么肉眼调参.虽然调参到一定程度,进步有限,但仍然很耗精力. 自动调参库hyperopt可用tpe算法自动调参,实测强于随机调参. hyperopt 需要自己写个输入参数,返回模型分数的函数(只能求最小化,如果分数是求最大化的,加个负号),设置参数空间. 本来最优参数fmin函数会自己输出的,但是出了意外,参数会强制转化整数,没办法只好自己动手了. demo如下: import lightgbm as lgb from sklearn.metrics i…

LightGBM 调参方法（具体操作）

sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://www.imooc.com/article/43784?block_id=tuijian_wz 鄙人调参新手,最近用lightGBM有…

xgboost使用调参

欢迎关注博主主页,学习python视频资源 https://blog.csdn.net/q383700092/article/details/53763328 调参后结果非常理想 from sklearn.model_selection import GridSearchCV from sklearn.datasets import load_breast_cancer from xgboost import XGBClassifier from sklearn.model_selection…

python 机器学习中模型评估和调参

在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题先展示先通常的做法 import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA from sklearn.linear_model import LogisticRegression df = pd.read…

Xgboost调参总结

一.参数速查参数分为三类: 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression). 学习目标参数:控制训练目标的表现. 二.回归 from xgboost.sklearn import XGBRegressor from sklearn.model_selection import ShuffleSplit import xgboost as xgb xgb_model_ = XGBRegressor(n_thread=8) cv_spli…

xgboost的sklearn接口和原生接口参数详细说明及调参指点

from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silent=True,objective='binary:logistic', booster='gbtree',n_jobs=1,nthread=None,gamma=0,min_child_weight=1, max_delta_step=0, subsample=1, colsample_bytree…

Python中Gradient Boosting Machine(GBM）调参方法详解

原文地址:Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻译与校对:@酒酒Angie(drmr_anki@qq.com) && 寒小阳(hanxiaoyang.ml@gmail.com) 时间:2016年9月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/52663170 1.前言如果一直以来你…

XGB 调参基本方法

- xgboost 基本方法和默认参数 - 实战经验中调参方法 - 基于实例具体分析在训练过程中主要用到两个方法:xgboost.train()和xgboost.cv(). xgboost.train(params,dtrain,num_boost_round=10,evals=(),obj=None,feval=None,maximize=False,early_stopping_rounds=None, evals_result=None,verbose_eval=True,learnin…

[调参]batch_size的选择

链接:https://www.zhihu.com/question/61607442/answer/440944387 首先反对上面的尽可能调大batch size的说法,在现在较前沿的视角来看,这种观点无疑是有些滞后的. 关于这个问题,我们来看下深度学习三巨头之一的LeCun杨乐春同志怎么说(想看结论直接翻到最后): Training with large minibatches is bad for your health. More importantly, it's bad for yo…

[调参]CV炼丹技巧/经验

转自:https://www.zhihu.com/question/25097993 我和@杨军类似, 也是半路出家. 现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间了. 我的回答可能更多的还是侧重工业应用, 技术上只限制在CNN这块. 先说下我的观点, 调参就是trial-and-error. 没有其他捷径可以走. 唯一的区别是有些人盲目的尝试, 有些人思考后再尝试. 快速尝试, 快速纠错这是调参的关键. 看了杨军的回答. 对于这个回答, 下面的评论里面 @纪秋佳说的…

rf调参小结

转自http://www.cnblogs.com/pinard/p/6160412.html 1. scikit-learn随机森林类库概述在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor.当然RF的变种Extra Trees也有, 分类类ExtraTreesClassifier,回归类ExtraTreesRegressor.由于RF和Extra Trees的区别较小,调参方法基本相同,本文只关注于RF…

gbdt调参的小结

关键部分转自http://www.cnblogs.com/pinard/p/6143927.html 第一次知道网格搜索这个方法,不知道在工业中是不是用这种方式 1.首先从步长和迭代次数入手,选择一个较大的步长,和较小的迭代次数.可以将步长设置为0.1,迭代次数从20-100网格搜索. 2.找到最合适的迭代次数,对决策树最大深度max_depth和内部节点再划分所需最少样本数min_samples_split进行网格搜索,最大深度3-15,样本100-800. 3.找到一个最大深度,由于min_…

论XGBOOST科学调参

XGBOOST的威力不用赘述,反正我是离不开它了. 具体XGBOOST的原理可以参见之前的文章<比XGBOOST更快--LightGBM介绍> 今天说下如何调参. bias-variance trade-off xgboost一共有几十个参数: http://xgboost.readthedocs.io/en/latest/parameter.html 中文版解释: http://blog.csdn.net/zc02051126/article/details/46711047 文艺青年的调参…

xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？

问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了.但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高.用RandomForest所需要的树的深度和DecisionTree一样我能理解,因为它是用bagging的方法把DecisionTree组合在一起,相当于做了多次DecisionTree一样.但是xgboost/gbdt仅仅用梯度上升法就能用6个节点的深度达到很高的预测精度,使我惊讶到怀疑它是黑科技了.请问下xgboo…

LSTM调参经验

0.开始训练之前先要做些什么? 在开始调参之前,需要确定方向,所谓方向就是确定了之后,在调参过程中不再更改 1.根据任务需求,结合数据,确定网络结构. 例如对于RNN而言,你的数据是变长还是非变长:输入输出对应关系是many2one还是many2many等等,更多结构参考如下非RNN的普通过程,从固定尺寸的输入到固定尺寸的输出(比如图像分类)输出是序列(例如图像标注:输入是一张图像,输出是单词的序列)输入是序列(例如情绪分析:输入是一个句子,输出是对句子属于正面还是负面情绪的分类)输入输出都是…

sklearn-GBDT 调参

1. scikit-learn GBDT类库概述在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类.两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同.这些参数中,我们把重要参数分为两类,第一类是Boosting框架的重要参数,第二类是弱学习器即CART回归树的重要参数. 下面我们就从这两个方面来介绍这些参数的使用. 2. GBDT类库boost…

RandomForest 调参

在scikit-learn中,RandomForest的分类器是RandomForestClassifier,回归器是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数. 一.Bagging框架的参数: 1. n_estimators: 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10.一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个…