sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字): 1. 简单区别 Panda's get_dummies vs. Sklearn's OneHotEncoder() :: What is more efficient? sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string,如果数据集中的某些特征是 stri…
背景: 在拿到的数据里,经常有分类型变量的存在,如下: 球鞋品牌:Nike.adidas. Vans.PUMA.CONVERSE 性别:男.女 颜色:红.黄.蓝.绿 However,sklearn大佬不能直接分析这类变量呀.在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是算法关键部分,而常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间.于是,我们要对这些分类变量进行哑变量处理,又或者叫虚拟变量. 缺点: 当类别的数量很多时,特征空间会变…
1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map)  根据dict_map字典进行数字编码的映射 3.OnehotEncoder()  # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3  pd.get_dummies(feature,drop_first=False) 如果填单个特征的话,只对一个特征做one-hot编码映射, drop_first表示去除one-hot编码后的第一列…
在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features)  # 将数据中的文字标签转换为one-hot编码形式,增加了特征的列数 3. rf.feature_importances 探究了随机森林样本特征的重要性,对其进行排序后条形图 4.fig.autofmt_xdate(rotation=60)  # 对图中的X轴标签进行60的翻转 代码: 第一步:数…
一.理论介绍 虚拟变量(dummy variable)也叫哑变量,是一种将多分类变量转换为二分变量的一种形式. 如果多分类变量有k个类别,则可以转化为k-1个二分变量. 需要有一个参照的类别. 在非线性关系的模型中,特别重要. 在模型分析时,虚拟变量都是同进同出,要么都在模型中,要么都不在模型中,不能只保留一个. 二.函数介绍 pandas 中可以利用 get_dummies() 函数进行哑变量编码. 使用语法: pd.get_dummies(data, # 输入的数据框 prefix=None…
mysql在生产环境下有大量锁表,又不允许重启的情况下的处理办法 满头大汗的宅鸟该怎么办呢? mysql -u root -e "show processlist"|grep -i "Locked" >> locklist.txt; for line in awk '{print $1}' locklist.txt do echo "kill $line;">>lock_kill.sql done 不足之处,欢迎拍砖!…
原文:Installshield 64位操作系统下拷贝文件,如何重定向到32位的系统文件夹下 64位操作系统下拷贝文件重定向问题,在在复制代码前加上Disable(WOW64FSREDIRECTION);就可以解决64位系统默认复制到syswow64的问题 但是注意: Disable(WOW64FSREDIRECTION);         CopyFile( SUPPORTDIR^"MUCam32.dll", WINSYSDIR^"MUCam32.dll"); 是…
还是基于上次那个练习的后续出现的思考,http://www.cnblogs.com/8013-cmf/p/6555790.html 界面: 源码: 写法如下:  继续解释这两种的区别: 1.其实基于定位下拉框或者需要点击link才显示的下拉框,2种写法没啥区别,都可以定位到(这个练习是可以定位到,有可能个别的定位不到) 2.写法2点击一下有可能没有产生效果,也有可能触发了一些逻辑生成了新的代码.它不一样,不代表结果不一样,只能说不一定. (本质区别) 3.如果你还不了解,找一个可以跳转的按钮,和…
还是基于上次那个练习的后续出现的思考,http://www.cnblogs.com/8013-cmf/p/6555790.html 界面: 源码: 写法如下:  继续解释这两种的区别: 1.其实基于定位下拉框或者需要点击link才显示的下拉框,2种写法没啥区别,都可以定位到(这个练习是可以定位到,有可能个别的定位不到) 2.写法2点击一下有可能没有产生效果,也有可能触发了一些逻辑生成了新的代码.它不一样,不代表结果不一样,只能说不一定. (本质区别) 3.如果你还不了解,找一个可以跳转的按钮,和…
以Window7为例说明,想要跳转到I:\adt-bundle-windows-x86-20130219\sdk\platform-tools目录下. 1.在运行中打开CMD命令窗口如下图所示: 2.输入盘符I:,按下回车键即可,这样就跳转到I盘下.如下图所示. 3.输入命令,“cd adt-bundle-windows-x86-20130219\sdk\platform-tools" 4.回车即可,看到目录已经跳转到“I:\adt-bundle-windows-x86-20130219\sdk…