一、几个工具包

【1】pandas(数据分析工具)

https://zhuanlan.zhihu.com/p/33230331

https://zhuanlan.zhihu.com/p/25013519

【2】lightbgm(梯度boosting框架,使用基于学习算法的决策树)

XGBOOST与LightGBM的区别: https://zhuanlan.zhihu.com/p/25308051    https://www.msra.cn/zh-cn/news/features/lightgbm-20170105

XGBOOST/LightGBM/CatBoost: https://www.jiqizhixin.com/articles/2018-03-18-4

二、遇到的问题

1. ['nunique'] 表示有多少个种类

对a来说只有一个种类one,对b来说有两个种类one/two,对c来说有一个种类one。

2. ('_'.join(col))

在两个字符串之间添加连接符 _

3. agg_new_trans.columns.values与agg_new_trans.columns

两者在for迭代取值的时候一样

4. groupby+agg(np.ptp)  群体中最大值和最小值之间的差异

结合 pd.DatetimeIndex

5. 日期相关的类型区别

df['first_active_month'] = pd.to_datetime(df['first_active_month'])  #经过函数 pd.to_datetime,dtype: datetime64[ns]

df['year'] = df['first_active_month'].dt.year (或者.dt.month/.dt.days)int64类型

df['first_active_month'].dt.date #dtype: object  date可以做减法,获取两个日期之间有多少days

6. pandas中.value_counts()的用法

value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。(返回两个结果)
value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用

7. LabelEncoder  将Label标准化,用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。

https://blog.csdn.net/u010412858/article/details/78386407

https://blog.csdn.net/quintind/article/details/79850455

8. pd.concat: 使用pd.concat[train,test]时,当train与test有相同的列名称的时候,如feature,会自动区分两个feature,并命名为feature_1与feature_2。

9. set(df['class label']) python中set表示集合,元素只出现一次

list:链表,有序的项目, 通过索引进行查找,使用方括号”[]”;
tuple:元组,元组将多样的对象集合到一起,不能修改,通过索引进行查找, 使用括号”()”;
dict:字典,字典是一组键(key)和值(value)的组合,通过键(key)进行查找,没有顺序, 使用大括号”{}”;
set:集合,无序,元素只出现一次, 自动去重,使用”set([])”

10. pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况:

1]、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码

2]、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

https://blog.csdn.net/lujiandong1/article/details/52836051

11. KFold Stratified k-fold:实现了分层交叉切分

https://blog.csdn.net/FontThrone/article/details/79220127

K折交叉验证:sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)

思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果 https://blog.csdn.net/kancy110/article/details/74910185

使用:

FOLDs = KFold(n_splits=5, shuffle=True, random_state=1989)

for fold_, (trn_idx, val_idx) in enumerate(FOLDs.split(train)):

其中: fold_为第几个n_splits的索引,从0开始

随机推荐

  1. 0918如何利用jmeter通过程序插入测试数据

    第一步 添加线程组 第二步 添加HTTP信息头管理器 第三步 添加HTTP请求 第四步 添加HTTP请求[POST] 第五步 添加查看结果树

  2. Mycat连接数据库之后导致表名全小写的问题分析研究

    初步研究:通过部署发现在Mycat中部署逻辑表表名大小写混合时,在Mycat连接后出现全变小.容易造成错误逻辑表(按混合表名创建物理表): 可能拯救的方法: 1.Linux下部署安装MySQL,默认不 ...

  3. Java中最小的整数为什么是-2147483648

    Java中最小的整数为什么是-2147483648 假如只有两位来表示数字,第一位是符号位: 00:0 01:1 11:-1,这个是负数,而且是补码,取反为00,加1成为01,就是-1 10:-2,这 ...

  4. iOS开发——定制圆形头像与照相机图库的使用

    如今的App都很流行圆形的头像,比方QQ右上角的头像,今日头条的头像等等.这已经成为App设计的趋势了.今天我们就来简单实现一下这个功能,我还会把从手机拍照中或者图库中取出作为头像的照片存储到应用程序 ...

  5. HDU 1198 Farm Irrigation (并查集优化,构图)

    本题和HDU畅通project类似.仅仅只是畅通project给出了数的连通关系, 而此题须要自己推断连通关系,即两个水管能否够连接到一起,也是本题的难点所在. 记录状态.不断combine(),注意 ...

  6. maven创建web报错failure to transfer org.codehaus.plexus

    failure to transfer org.codehaus.plexus:plexus:pom:2.0.5 from http:// repo.maven.apache.org/maven2 w ...

  7. DataGridView导出数据到Excel及单元格格式的改动

    在软件开发过程中,时常会遇到把一些数据信息从DataGridView中导出到Excel表格中的情况.假设写的多了就会发现挺简单的,我们最好还是来写一写,留作备用,毕竟有时候Ctrl+C和Ctrl+V还 ...

  8. VisoStudio 允许局域网联机调试网站

    第一步:修改配置文件 添加IP访问配置 找到vs访问网站的端口后,添加一行新的配置 第二步:使用CMD命令进行网络配置 netsh http / user=everyone 删除网络配置的命令(注意最 ...

  9. docker(部署常见应用):docker部署mysql

    上节回顾:docker(部署常见应用):docker部署nginx docker部署mysql:5.7.26 # 下载镜像 docker pull mysql: # 查看镜像 docker image ...

  10. BZOJ 2002 LCT板子题

    思路: LCT啊... (分块也行) 不过YOUSIKI出了一道“弹飞大爷” 就不能用分块水过去了 //By SiriusRen #include <cstdio> #include &l ...