python 多分类任务中按照类别分层采样
在机器学习多分类任务中有时候需要针对类别进行分层采样,比如说类别不均衡的数据,这时候随机采样会造成训练集、验证集、测试集中不同类别的数据比例不一样,这是会在一定程度上影响分类器的性能的,这时候就需要进行分层采样保证训练集、验证集、测试集中每一个类别的数据比例差不多持平。
下面python代码。
# 将数据按照类别进行分层划分
def save_file_stratified(filename, ssdfile_dir, categories):
"""
将文件分流到3个文件中
filename: 原数据地址,一个csv文件
文件内容格式: 类别\t内容
"""
f_train = open('../data/usefuldata-711depart/train.txt', 'w', encoding='utf-8')
f_val = open('../data/usefuldata-711depart/val.txt', 'w', encoding='utf-8')
f_test = open('../data/usefuldata-711depart/test.txt', 'w', encoding='utf-8')
# f_class = open('../data/usefuldata-37depart/class.txt', 'w', encoding='utf-8')
dict_ssdqw = {}
for ssdfile in os.listdir(ssdfile_dir):
ssdfile_name = os.path.join(ssdfile_dir, ssdfile)
f = open(ssdfile_name, 'r', encoding='utf-8')
content_qw = ''
content = f.readline()
# 以下部分,因为统计整个案件基本情况他有换行,所以将多行处理在一行里面
while content:
content_qw += content
content_qw = content_qw.replace('\n', '')
content = f.readline()
ssdfile_key = str(ssdfile).replace('.txt','')
dict_ssdqw[ssdfile_key] = content_qw
# doc_count代表每一类数据总共有多少个
doc_count_0 = 0
doc_count_1 = 0
doc_count_2 = 0
doc_count_3 = 0
doc_count_4 = 0
doc_count_5 = 0
doc_count_6 = 0
doc_count_7 = 0
doc_count_8 = 0
doc_count_9 = 0
doc_count_10 = 0
doc_count_11 = 0
doc_count_12 = 0
temp_file = open(filename, 'r', encoding='utf-8')
line = temp_file.readline()
while line:
line_content = line.split(',')
name = line_content[0]
if name in dict_ssdqw:
label = line_content[1]
if label == categories[0]:
doc_count_0 += 1
elif label == categories[1]:
doc_count_1 += 1
elif label == categories[2]:
doc_count_2 += 1
elif label == categories[3]:
doc_count_3 += 1
elif label == categories[4]:
doc_count_4 += 1
elif label == categories[5]:
doc_count_5 += 1
elif label == categories[6]:
doc_count_6 += 1
elif label == categories[7]:
doc_count_7 += 1
elif label == categories[8]:
doc_count_8 += 1
elif label == categories[9]:
doc_count_9 += 1
elif label == categories[10]:
doc_count_10 += 1
elif label == categories[11]:
doc_count_11 += 1
elif label == categories[12]:
doc_count_12 += 1
line = temp_file.readline()
temp_file.close()
# 总数量
doc_count = doc_count_0 + doc_count_1 + doc_count_2 + doc_count_3 +\
doc_count_4 + doc_count_5 + doc_count_6 + doc_count_7 +\
doc_count_8 + doc_count_9 + doc_count_10 + doc_count_11 + doc_count_12
class_set = set()
tag_train_0 = doc_count_0 * 70 / 100
tag_train_1 = doc_count_1 * 70 / 100
tag_train_2 = doc_count_2 * 70 / 100
tag_train_3 = doc_count_3 * 70 / 100
tag_train_4 = doc_count_4 * 70 / 100
tag_train_5 = doc_count_5 * 70 / 100
tag_train_6 = doc_count_6 * 70 / 100
tag_train_7 = doc_count_7 * 70 / 100
tag_train_8 = doc_count_8 * 70 / 100
tag_train_9 = doc_count_9 * 70 / 100
tag_train_10 = doc_count_10 * 70 / 100
tag_train_11= doc_count_11 * 70 / 100
tag_train_12 = doc_count_12 * 70 / 100
tag_val_0 = doc_count_0 * 85 / 100
tag_val_1 = doc_count_1 * 85 / 100
tag_val_2 = doc_count_2 * 85 / 100
tag_val_3 = doc_count_3 * 85 / 100
tag_val_4 = doc_count_4 * 85 / 100
tag_val_5 = doc_count_5 * 85 / 100
tag_val_6 = doc_count_6 * 85 / 100
tag_val_7 = doc_count_7 * 85 / 100
tag_val_8 = doc_count_8 * 85 / 100
tag_val_9 = doc_count_9 * 85 / 100
tag_val_10 = doc_count_10 * 85 / 100
tag_val_11 = doc_count_11 * 85 / 100
tag_val_12 = doc_count_12 * 85 / 100
# tag_test = doc_count * 70 / 100
tag_0 = 0
tag_1 = 0
tag_2 = 0
tag_3 = 0
tag_4 = 0
tag_5 = 0
tag_6 = 0
tag_7 = 0
tag_8 = 0
tag_9 = 0
tag_10 = 0
tag_11 = 0
tag_12 = 0
# 有些文书行业标记是空!!我想看看有多少条?
blank_tag = 0
# 标记一下,每个类别有多少个训练集、验证集、测试集?
train_class_tag = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
val_class_tag = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
test_class_tag = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
# csvfile = open(filename, 'r', encoding='utf-8')
txtfile = open(filename, 'r', encoding='utf-8')
process_line = txtfile.readline()
while process_line:
line_content = process_line.split(',')
name = line_content[0]
if name in dict_ssdqw:
content = dict_ssdqw[name]
label = line_content[1]
# if label != '' and label != '其他行业':
if label != '':
class_set.add(label)
# 对每一类进行分层采样
if label == categories[0]:
tag_0 += 1
if tag_0 < tag_train_0:
f_train.write(label + '\t' + content + '\n')
train_class_tag[0] += 1
elif tag_0 < tag_val_0:
f_val.write(label + '\t' + content + '\n')
val_class_tag[0] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[0] += 1
elif label == categories[1]:
tag_1 += 1
if tag_1 < tag_train_1:
f_train.write(label + '\t' + content + '\n')
train_class_tag[1] += 1
elif tag_1 < tag_val_1:
f_val.write(label + '\t' + content + '\n')
val_class_tag[1] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[1] += 1
elif label == categories[2]:
tag_2 += 1
if tag_2 < tag_train_2:
f_train.write(label + '\t' + content + '\n')
train_class_tag[2] += 1
elif tag_2 < tag_val_2:
f_val.write(label + '\t' + content + '\n')
val_class_tag[2] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[2] += 1
elif label == categories[3]:
tag_3 += 1
if tag_3 < tag_train_3:
f_train.write(label + '\t' + content + '\n')
train_class_tag[3] += 1
elif tag_3 < tag_val_3:
f_val.write(label + '\t' + content + '\n')
val_class_tag[3] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[3] += 1
elif label == categories[4]:
tag_4 += 1
if tag_4 < tag_train_4:
f_train.write(label + '\t' + content + '\n')
train_class_tag[4] += 1
elif tag_4 < tag_val_4:
f_val.write(label + '\t' + content + '\n')
val_class_tag[4] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[4] += 1
elif label == categories[5]:
tag_5 += 1
if tag_5 < tag_train_5:
f_train.write(label + '\t' + content + '\n')
train_class_tag[5] += 1
elif tag_5 < tag_val_5:
f_val.write(label + '\t' + content + '\n')
val_class_tag[5] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[5] += 1
elif label == categories[6]:
tag_6 += 1
if tag_6 < tag_train_6:
f_train.write(label + '\t' + content + '\n')
train_class_tag[6] += 1
elif tag_6 < tag_val_6:
f_val.write(label + '\t' + content + '\n')
val_class_tag[6] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[6] += 1
elif label == categories[7]:
tag_7 += 1
if tag_7 < tag_train_7:
f_train.write(label + '\t' + content + '\n')
train_class_tag[7] += 1
elif tag_7 < tag_val_7:
f_val.write(label + '\t' + content + '\n')
val_class_tag[7] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[7] += 1
elif label == categories[8]:
tag_8 += 1
if tag_8 < tag_train_8:
f_train.write(label + '\t' + content + '\n')
train_class_tag[8] += 1
elif tag_8 < tag_val_8:
f_val.write(label + '\t' + content + '\n')
val_class_tag[8] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[8] += 1
elif label == categories[9]:
tag_9 += 1
if tag_9 < tag_train_9:
f_train.write(label + '\t' + content + '\n')
train_class_tag[9] += 1
elif tag_9 < tag_val_9:
f_val.write(label + '\t' + content + '\n')
val_class_tag[9] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[9] += 1
elif label == categories[10]:
tag_10 += 1
if tag_10 < tag_train_10:
f_train.write(label + '\t' + content + '\n')
train_class_tag[10] += 1
elif tag_10 < tag_val_10:
f_val.write(label + '\t' + content + '\n')
val_class_tag[10] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[10] += 1
elif label == categories[11]:
tag_11 += 1
if tag_11 < tag_train_11:
f_train.write(label + '\t' + content + '\n')
train_class_tag[11] += 1
elif tag_11 < tag_val_11:
f_val.write(label + '\t' + content + '\n')
val_class_tag[11] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[11] += 1
elif label == categories[12]:
tag_12 += 1
if tag_12 < tag_train_12:
f_train.write(label + '\t' + content + '\n')
train_class_tag[12] += 1
elif tag_12 < tag_val_12:
f_val.write(label + '\t' + content + '\n')
val_class_tag[12] += 1
else:
f_test.write(label + '\t' + content + '\n')
test_class_tag[12] += 1
else:
blank_tag += 1
process_line = txtfile.readline()
txtfile.close()
print("有" + str(blank_tag) + "个文书的行业标记为空!")
print("train:")
print(train_class_tag)
train_tag_total =0
for i_total in train_class_tag:
train_tag_total += i_total
train_class_tag_distribute = []
for i in train_class_tag:
train_class_tag_distribute.append((i / train_tag_total) * 100)
print("分布:")
print(train_class_tag_distribute)
print("val:")
print(val_class_tag)
val_tag_total = 0
for i_total in val_class_tag:
val_tag_total += i_total
val_class_tag_distribute = []
for i in val_class_tag:
val_class_tag_distribute.append((i / val_tag_total) * 100)
print("分布:")
print(val_class_tag_distribute)
print("test:")
print(test_class_tag)
test_tag_total = 0
for i_total in test_class_tag:
test_tag_total += i_total
test_class_tag_distribute = []
for i in test_class_tag:
test_class_tag_distribute.append((i / test_tag_total) * 100)
print("分布:")
print(test_class_tag_distribute)
f_train.close()
f_test.close()
f_val.close()
if __name__ == '__main__':
categories = [
"class1",
"class2",
"class3",
"class4",
"class5",
"class6",
"class7",
"class8",
"class9",
"class10",
"class11",
"class12",
"class13"
]
save_file_stratified('../data/qwdata/shuffle-try3/classified_table_ms.txt', '../data/qwdata/ms-ygscplusssdqw',categories)
后面可以看到类别划分

这里要注意的一点是:这是我早期写的文章,需要注意的一点是,我们通常在训练集和验证集上做分层采样即可,测试集最好保持原样不要动。
python 多分类任务中按照类别分层采样的更多相关文章
- map集合中取出分类优先级最高的类别名称
import java.util.Arrays; import java.util.Collection; import java.util.HashMap; import java.util.Map ...
- 如何使用Python在Kaggle竞赛中成为Top15
如何使用Python在Kaggle竞赛中成为Top15 Kaggle比赛是一个学习数据科学和投资时间的非常的方式,我自己通过Kaggle学习到了很多数据科学的概念和思想,在我学习编程之后的几个月就开始 ...
- Objective-C /iphone开发基础:分类(category,又称类别)
在c++中我们可以多继承来实现代码复用和封装使程序更加简练.在objective-c中只能单继承,不能多继承,那么除了协议protocol之外,我们可以实现类似多继承的一个方法就是,分类(catego ...
- [置顶] Objective-C,/,ios,/iphone开发基础:分类(category,又称类别)
在c++中我们可以多继承来实现代码复用和封装使程序更加简练.在objective-c中只能单继承,不能多继承,那么除了协议protocol之外,我们可以实现类似多继承的一个方法就是,分类(catego ...
- python入门-分类和回归各种初级算法
引自:http://www.cnblogs.com/taichu/p/5251332.html ########################### #说明: # 撰写本文的原因是,笔者在研究博文“ ...
- 13、Selenium+python+API分类总结
Selenium+python+API分类总结 http://selenium-python.readthedocs.org/index.html 分类 方法 方法描述 客户端操作 __init__( ...
- [ios]objective-c中Category类别(扩展类)专题总结
本文转载至 http://yul100887.blog.163.com/blog/static/20033613520126333344127/ objective-c类别的作用?通过类别的方式, ...
- [技术博客]Pyqt中View类别容器和Widget类别容器的区别
Pyqt中View类别容器和Widget类别容器的区别 简介 在beta迭代中,我们选择用pyqt5来重写alpha迭代中使用tkinter库编写的界面. 按钮之类的与tkiner使用无异,在显示 ...
- 【分类问题中模型的性能度量(二)】超强整理,超详细解析,一文彻底搞懂ROC、AUC
文章目录 1.背景 2.ROC曲线 2.1 ROC名称溯源(选看) 2.2 ROC曲线的绘制 3.AUC(Area Under ROC Curve) 3.1 AUC来历 3.2 AUC几何意义 3.3 ...
随机推荐
- mysql备份时过滤掉某些库 以及 去掉"Warning: Using a password on the command line interface can be insecure."提示信息
在对mysql进行完整备份时使用--all-database参数 # mysqldump -u root -h localhost -p --all-database > /root/all.s ...
- EFCore中的导航属性
使用了这么久的EntityFrameworkCore框架,今天想来就其中的一个部分来做一个知识的梳理,从而使自己对于整个知识有一个更加深入的理解,如果你对EFCore中的实体关系不熟悉你需要有一个知识 ...
- scau 10692 XYM-入门之道
题目:http://paste.ubuntu.com/14157516/ 思路:判断一个西瓜,看看能不能直接吃完,如果能,就吃了.但是:如果不能,就要分成两半,就这样分割,不用以为要用到n维数组,用一 ...
- [C++] 例题 2.7.1 用栈实现简易计算器
目录 前置技能 栈 (stack) 中缀表达式 (InfixExp) 与后缀表达式 (PostfixExp) 需求描述 概要设计 函数详细设计 中缀转后缀 infix_to_postfix(strin ...
- 以php中的自增自自减运算符操作(整型,浮点型,字符串型,布尔型,空类型)数据
// 环境 // // php版本 // PHP 7.0.33-0+deb9u1 (cli) (built: Dec 7 2018 11:36:49) ( NTS ) // Copyright (c) ...
- PAT甲级题分类汇编——排序
本文为PAT甲级分类汇编系列文章. 排序题,就是以排序算法为主的题.纯排序,用 std::sort 就能解决的那种,20分都算不上,只能放在乙级,甲级的排序题要么是排序的规则复杂,要么是排完序还要做点 ...
- docker 实践四:数据管理
这篇是关于 docker 的数据管理. 注:环境为 CentOS7,docker 19.03. 一般容器中管理数据主要有两种方式: 数据卷(Data Volumes):容器内数据直接映射到本地主机环境 ...
- Scratch编程:多彩的舞台(六)
“ 上节课的内容全部掌握了吗?反复练习了没有,编程最好的学习方法就是练习.练习.再练习.一定要记得多动手.多动脑筋哦~~” 01 — 游戏介绍 这是一款简单的小游戏,实现了一个小女孩在多彩的舞台上进行 ...
- 图片上传怎么用File接受文件
xl_echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.——这才是真正的堪称强大!! - ...
- visualSVN server 安装成功,但是无法连接,url打不开
转自:https://www.oschina.net/question/878142_91825 点击开始–>程序->VisualSVN–>VisuaSVN Server Manag ...