Python 按分类样本数占比生成并随机获取样本数据

按分类样本数占比生成并随机获取样本数据

By:授客 QQ：1033553122

开发环境

win 10

python 3.6.5

需求

已知样本分类，每种分类的样本占比数，及样本总数，需要随机获取这些分类的样本。比如，我有4种任务，分别为任务A，任务B，任务C，任务D, 每种任务需要重复执行的总次数为1000，每次执行随机获取一种任务来执行，不同分类任务执行次数占比为 A:B:C:D = 3:5:7:9

代码实现

#!/usr/bin/env python

# -*- coding:utf-8 -*-

__author__ = 'shouke'

import random

def get_class_instance_by_proportion(class_proportion_dict, amount):

    """

    根据每种分类的样本数比例，及样本总数，为每每种分类构造样本数据

    class_proportion_dict: 包含分类及其分类样本数占比的字典：{"分类(id)": 分类样本数比例}

    amount: 所有分类的样本数量总和

    返回一个列表：包含所有分类样本的list

    """

    bucket = []

    proportion_sum = sum([weight for group_id, weight in class_proportion_dict.items()])

    residuals = {} # 存放每种分类的样本数计算差值

    for class_id, weight in class_proportion_dict.items():

        percent = weight / float(proportion_sum)

        class_instance_num = int(round(amount * percent))

        bucket.extend([class_id for x in range(class_instance_num)])

        residuals[class_id] = amount * percent - round(amount * percent)

    if len(bucket) < amount:

        # 计算获取的分类样本总数小于给定的分类样本总数，则需要增加分类样本数,优先给样本数计算差值较小的分类增加样本数，每种分类样本数+1，直到满足数量为止

        for class_id in [l for l, r in sorted(residuals.items(), key=lambda x: x[1], reverse=True)][: amount - len(bucket)]:

            bucket.append(class_id)

    elif len(bucket) > amount:

        # # 计算获取的分类样本总数大于给定的分类样本总数，则需要减少分类样本数,优先给样本数计算差值较大的分类减少样本数，每种分类样本数-1，直到满足数量为止

        for class_id in [l for l, r in sorted(residuals.items(), key=lambda x: x[1])][: len(bucket) - amount]:

            bucket.remove(class_id)

    return bucket

class A:

    def to_string(self):

        print('A class instance')

class B:

    def to_string(self):

        print('B class instance')

class C:

    def to_string(self):

        print('C class instance')

class D:

    def to_string(self):

        print('D class instance')

classes_map = {1: A, 2: B, 3:C, 4: D}

class_proportion_dict = {1: 3, 2: 5, 3:7, 4: 9} # {分类id: 样本数比例} ，即期望4个分类的样本数比例为为 3:5:7:9

class_instance_num = 1000 # 样本总数

result_list = get_class_instance_by_proportion(class_proportion_dict, class_instance_num)

for class_id in class_proportion_dict:

    print('%s %s' % (classes_map[class_id], result_list.count(class_id)))

# 制造样本并随机获取样本

random.shuffle(result_list)

while result_list:

    class_id = random.sample(result_list, 1)[0]

    classes_map[class_id]().to_string()

    result_list.remove(class_id)

运行结果

说明

以上方式大致实现思路就是在知道总样本数的情况下，提前为每种分类生成样本，然后随机获取，按这种方式可以实现比较准确的结果，但是得提前知道样本总数及不同分类样本数占比

Python 按分类样本数占比生成并随机获取样本数据的更多相关文章

PYTHON练习题二. 使用random中的randint函数随机生成一个1~100之间的预设整数让用户键盘输入所猜的数。
Python 练习标签: Python Python练习题 Python知识点二. 使用random中的randint函数随机生成一个1~100之间的预设整数让用户键盘输入所猜的数,如果大于预设的 ...
Python解决数据样本类别分布不均衡问题
所谓不平衡指的是:不同类别的样本数量差异非常大. 数据规模上可以分为大数据分布不均衡和小数据分布不均衡.大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种 ...
python实现的json数据以HTTP GET,POST,PUT,DELETE方式页面请求
一.JSON简介 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.易于人阅读和编写.同时也易于机器解析和生成.它基于JavaScript Programm ...
关于VisualStudio性能分析数据中的独占样本数和非独占样本数的意义
VisualStudio中自带有Profile工具进行性能性能分析,其中用得比较多的数据是函数调用时间,它主要有独占样本数和非独占样本数两个指标,关于这两个指标代表的意义,MSDN的解释比较文艺: 非 ...
Python数据分析【炼数成金15周完整课程】
点击了解更多Python课程>>> Python数据分析[炼数成金15周完整课程] 课程简介: Python是一种面向对象.直译式计算机程序设计语言.也是一种功能强大而完善的通用型语 ...
Python测试开发-浅谈如何自动化生成测试脚本
Python测试开发-浅谈如何自动化生成测试脚本原创: fin 测试开发社区前天阅读文本大概需要 6.66 分钟. 一 .接口列表展示,并选择在右边,点击选择要关联的接口,区分是否要登录, ...
python 文本分类
python 文本分类 pyhton 机器学习待续...
采用boosting思想开发一个解决二分类样本不平衡的多估计器模型
# -*- coding: utf-8 -*- """ Created on Wed Oct 31 20:59:39 2018 脚本描述:采用boosting思想开发一个 ...
【Python】Python获取命令行參数
有时候须要用同一个Python程序在不同的时间来处理不同的文件,此时假设老是要到Python程序中去改动输入.输出文件名称.就太麻烦了. 而通过Python获取命令行參数就方便多了.以下是我写得一个小 ...
13、Selenium+python+API分类总结
Selenium+python+API分类总结 http://selenium-python.readthedocs.org/index.html 分类方法方法描述客户端操作 __init__( ...

随机推荐

Vue.js条件渲染与列表渲染指南
title: Vue.js条件渲染与列表渲染指南 date: 2024/5/26 20:11:49 updated: 2024/5/26 20:11:49 categories: 前端开发 tags: ...
Android 13 - Media框架（25）- OMXNodeInstance（二）
关注公众号免费阅读全文,进入音视频开发技术分享群! 上一节我们了解了 OMXNodeInstance 的创建过程,以及 IOmx 服务和 OMXNodeInstance.OMX组件之间的联系.接下来我 ...
vscode开发一个luaIDE插件
基础知识环境准备 node.js 下载后下一步下一步即可安装成功,推荐LTS版本 yeoman 脚手架工具,也就是快速帮你新建一个插件所需的目录的工具,在工作目录下cmd,输入下列命令即可安装 np ...
sort awk 文本处理命令
sort: 1.将文件的每一行作为一个单位,相互比较 2.默认升序 3.以字符来进行对比,从首字符开始往后,依次按ASCII码值排序 sort 显示文件内容 (类似cat) 选项: -u 去掉重复行 ...
item2 报错 a session ended very soon after starting. check that the command in profile default
周末修改了阿里云 ecs 实例密码,再次用item2 远程连接服务器时,报一下的错误: 原因每次使用ssh 远程新的连接,都会在 ~/.ssh/known_hosts 文件上生成 ssh 秘钥对,更 ...
react类组件组件传值
class Cmp1 extends React.Component{ render(){ return ( <div>{ this.props.name } -- 我是一个类</d ...
gRPC入门学习之旅（十）
gRPC入门学习之旅目录 gRPC入门学习之旅(一) gRPC入门学习之旅(二) gRPC入门学习之旅(三) gRPC入门学习之旅(四) gRPC入门学习之旅(七) gRPC入门学习之旅(九) 3. ...
mongodb基于角色的访问控制
https://www.mongodb.com/docs/v4.4/tutorial/enable-authentication/ https://www.mongodb.com/docs/manua ...
Xcode编译错误看不到错误详情
问题描述 Xcode提示错误后想详细看报错信息无论如何双击都不见弹出错误详情. 解决办法不知道是bug还是苹果婊又自作主张改变用户习惯了,需要点击navigator最右边的一个图标,在里面找到相应的 ...
LLM技术全景图：技术人必备的技术指南，一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理 LLM 技术图谱(LLM Tech Map)是将 LLM 相关技术进行系统化和图形化的呈现,此图谱主要特点是&qu ...

Python 按分类样本数占比生成并随机获取样本数据

Python 按分类样本数占比生成并随机获取样本数据的更多相关文章

随机推荐

热门专题