https://zhuanlan.zhihu.com/p/49991313 在将样本数据分成训练集和测试集的时候,应当谨慎地考虑一下是采用纯随机抽样,还是分层抽样. 通常,数据集如果足够大,纯随机抽样的方式,将样本数据分成两个子集是没有太大的问题. 如果不是,纯随机抽样肯可能会导致抽样数据偏差,影响训练效果,降低预测模型预测的准确性. 设想调查公司需要做1000份抽样调查,调查的问题和性别可能有较大的相关性.如果想让调查结果代表全国男性和女性对这些问题的看法,假设全国人口男女比例大致为60:40…