参见 基于中文人员特征的性别判定方法 理论,告诉一个名字,来猜猜是男是女,多多少少有点算命的味道.此命题是一种有监督的学习方法,从标注好的训练数据学习到一个预测模型,然后对未标注的数据进行预测. 1.首先,有监督的学习方法,就需要这样一批标注数据:大量的人名,以及其性别.训练数据集参考 SofaSofa-数据科学社区 及其它网页爬取的数据: 2.对下载的数据进行清洗及特征提取,其流程如下: 根据姓氏辞典把姓氏去掉,留下不带姓氏的名字: 参见上一篇论文,特征有三个维度,分别用X1,X2,X3(=…