R基于Bayes理论实现中文人员特性的性别判定

参见基于中文人员特征的性别判定方法理论，告诉一个名字，来猜猜是男是女，多多少少有点算命的味道。此命题是一种有监督的学习方法，从标注好的训练数据学习到一个预测模型，然后对未标注的数据进行预测。

1、首先，有监督的学习方法，就需要这样一批标注数据：大量的人名，以及其性别。训练数据集参考 SofaSofa-数据科学社区及其它网页爬取的数据：

2、对下载的数据进行清洗及特征提取，其流程如下：

根据姓氏辞典把姓氏去掉，留下不带姓氏的名字；
参见上一篇论文，特征有三个维度，分别用X1,X2,X3(=X1X2)表示。如果是单字名，则X1为空格，X2为单字名，X3就是前两者拼接X1X2，清洗后的数据如下，gname (1:男，0:女）
数据清洗示例代码：

remove(list = ls())

space_path <- c("E:\\Teld_Work\\15_UserProfile\\srccode")

setwd(space_path)

Sys.setlocale(category = "LC_ALL",local="chinese")

##读取本地数据

##数据下载地址：http://sofasofa.io/competition.php?id=3& 及其它网络地址爬取

tbl1 <- read.table(file = "train.txt",header = TRUE,sep = ",",fill = TRUE,encoding = "UTF-8")

df <- data.frame(tbl1)

##将数据转入SqlServer进行清洗

chl <- odbcConnect("testsql", uid = "sqladmin", pwd = "123456a?")

sqlSave(chl,df,tablename = "U_demo")

close(chl)

##获取清洗完成的数据

library(RODBC)

chl <- odbcConnect("testsql", uid = "sqladmin", pwd = "123456a?")

df <- sqlQuery(chl,"select fn1,fn2,fn,gname from U_SexByNameSample")

close(chl)

##将数据转存为本地rda文件

save(df,file = "sexbyname.rda")

始于贝叶斯公式，对于名字X1X2,工程实现中，在预测阶段，可能会遇到一些特征在训练样本中没有，则需要做一下平滑（比如分子加一个很小的值），不然男女概率都为0，无法预测。
- P(男|X1X2)=P(男)*P(X1|男)*P(X2|男)*P(X1X2|男)
- P(女|X1X2)=P(女)*P(X1|女)*P(X2|女)*P(X1X2|女)
- 特别注意的是，P(X1|男)表示的是训练样本中，男性用户中，名字第一个字出现X1的概率，如果第二个字出现X1，不算在这里。
示例代码如下：

remove(list = ls())

space_path <- c("E:\\Teld_Work\\15_UserProfile\\srccode")

setwd(space_path)

##姓名拆分

buildVe <- function(name)

{

  len <- nchar(name)

  f2 <- substr(name,len,len)

  f1 <- c("")

  if (len > 2)

  {

    f1 <- substr(name,len-1,len-1)

  }

  fn <- paste0(f1,f2)

  return(c(f1,f2,fn))

}

#模型

naive.bayes.prediction <- function(name)

{

  if (exists("sexDf") == FALSE)

  {

    load("sexbyname.rda")

  }

  smv <- 0.001;   #解决特征在样本中没有的场景

  vec <- buildVe(name);

  #计算先验概率

  sex.M <- (sum(sexDf[,4] == "") + smv)/ length(sexDf[,4]);

  sex.F <- (sum(sexDf[,4] == "") + smv)/ length(sexDf[,4]);

  # 计算 name 是男性概率

  pred.M <-

    (sum((sexDf[,1] == vec[1]) & (sexDf[,4] == "")) + smv) / sum(sexDf[,4] == "") *

    (sum((sexDf[,2] == vec[2]) & (sexDf[,4] == "")) + smv) / sum(sexDf[,4] == "") *

    (sum((sexDf[,3] == vec[3]) & (sexDf[,4] == "")) + smv) / sum(sexDf[,4] == "") *

    sex.M; 

  # 计算 name 是女性概率

  pred.F <-

    (sum((sexDf[,1] == vec[1]) & (sexDf[,4] == ""))+ smv) / sum(sexDf[,4] == "") *

    (sum((sexDf[,2] == vec[2]) & (sexDf[,4] == ""))+ smv) / sum(sexDf[,4] == "") *

    (sum((sexDf[,3] == vec[3]) & (sexDf[,4] == ""))+ smv) / sum(sexDf[,4] == "") *

    sex.F;  

 ## return(list(post.pred.M = pred.M,

 ##              post.pred.F = pred.F,

 ##              prediction  = ifelse(pred.M >= pred.F, "男", "女")));

  return(paste0("pred.M:",pred.M,",pred.F:",pred.F,"; --prediction:",ifelse(pred.M >= pred.F, "男", "女")))

}

在实际应用中，这个模型适合于我们知道用户姓名但是不知道性别的情况，比如某电商网站，一般情况用户订单中填的收货人姓名都是真实的，注册信息中可能带有性别但是不靠谱可能是乱填的，随便写俩人员通过模型预估结果如下：

> naive.bayes.prediction("刘德华")

[1] "pred.M:2.03045549425324e-09,pred.F:1.68712051662787e-11; --prediction:男"

> naive.bayes.prediction("张学友")

[1] "pred.M:2.24279371989392e-11,pred.F:2.30827962001087e-16; --prediction:男"

> naive.bayes.prediction("金星")

[1] "pred.M:6.28564627624871e-09,pred.F:7.02613664124613e-10; --prediction:男"

> naive.bayes.prediction("李玉刚")

[1] "pred.M:6.06865747851669e-11,pred.F:1.22259348253025e-15; --prediction:男"

> naive.bayes.prediction("李冰冰")

[1] "pred.M:4.61521485457943e-11,pred.F:1.35846175847352e-10; --prediction:女"

> naive.bayes.prediction("章子怡")

[1] "pred.M:4.51645469372974e-09,pred.F:5.16427477696052e-09; --prediction:女"

>

R基于Bayes理论实现中文人员特性的性别判定的更多相关文章

R学习:《机器学习与数据科学基于R的统计学习方法》中文PDF+代码
当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家 ...
Chinese-Text-Classification，用卷积神经网络基于 Tensorflow 实现的中文文本分类。
用卷积神经网络基于 Tensorflow 实现的中文文本分类项目地址: https://github.com/fendouai/Chinese-Text-Classification 欢迎提问:ht ...
基于LeNet网络的中文验证码识别
基于LeNet网络的中文验证码识别由于公司需要进行了中文验证码的图片识别开发,最近一段时间刚忙完上线,好不容易闲下来就继上篇<基于Windows10 x64+visual Studio2013 ...
基于MMSeg算法的中文分词类库
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(ht ...
Atitit atiplat_reader 基于url阅读器的新特性
Atitit atiplat_reader 基于url阅读器的新特性 1.1. feature功能特性1 1.2. note1 1.1. feature功能特性支持url数据源,实际就是只支持一层连 ...
基于深度学习的中文语音识别系统框架（pluse）
目录声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
《基于SD-SEIR模型的实验室人员不安全行为传播研究》
My Focus:基于SD-SEIR模型的实验室人员不安全行为的传播; 建模与实验仿真 Title: Study on Porpagation of Unsafe Bhavior of Laborat ...

随机推荐

Spring Boot 揭秘与实战（七）实用技术篇 - Java Mail 发送邮件
文章目录 1. Spring Boot 集成 Java Mail 2. 单元测试 3. 源代码 Spring 对 Java Mail 有很好的支持.因此,Spring Boot 也提供了自动配置的支持 ...
The repository 'http://cdn.debian.net/debian stretch Release' is not signed.
/********************************************************************************* * The repository ...
c++函数参数类型-引用、指针、值
c++函数参数类型-引用.指针.值 https://www.cnblogs.com/lidabo/archive/2012/05/30/2525837.html
ajax遍历数组对象
success: function(data){ console.log(data); for (var warn in data) { alert(data[warn].kh_lxr); } } d ...
day 018 面向对象--约束和异常处理
---恢复内容开始--- 主要内容; 类的约束异常处理自定义异常 MD5加密日志一类的约束 (约束是对类的约束,) 看个例子: 这是领导分配给每个人的项目,要求每人写个功能结果如下: 例 ...
opencv学习记录
#include<iostream> #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui ...
（5）MySQL的查询：模糊查询（通配符查询like）、限制符查询（limit）、排序查询（order by）、分组查询（group by）、（子查询）
注意事项指令语法的优先级: where > group by >order by > limit 例:select count(id) as cnt,age from tablen ...
【java编程】String拼接效率探究
转载:https://maimai.cn/article/detail?fid=1139790318&efid=0-ey6pWIySdmkx82QO-OSw 字符串,是Java中最常用的一个数 ...
mysqldump命令之single-transaction
=========================================================在mysqldump中指定single-transaction时,会使用可重复读(RE ...
NALU数据打RTP包流程详解
最近在看RTP发送H264数据的文章,感觉很乱,没有比较清晰易懂的教程,自己整理了一下各种资料,备忘! --------Part A ---- 先说说H264数据,H264在网络传输的是NALU(N ...

R基于Bayes理论实现中文人员特性的性别判定

R基于Bayes理论实现中文人员特性的性别判定的更多相关文章

随机推荐

热门专题