abstract

近年来,个性的自动预测受到了广泛关注。 具体而言,从多重数据(多模态) 预测人格已成为情感计算领域的热门话题。 在本文中,我们回顾了用于个性检测的重要机器学习模型,重点是基于深度学习的方法。 这篇综述文章概述了最流行的人格检测方法,各种计算数据集,工业应用以及用于人格检测的最新机器学习模型,文章将重点关注多模态。 人格检测是一个非常广泛而多样的主题:本次调查仅关注计算机方法方法,而没有进行关于人格检测的心理学研究。

1. introduction

人格是个人的行为,情感,动力和思想模式特征的组合。我们的性格对我们的生活有很大的影响,影响我们的生活选择,福祉,健康以及我们的喜好和欲望。因此,自动检测人格特征的能力具有许多重要的实际应用。伍德沃思精神神经病学调查表(Papurt,1930年)通常被称为第一个人格测验。它是在第一次世界大战期间为美国军方开发的,目的是对新兵进行创伤后应激障碍 的筛查。如今,PCM 是一种广泛使用和被认可的个性模型。它是由Taibi Kahler在NASA资助下开发的,最初用于协助航天飞机宇航员的选择。现在,该模型主要用于个人咨询,用以帮助个人提高沟通效率。

除了直接确定一个人的个性之外,人们可能还想知道周围的人如何看待他们。与自动人格识别不同,感知人格分析的目标不是自己认为的真实人格,而是与之互动的人是如何看待他们的他们的人格。测试方法是, 被测者的周围的人填写个性问卷,然后确定该被测者人的感知个性

1.1 个性衡量方法

表示个性的方法有很多种,有16PF (Cattell and Mead 2008), EPQ-R (Miles and Hempel 2004), PEN (Eysenck 2012), The MyersBriggs Type Indicator (MBTI)等, 感兴趣的可以自己拓展

比较流行的就是Big-Five, 将一个人的个性分为

  • Extraversion
  • Neuroticism
  • Agreeableness
  • Conscientiousness
  • Openness

衡量标准是 Yes /No, 是否具有这方面的个性特点

1.2 应用前景

可以用作以下这些方面:

Enhanced personal assistants 应用于个人助手, Siri等,使之根据不同用户的不同性格产生个性化的回应
Recommendation systems 推荐系统
Word polarity detection 流行词的探测
Specialized health care and counseling 心理健康咨询
ForensicsIf 犯罪侦查,通过探测在场人员的性格,减少犯罪嫌疑人的范围
Job screening 帮助雇佣者找到更符合此工作(性格检测)的人
Psychological studies 心理学研究
Political forecasting 帮助政客提出更有效的拉票方案

1.3 伦理道德

讨论了个性探测的合法性, 目前对于这方面的法律不健全, 而且分析他人的性格是否是一种侵犯有待商榷。

2. Related works

  • 2014年以前, 使用 Naïve Bayes, kNN, mLR, Gaussian Process 这种浅学习技术进行分类
  • 2014年后, 逐步采用了深度学习模型来提升准确率
  • 2016年, 使用来**simage processing techniques(图片处理技术) and facial feature analysis(面部特征分析)**进行对图片上的个性分析
  • 使用不同的个性衡量标准如, MBTI以及加入了不同的指标如, unhappy, weird, intelligent, confident,等等
  • 2014年, Vinciarelli and Mohammadi 等人 将性格探测分出来三个下游任务, -
    • Automatic Personality Perception (APP) 个性感知
    • Automatic Personality Synthesis (APS)
    • AutomaticPersonality Recognition (APR). 个性识别
  • 2018年, 使用多模态技术, 将不同的数据(文本,图像)同时输入到模型中

3. Baseline methods

介绍一些基本的模型,结构和技术

3.1 文本

文本分为三个个方面

  • 通过LIWC, MRC等文本特征提取技术以及简单的分类器(SVM, SMO)进行分类
  • 通过fine-tune的词嵌入模型(GloVe or Word2Vec)结合深度神经网络(LSTM,GRU )等进行分类
  • 两者结合

3.2 音频

这个领域方法稍微少些, 主要是利用一些标准的声音特征提取模型,例如Mel-Frequency Cepstral Coefficients (MFCC), Zero Crossing Rate (ZCR), Logfbank, 然后再加上简单分类器SVM等

3.3 图像

首先是使用一些基本的CNN。

使用来一些fine-tuned的模型如,VGG-Face,EigenFace,等

3.4 多模态

将以上的两类或三类的数据,输入到一个多模态的模型中,比较常见的有Deep Residual Networks

目前流行的特征提取工具以及介绍

4. Detailed overview

4.1 文本

4.1.1 LIWC/MRC

  • LIWC是一个基于心理学的文本情感分析关键, 它根据心理学研究将要单词分成不同的单词种类, 然后计算每个种类的频率, 将其作为模型输入, 然后进行分类。
  • The PR2 system (Celli and Poesio 2014) 则是从LIWC/MRC进一步提取出特征,例如标点符号等,不同的是,只有提取的特征数值大于平均值,才能被用来进行分类, 研究发现这些特征和人的个性具有相关性。这项技术虽然没有提升准确性,但是却有助于更有效的特征提取

4.1.2 Receptiviti API

这个是基于LIWC, 相当于LIWC的API, 通过提交文本, 返回文本的特征提取结果, 但是这个API对于社交媒体的文本的效果不是很好。

4.1.3 社交网络文本研究

  • 当前,通过社交网络上的文本进行性格探测,非常流行 Kalghatgi et al. (2015)等人,将用户的社交习惯(平均使用表情数目)以及 文本的语言学特征(平均文本长度)作为特征输入,然后输入到a Multi-Layer Perceptron (MLP).(多重感知器)进行分类预测

4.1.4 深度神经网络应用

  • 对于新的数据集consciousness essay dataset (Pennebaker and King 1999)文本类型是文章, Majumder et al. (2017)等人使用CNN来进行文章的特征提取,下图是具体的网络结构, 其中:每一篇文章,看成句子向量的集合,句子向量是通过对单词向量的卷积形成, 单词使用Word2Vec进行词嵌入,最终得到的文档向量, 文档向量再加上LIWC和MRC提取的特征作为提取的最终结果, 将此结果放入一个全连接层,接Sofmax,求出yes/no的概率。

  • Hernandez and Scott (2017) 等人,则另辟蹊径, 将表示好的句向量,作为一个时间序列, 输入到一个循环神经网络中(用了多种, RNN, LSTM, 双向LSTM, GRU)
  • Liu et al. (2016) 等人则不用GloVe 和 Word2Vec, 而是使用一个双向的GRU进行词嵌入, 将单词向量组再输入到一个双向的RNN形成句向量, 最终放到前馈神经网络进行预测分类。结果发现此模型在corpus of Tweets. 的结果较好。
  • Sun et al. (2018) 提出了Latent Sentence Group用来表示文章特征, LSG的提取是通过双向的LSTM,以及CNN得出的, 文章细节可以看Who Am I? Personality Detection based on Deep Learning for Texts 阅读笔记

4.1.5 SenticNet 5

(Cambria et al. 2018)等人 使用SentiNet模型, 此模型结合了情感分析的两类方法(基于统计模型基于知识模型), 利用此网络提取出的特征,放到SMO(序列最小优化算法)进行分类。

4.1.6 weighted ML-kNN(多标签学习)

Zuo (2013)等人认为,每个性格类别之间是有一定的关联的, 准确率提不高的原因在于5个类别,同时训练5个分类器,独立分类。于是他们选择多标签学习模型进行分类,提取出的特征权重,使用熵权理论得出。

4.1.7 其他信息作为特征加入

  • (Chittaranjan et al. 2011) 不局限于单纯的文本, 他将研究方向转到来与人息息相关的手机信息上, 他开发一个软件, 提取用户的手机习惯(应用打开频率, 音乐偏好等)作为提取的特征,然后使用了回归分析, SVM, C4.5等进行分类。
  • conversations作为特征, 有时候是通过两个个体的聊天记录来进行个性探测, 信息作为一个时序序列, 被放到RNN中,**Su et al. (2016)提出了Hidden Markov Model HMM **模型通过输入两个人的对话记录,来进行个性探测。

    Conversational Dialog Corpus作为数据集

4.2 语音

4.3 图像

4.4 双模态

4.5 多模态

5 Results and discussions

6 Conclusion

个性探测综述阅读笔记——Recent trends in deep learning based personality detection的更多相关文章

  1. 论文笔记: Deep Learning based Recommender System: A Survey and New Perspectives

    (聊两句,突然记起来以前一个学长说的看论文要能够把论文的亮点挖掘出来,合理的进行概括23333) 传统的推荐系统方法获取的user-item关系并不能获取其中非线性以及非平凡的信息,获取非线性以及非平 ...

  2. Multimodal Machine Learning:A Survey and Taxonomy 综述阅读笔记

    该笔记基于:Multimodal Machine Learning:A Survey and Taxonomy 该论文是一篇对多模态机器学习领域的总结和分类,且发表于2017年,算是相当新的综述了.老 ...

  3. [Tutorial]综述阅读笔记 <Visual Odometry PartII_Introduce about BA>

    目录 Visual Odometry: Part II - Matching, Robustness, and Applications ---- paper notes 特征点的选择与匹配 特征点匹 ...

  4. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

  5. 论文阅读笔记十六:DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)

    论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-Decon ...

  6. 论文阅读笔记六十三:DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling(CVPR2017)

    论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要 本文重新定义了目标检测,将其定义为 ...

  7. 论文阅读笔记五十七:FCOS: Fully Convolutional One-Stage Object Detection(CVPR2019)

    论文原址:https://arxiv.org/abs/1904.01355 github: tinyurl.com/FCOSv1 摘要 本文提出了一个基于全卷积的单阶段检测网络,类似于语义分割,针对每 ...

  8. Joint Deep Learning for Pedestrian Detection笔记

    1.结构图 Introduction Feature extraction, deformation handling, occlusion handling, and classification ...

  9. 【论文笔记】DeepOrigin: End-to-End Deep Learning for Detection of New Malware Families

    DeepOrigin: End-to-End Deep Learning for Detection of New Malware Families 标签(空格分隔): 论文 论文基本信息 会议: I ...

随机推荐

  1. [Qt插件]-03创建Qt Designer自定义部件

    如何创建自定义部件并添加到Qt Designer来爽快的拖动部件可视化界面设计?   Qt Designer基于插件的架构使得它可以使用用户设计或者第三方提供的自定义部件,就像使用标准的Qt部件一样. ...

  2. CentOS 无法加载 ntfs文件系统类型解决办法

    问题: CentOS无法加载ntfs 文件系统类型的移动硬盘. 解决办法: 1.下载rpmforge,下载对应的版本.(对应的CentOS版本,并区分32位和64位). 例如: wget http:/ ...

  3. 为啥Underlay才是容器网络的最佳落地选择

    导语: 几年前,当博云启动自研容器网络研发的时候,除了技术选型的考虑,我们对于先做 Underlay 还是 Overlay 网络也有过深度的讨论.当时的开源社区以及主流容器厂商,多数还是以 Overl ...

  4. .clearfix 清除浮动,@import

    我们知道,在网页的DIV+CSS布局中,很多时候要用到浮动. 既然有浮动,那就有清除浮动. 清除浮动有很多种方式,而在实际项目中,比较常用的是这一种. .clearfix:after { conten ...

  5. ES6面试

    未完持续 概念 ECMAScript6(以下简称ES6)是 JavaScript 语言的下一代标准,前者是后者的规格,后者是前者的一种实现. ES6(新增的)一些特性 1.变.常量:let声明变量,c ...

  6. git pull & git fetch

    Git中从远程的分支获取最新的版本到本地有这样2个命令:1. git fetch:相当于是从远程获取最新版本到本地,不会自动merge   git fetch origin mastergit log ...

  7. Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载|百度云盘

    百度云盘:Python 3爬虫.数据清洗与可视化实战PDF高清完整版免费下载 提取码: 内容简介 <Python 3爬虫.数据清洗与可视化实战>是一本通过实战教初学者学习采集数据.清洗和组 ...

  8. BUUCTF-web ikun(Python 反序列化)

    正如本题所说,脑洞有点大.考点还很多,不过最核心的还是python的pickle反序列化漏洞 题目中暗示了要6级号,找了很多页都没看到,于是写了脚本 在第180页有6级号,但是价格出奇的高,明显买不起 ...

  9. 第十一章 容器类&新日期时间

    11.1.Optional 容器类 11.1.1.概述 Optional 类是一个容器类,代表一个值存在或不存在, 原来用 null 表示一个值不存在,现在 Optional类 可以更好的表达这个概念 ...

  10. 第五章 泛型&集合

    5.1.泛型 概述:泛型是是JDK5中引入的特性,它提供了编译时类型安全检测机制,该机制允许在编译时检测到非法的类型,它的本质是参数化类型,也就是说所操作的数据类型被指定为一个参数. 泛型类: // ...