一摘要：

name entity disambiguation：将对应多个人的记录进行分组，使得每个组的记录对应一个人。
现有的方法多为批处理方式，需要将所有的记录输入给算法。
现实环境需要1：以oneline的方式解决这类问题

　　　　　　　　 2：能够处理新出现的ambiguous entities。

本文提出： Bayesian non-exhaustive classification framework。

　　用a Dirichlet process prior with a Normal × Normal × Inverse Wishart data model解决新的ambiguous entities。
　　用one sweep Gibbs sampler来解决oneline问题。

二简介：

　　name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用？？？？

information retrieval：
digital forensic（数字取证）：
social network analysis：

　　现有方法分类：

supervised和unsupervised
机器学习方法（svm，markov random field，graph clustering）
数据来源(内部的和外部的（wikipedia）)

　　上述方法的限制：

operate in a batch mode：算法获取所有的records，然后从这些records中提取features训练learning model。因此，它们不能处理新出现的ambigu entities。

当有新的ambigu entities出现时，重新运行一遍算法是不现实的。

　　本文方法：

　　采用机器学习的non-exhaustive learning（考虑到这样一种场景：training data缺失某一些classes，使得不但能够对现有的entities进行消歧，也可以对新出现的ambiguous entities进行消歧）。

　　given a non-exhaustive training data，

用Dirichlet process prior来建模both known and emerging class（已知的和将要出现的类），
用Normal distribution建模每一个class distribution。
用Normal×Inverse Wishart（NIW）prior来为每一个class distribution建模mean vectors和covariance matrices

　online：对于每一个新的record，计算类条件概率（同时考虑这个record由新class产生的可能性）。

　　　　当有新class出现时，就更新class set，然后用新的classification model来对记录进行分类。

　　本文的方法能够同时进行online classification和noval class discovery。

三 related work：

四问题形式化：

Xn是name reference a的records流。xi ∈ Xn可表示成d维的vector ，a实际对应着k个人， k一般未知，而且随着时间，k会增长。

name entities disambiguation：就是要将Xn分为k个不相交的set，每个set的records对应着同一个人。

online name entities disambiguation：为每一个新的records分到一个合适的set中。

　　面临的挑战

挑战1：出现新实体的records。所以一个学习模型需要在non-exhaustive的设定下工作（就是training data中有些类的records完全没有）。现有的解决方法：聚类，缺点：不够健壮，聚类参数的小改变可能会引起聚类结果的大改变。

挑战2：online name entities disambiguation是一个非常不均衡的classification task。早期出现的entity是domain entities，使得验证新的entities更加困难。

挑战3：在online learning scenario，新的records作为测试集的一部分，learning model需要判断此records是否属于新的class，如果属于新的class，model需要调整自己，使得模型能够验证新class的records。也就是更新classes，并能够将新的records分类到已有的class和新的class。

挑战4：在online setting下，records要按照时间进行排列，一个新的records不能用来训练模型预测旧的records。

五 entity disambiguation on bibliographic data：

为每一个name referende构造一个model，记录流Xn按照时间进行排序。利用author-list，kwywords from paper，paper venue这些信息，为每一篇paper 提取出features。

　　feature matrix construction and preprocess：

data matrix X_n ∈ IR_{n×d，每一个paper都有一个class label li，表示属于第i-th个不同的人。}

特征向量构造：

author information：将all-paper的作者聚集到一起，然后为每一个author定义一个binary feature representation。
keyword based features：首先过滤掉一些预先定义的stop words，然后用剩下的word构建feature。同样定义一个binary feature
publications venues：以同样的方式构建binary feature。

（预处理：维度规约）

Dimensionality reduction：因为Xn非常稀疏，用非负矩阵分解的方式将 X_n ∈ IR_{n×d映射到En ∈ IRn×h h是隐层的维度。}

首先在最初可用的记录上进行非负矩阵分解，产生base向量，然后在online环境下，对于新观测到的records用base vector的线性结合表示，base vector的系数作为新纪录的隐层特征值

那么如何学习系数呢？

解决一个带限制的二次编程问题，通过在系数非负的限制下最小化最小二乘损失函数。

用Incremental NNMF的目的：为新的记录发现隐层特征表示，来更好地拟合本文提出的Normal×Normal×Inverse Wishart（NNIW） data model。？？？？？

形式化online name disambiguation：

给定一个time-stamped partition t0，考虑两种类型的records，一种是 training set中最初可用的records（class标签已知），另一种是oneline环境下新观测到的records（class信息不明确）。

最初可用的records streams： En = {e1, ..., ei, ..., en}， e1.t ≤ ... ≤ ei.t ≤ ... ≤ en.t <=t0

Yn = (y1, ..., yi, ..., yn) 是class label vector，其中 yi ∈ {l1, .., lk} k是training set中的不同的类别数。

为区别初始的records和online observed records，用 ˜ei ∈ IR^1×h表示第i个observed的记录。用 E˜r = {e˜₁, ..., e˜_i, ..., e˜_r}表示时间t0之后的online observed records。即t0 ≤ e˜₁.t ≤ ... ≤ e˜_r.t.

随着新records的出现，当出现新的ambiguous authors时，k会变大，我们用Y˜r = (˜y1, ..., y˜i, ..., y˜r) 表示新记录的class information。其中 y˜_i ∈ {l₁, ..., l_k˜r+k } 其中 ˜k_r是新出现的class数。

六 Method:

Dirichlet Process Prior Model

Bayesian Non-Exhaustive Online Classification

Gibbs Sampler for Non-Exhaustive Learning

Data Model

七实验：

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams的更多相关文章

Data Visualization – Banking Case Study Example (Part 1-6)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
Deep Learning-Based Video Coding: A Review and A Case Study
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1.Abstract: 本文主要介绍的是2015年以来关于深度图像/视频编码的代表性工作,主要可以分为两类:深度编码方案以及基于传统编码方 ...
Case Study: Random Number Generation(翻译教材)
很荣幸,经过三天的努力.终于把自己翻译的教材做完了,现在把它贴出来,希望能指出其中的不足. Case Study: Random Number Generation Fig. 6.7 C++ 标 ...
课程三(Structuring Machine Learning Projects)，第一周（ML strategy（1）） —— 1.Machine learning Flight simulator:Bird recognition in the city of Peacetopia (case study)
[]To help you practice strategies for machine learning, the following exercise will present an in-de ...
Attacking JavaScript Engines: A case study of JavaScriptCore and CVE-2016-4622（转）
转:http://phrack.org/papers/attacking_javascript_engines.html Title : Attacking JavaScript Engines: A ...
【ASE模型组】Hint::neural 模型与case study
模型基于搜索的提示系统我们的系统用Pycee针对语法错误给出提示.然而,对于语法正确.结果错误的代码,我们需要另外的解决方式.因此,我们维护一些 (错误代码, 相应提示) 的数据,该数据可以由我们 ...
关于运维之故障复盘篇-Case Study
关于故障的事后复盘,英文名 Case Study是非常有必要做的,当然是根据故障的级别,不可能做到每个故障都Case Study,除非人员和时间充足: 文档能力也是能力的一种,一般工程师的文档能力比较 ...
李宏毅机器学习课程---2、Regression - Case Study
李宏毅机器学习课程---2.Regression - Case Study 一.总结一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果有这样的因素存在的话模型不够好,可能是因素没有找全 ...
你从未见过的Case Study写作指南
Case Study,意为案例分析,Case Study与其它的留学论文作业最大的的差别就在于Case Study在论文开始就需要明确给出论,然后再阐述这个结论的论证依据和理由.留学生们需要知道的是C ...

随机推荐

「SP25784」BUBBLESORT - Bubble Sort 解题报告
SP25784 BUBBLESORT - Bubble Sort 题目描述 One of the simplest sorting algorithms, the Bubble Sort, can b ...
Hello2020（前四题题解）
Hello,2020!新的一年从快乐的掉分开始…… 我在m3.codeforces.com这个镜像网站中一开始还打不开D题,我…… 还有话说今天这场为什么那么多二分. 比赛传送门:https://co ...
如何验证docker-compose安装成功
安装过程及如何验证docker-compose安装成功步骤1: 通过运行 curl 从GitHub上进行安装下载 sudo curl -L "https://github.com/dock ...
MySQL故障演习
MySQL故障演习接上次的 MySQL定时备份该次实验主要是练习在MySQL数据库发生误删等意外情况下,利用全量备份文件和增量备份文件恢复数据. 1. 实验环境 -- 创建数据库 create d ...
代码注释规范-IDEA 配置 Java 类方法注释模板
1. 引言团队开发时,业务模块分配的越清晰,代码注释管理越完善,越有利于后面维护,后面再管理也方便不少.另外也起着"文字砖"的作用,你懂的.注释不需要很详细,把代码块方法 ...
C#实现文件Move操作和文件的Copy操作
文件移动(Move)操作和文件的复制(Copy)是C#程式开发经常遇到的方法,根据传入的源文件地址和目标文件地址参数,实现对文件的操作.实现代码如下: Move操作代码: public static ...
docker学习1--dockerfile
记录docker学习过程实践启动一个redis server 命令之前要弄懂 dockfile 镜像容器三者概念以及三者之间的关系 dockerfile格式 # Comment 注释 INST ...
通过模拟Mybatis动态代理生成Mapper代理类，讲解Mybatis核心原理
本文将通过模拟Mybatis动态代理生成Mapper代理类,讲解Mybatis原理 1.平常我们是如何使用Mapper的先写一个简单的UserMapper,它包含一个全表查询的方法,代码如下 pub ...
python 生成器，迭代器，闭包，装饰器
1.生成器,迭代器,闭包,装饰器的优点生成器就是一类特殊的迭代器迭代器的优点也即生成器的优点: 1.节约内存.python在使用生成器时对延迟操作提供了支持. 2.迭代到下一次的调用时,所使用的参 ...
ancconda创建爬虫项目
# 安装 conda env list conda create -n <envname> conda activate <envname> conda install scr ...

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams

一 摘要：

二 简介：

name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用 ？？？？

现有方法分类：

上述方法的限制：

本文方法：

本文的方法能够同时进行online classification和noval class discovery。

三 related work：

四 问题形式化：

面临的挑战

五 entity disambiguation on bibliographic data：

feature matrix construction and preprocess：

六 Method:

Dirichlet Process Prior Model

Bayesian Non-Exhaustive Online Classification

Gibbs Sampler for Non-Exhaustive Learning

Data Model

七 实验：

Bayesian Non-Exhaustive Classification A case study:online name disambiguation using temporal record streams的更多相关文章

随机推荐

热门专题

一摘要：

二简介：

　　name entity disambiguation在 information retrieval，digital forensic（数字取证）和social network analysis方面有广泛应用？？？？

　　现有方法分类：

　　上述方法的限制：

　　本文方法：

　　本文的方法能够同时进行online classification和noval class discovery。

四问题形式化：

　　面临的挑战

　　feature matrix construction and preprocess：

七实验：