论文笔记-Mining latent relations in peer-production environments

背景

用户合作产生内容的网站越来越多，有许多隐藏的信息可以去挖掘
wiki上保存了贡献者的编辑记录，提供了非常多的有用的信息
研究发现，大部分的贡献者仅仅会参与编辑很小数量的文章，修改的版本也有限制，通常也只在某几个特定的领域/话题中
含有某个主题的文章通常指吸引特定一部分的读者和编辑者

论文关注点

提出一个新的相似度计算方法 expert-based similarity 应用于维基上有争论性的文章集，从而达到更好的聚类效果
维基上争论性的文章的缘由是和自身的特定主题相关的，而不是相关编辑参与者

论文实验方法

比较已有的三种相似度方法：cosine similarity；SimRank；P-Rank
expert-based similarity的理论假设：如果两篇文章被同一个人编辑过，我们则认为该两篇文章是相似的
使用了下面三种方法来检测维基上文章的相关性

Relevance aspect Similarity Relation type

Content Cosine similarity Explicit

Hyperlink P-Rank and SimRank similarities Implicit

Co-editorship Expert-based similarity Implicit

Relevance aspect	Similarity	Relation type
Content	Cosine similarity	Explicit
Hyperlink	P-Rank and SimRank similarities	Implicit
Co-editorship	Expert-based similarity	Implicit

文章一共进行了三次实验来评价以上相似度方法，并验证了方法在大量数据上的一般性
1. 第一次实验使用了compactness指标来评价聚类效果，聚类算法使用了K-Medoids，相似度算法使用了SimRank和P-Rank，同时为了避免选择K时带来的干扰，使用了DBScan方法避免预先指定聚类的个数K
  
  expert-based方法结果最稳定，有较高的性能和鲁棒性
  SimRank方法的结果最坏
  通过人工方法的评测发现，expert-based方法对于发现维基中语义相关的文章非常有用
2. 第二次实验利用了分类标签，用purity和entropy来评价聚类效果，聚类使用了K-Medoids和AHC，相似度使用了上述4种方法
  
  总的来说，expert-based方法在量化wiki文章的相关性上是一种有效的措施
3. 第三次实验是在大规模的文档集上评价了expert-based similarity

数据的准备：选用了宗教主题相关的文章，考虑到里面争论性的比例比较大；选取的文章保证有5个以上的编辑者；对于基于内容的相似度方法，通常选取最近的5个版本；对于基于超链接的选择最近的3到5个含有链接的版本
expert-based方法的优势在于对于破坏性的大量的编辑有较好的防范性，原因在于它采用了类似IDF的计算方法
第五章验证了导致争论的主要原因
如果两个用户之间有互相删除内容的行为，我们认为这两个用户是在争论
通过对贡献者、concept等方面入手，比较争论性形成的原因，得到结论：特定的争论性的主题是维基争论性文章的主要缘由

文章结论

expert-based similarity方法是一种高效有用的度量文章相关度的方法

如若感兴趣，可自行google下载，提供参考链接

论文笔记-Mining latent relations in peer-production environments的更多相关文章

论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 2017-10-25 16:38:23 [Proj ...
Face Aging with Conditional Generative Adversarial Network 论文笔记
Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28 Motivation: 本文是要根据最新的条件产 ...
【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

随机推荐

Docker帮助命令
①docker version ②docker info ③docker --help
Cpp读文件、CString转String、String转CString
场景 C++读取文件技术点读取文件 fstream提供了三个类,用来实现c++对文件的操作.(文件的创建.读.写). ifstream -- 从已有的文件读入 ofstream -- 向文件写内容 ...
Linux内存管理--物理内存分配【转】
转自:http://blog.csdn.net/myarrow/article/details/8682819 1. First Fit分配器 First Fit分配器是最基本的内存分配器,它使用bi ...
linux/centos6.5下编译安装python2.7和python3.5.2
centos6.5环境下安装python2.7 解压python源码包 tar -xf Python-2.7.6.tar.xz 进入软件包目录 cd Python-2.7.6 添加配置项 ./conf ...
MySQL 数据类型（转）
MySQL 数据类型在 MySQL 中,有三种主要的类型:文本.数字和日期/时间类型. Text 类型: 数据类型描述备注 CHAR(size) 保存固定长度的字符串(可包含字母.数字以及特殊字 ...
python中的zip、map、reduce 、lambda函数的使用。
lambda只是一个表达式,函数体比def简单很多. lambda的主体是一个表达式,而不是一个代码块.仅仅能在lambda表达式中封装有限的逻辑进去. lambda表达式是起到一个函数速写的作用.允 ...
java虚拟机内存不足，“Could not create the Java Virtual Machine”问题解决方案
在运行java程序时,遇到问题"Could not create the Java Virtual Machine."如下截图:
Oracle系统表外键的更名
正在看的ORACLE教程是:Oracle系统表外键的更名. Oracle中表的外键是保证系统参照完整性的手段,而参照完整性是指分布在两个表中的列所满足的具有主从性质的约束关系.外键涉及到两个表,其中一 ...
JNI和NDK
作者:十岁的小男孩 QQ:929994365 心之安处即是吾乡前言本文试图通过解答以下三个问题来达到学习JNI和NDK的目的.是什么?有什么用?怎么用?文章内容前三节来自下面第一个链接的博主共享, ...
poj1015 01二维背包
/* 给定辩控双方给每个人的打分p[i],d[i], dp[j][k]表示前i个人有j个被选定,选定的人的辩控双方打分差之和是k,此状态下的最大辩控双方和按01背包做,体积一维是1,体积二维是辩控双 ...

论文笔记-Mining latent relations in peer-production environments

背景

论文关注点

论文实验方法

文章结论

论文笔记-Mining latent relations in peer-production environments的更多相关文章

随机推荐

热门专题