论文笔记-Mining latent relations in peer-production environments
背景
- 用户合作产生内容的网站越来越多,有许多隐藏的信息可以去挖掘
- wiki上保存了贡献者的编辑记录,提供了非常多的有用的信息
- 研究发现,大部分的贡献者仅仅会参与编辑很小数量的文章,修改的版本也有限制,通常也只在某几个特定的领域/话题中
- 含有某个主题的文章通常指吸引特定一部分的读者和编辑者
论文关注点
- 提出一个新的相似度计算方法 expert-based similarity 应用于维基上有争论性的文章集,从而达到更好的聚类效果
- 维基上争论性的文章的缘由是和自身的特定主题相关的,而不是相关编辑参与者
论文实验方法
- 比较已有的三种相似度方法:cosine similarity;SimRank;P-Rank
- expert-based similarity的理论假设:如果两篇文章被同一个人编辑过,我们则认为该两篇文章是相似的
- 使用了下面三种方法来检测维基上文章的相关性
Relevance aspect Similarity Relation type Content Cosine similarity Explicit Hyperlink P-Rank and SimRank similarities Implicit Co-editorship Expert-based similarity Implicit
- 文章一共进行了三次实验来评价以上相似度方法,并验证了方法在大量数据上的一般性
- 第一次实验使用了compactness指标来评价聚类效果,聚类算法使用了K-Medoids,相似度算法使用了SimRank和P-Rank,同时为了避免选择K时带来的干扰,使用了DBScan方法避免预先指定聚类的个数K
expert-based方法结果最稳定,有较高的性能和鲁棒性
SimRank方法的结果最坏
通过人工方法的评测发现,expert-based方法对于发现维基中语义相关的文章非常有用 - 第二次实验利用了分类标签,用purity和entropy来评价聚类效果,聚类使用了K-Medoids和AHC,相似度使用了上述4种方法
总的来说,expert-based方法在量化wiki文章的相关性上是一种有效的措施
- 第三次实验是在大规模的文档集上评价了expert-based similarity
- 第一次实验使用了compactness指标来评价聚类效果,聚类算法使用了K-Medoids,相似度算法使用了SimRank和P-Rank,同时为了避免选择K时带来的干扰,使用了DBScan方法避免预先指定聚类的个数K
- 数据的准备:选用了宗教主题相关的文章,考虑到里面争论性的比例比较大;选取的文章保证有5个以上的编辑者;对于基于内容的相似度方法,通常选取最近的5个版本;对于基于超链接的选择最近的3到5个含有链接的版本
- expert-based方法的优势在于对于破坏性的大量的编辑有较好的防范性,原因在于它采用了类似IDF的计算方法
- 第五章验证了导致争论的主要原因
- 如果两个用户之间有互相删除内容的行为,我们认为这两个用户是在争论
- 通过对贡献者、concept等方面入手,比较争论性形成的原因,得到结论:特定的争论性的主题是维基争论性文章的主要缘由
文章结论
- expert-based similarity方法是一种高效有用的度量文章相关度的方法
如若感兴趣,可自行google下载,提供参考链接
论文笔记-Mining latent relations in peer-production environments的更多相关文章
- 论文笔记:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 2017-10-25 16:38:23 [Proj ...
- Face Aging with Conditional Generative Adversarial Network 论文笔记
Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28 Motivation: 本文是要根据最新的条件产 ...
- 【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- 论文笔记之:Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
- Deep Learning论文笔记之(六)Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
- Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
随机推荐
- 2017/05/02 java 基础 随笔
1.PrtSc键是截屏键 打开画图软件 ctrl+v就可以复制到 2.win7以上可以 在当前目录下shift+右键 3.junit和javaweb应用的main函数在哪里? java程序跑起 ...
- Jetson tk1 hash sum mismatch
sudo apt-get update遭遇Hash Sum Mismatch 修改DNS服务器地址: sudo gedit /etc/resolv.conf 解决办法: 在装有goagent的情况下: ...
- ubuntu 14.04界面美化
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAABVYAAAMACAIAAABAXKuVAAAAA3NCSVQICAjb4U/gAAAgAElEQVR4Xu
- ubuntu下tensorflow 报错 libcusolver.so.8.0: cannot open shared object file: No such file or directory
解决方法1. 在终端执行: export LD_LIBRARY_PATH=”$LD_LIBRARY_PATH:/usr/local/cuda/lib64” export CUDA_HOME=/usr/ ...
- k64 datasheet学习笔记4---Memory Map
1.前言 本文主要介绍K64地址空间的映射 2. System Memory Map 3. K64地址映射 4. Armv7m地址映射 4.1 Armv7M.System地址段(0XE0000000~ ...
- Linux内存管理6---伙伴算法与slab
1.前言 本文所述关于内存管理的系列文章主要是对陈莉君老师所讲述的内存管理知识讲座的整理. 本讲座主要分三个主题展开对内存管理进行讲解:内存管理的硬件基础.虚拟地址空间的管理.物理地址空间的管理. 本 ...
- freeRTOS中文实用教程1--任务
1.前言 FreeRTOS是小型多任务嵌入式操作系统,硬实时性.本章主要讲述任务相关特性及调度相关的知识. 2. 任务的总体特点 任务的状态 (1)任务有两个状态,运行态和非运行态 (2)任务由非运行 ...
- [转]Linux下的链接脚本基础
[转]http://linux.chinaunix.net/techdoc/beginner/2009/08/12/1129972.shtml 1. 前言 (1)每一个链接过程都由链接脚本(linke ...
- vux安装中遇到的坑
1.输入 npm install vux --save 2.输入 npm install vux-loader --save-dev(没安装的时候,会一直报错) 3.build/webpack.bas ...
- kafka系列八、kafka消息重复和丢失的场景及解决方案分析
消息重复和丢失是kafka中很常见的问题,主要发生在以下三个阶段: 生产者阶段 broke阶段 消费者阶段 一.生产者阶段重复场景 1.根本原因 生产发送的消息没有收到正确的broke响应,导致pro ...