CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

论文地址

1 Abstract

这是一个可以预测未来一段时间内所发生事情的可视化系统,使用的是twitter数据进行分析。

2 Introduction

识别一个未来的事件并不可以依靠消息量的突增来判断(一般一个很大的事件的到来会引发交际圈的热烈讨论),一个未来时间的发生并不一定可以激发消息量的增加。识别未来事件的挑战在于筛选大量社交媒体数据,并识别埋在关于过去和正在进行的事件,个人状态更新等的压倒性信息中的小信号。

作者看来,未来事件的定义是"与将来的位置和日期/时间(跨度)相关联的事件。 这种情况的特点是地点和时间,通常与特定主题和社交网络相关联。" 位置和时间是定义未来事件的主要属性

通过这个系统。我们既可以发现各种未来事件,也可以对特定的时间地点进行重点调查。

3 Related Work

未来事件提取可视化交互是两个主要的方面

4 System overview and pipeline

CrystalBall集成了多个组件,包括来自Twitter Streaming API ,实体提取,未来事件标识 和排名以及交互式可视化界面。 所有的数据收集和分析都是在线进行的。接口每天刷新以显示未来几天或几周内可能发生的事件的结果。

5 CrystalBall: future event identifiction and characterization

(如何处理数据)

因为未来数据在所有的数据占比小,怎么提取是个问题

NPMI得到了位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。

除了上面所说到的NPMI,还有一些其他特征,这些其他属性包括

链接和比例,我们衡量包含链接的推文与所有与可能的未来事件相关的推文的比例

主题标签比例。同样,我们测量与一个可能的未来事件相关的推文的标签比率

用户可信度,我们选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。 1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系

用户多样性,如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。

除此之外有些信息并不包括完整的信息,比方说纽约在4.3会有一场音乐会,但是推文里只会提到“我将在4月3日访问我在纽约的朋友”,其实可能是和朋友一起看音乐会。所以我们可以设计一些关于相似推文的内容。

中心性。高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。

推特相似性但是并不是所有推文都有@和推文相关联。所以我们还计算了每篇推文的相似性

我们已经提出了确定可能的未来事件(NPMI)的措施,以及六个额外措施来描述事件的特征。下一步是结合这些措施来评估已确定的未来事件的质量。我们希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。

我们使用RankSVM进行排序。为了训练RankSVM,我们开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。我们为表2列出的事件定义了5个类别。标注决定表明我们重视地缘政治和基层性质的事件。

五位编码者独立完成了1000次提取的未来事件,并使用上述分类对事件进行了排名。然后,我们使用标记的数据集来训练RankSVM,并开发了一个可应用于无标签事件排序的模型。在CrystalBall可视化界面中,事件列表视图中每天显示的事件顺序(如图3所示)反映了RankSVM的结果。

5 CrystalBall: Visual Interface(可视化分析)

按时间检索

日期纵览

我们从整个时间轴进行查看

上图是未来事件的总揽,首先每行该日期所发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。

每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。

单个日期查看

我们也可以查看一天的信息

A图,花瓣的红色占比代表了这个指标的大小,中间的数字是该日共有几个未来事件。

B图中,1表是每个时刻的时间数,2表是近30天内将会发生的相似事件,3表是按照感情属性分类的结果。

C图中,未来事件中的关键词。

D按钮可以用来收藏

按地点检索

A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。

B图中当我们点击华盛顿图表,就会跳出所有事件的映像。

上图词云显示的是当前区域当中过的关键词

上图这种模式下,每个节点代表一个事件,节点之间的链接表示两个事件共享相同的位置和时间。节点中的数字表示事件的推文数量。

上图每个点是一个用户,颜色代表了TTF比例,越深代表跟随者越多。聚集在一起表示同样的时间地点。点击这个区域,所有这块有的词语都会被标红

可视化系统的互动方式有 按照 时间,地点,关键词,类型

7 Case Study

上面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图1中的实现代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时一个有趣的现象就是大家的视线都转向了trump的一篇推文(最右边的一张图)。

该系统还可以搜索潜在的用户。用户通过关键词(爱国的欧洲人反对西方的伊斯兰化)搜索,可以非常详细的认识一个活动的开始,组织,和最后收到大家的报道。

8 Validation studies

我们希望通过我们的系统预测于2011年9月17日在纽约市开始的占领运动。CrystalBall分析了大约123,000条推文,其中根据我们的初步数据分析,只有120条推文包含标签“占据”。但是CrystalBall可以找到这些蛛丝马迹。下图显示了这个寻找的过程。

随着事件的组织,CrystalBall可以识别早期信号。用户从事件日历视图开始,发现了一系列的选举后事件。在确定了多个大型全球地点(例如印度,英国,加拿大,伦敦,以色列)后,她发现跨越多个日期的“华盛顿”。选择那个地点后,她在就职典礼日(1月20日)之前发现了多个未成年人事件。描述未来事件的关键词包括“million womenmarch”,“washton”,“1月”等。查看与这些事件有关的推文显示3月份的妇女组织活动在选举后不久发生。

9 Limitation

  • 使用 时间-地点 组合进行编码,比较局限。
  • 识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
  • 时间位置的提取算法还是不准确

10 Future Work

处理多个数据源的流量(fb, ins, wiki, google),新的nlp算法

论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data的更多相关文章

  1. 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention

    Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind  ECCV-2018   2018 ...

  2. 论文阅读:Robust Visual SLAM with Point and Line Features

    本文提出了使用异构点线特征的slam系统,继承了ORB-SLAM,包括双目匹配.帧追踪.局部地图.回环检测以及基于点线的BA.使用最少的参数对线特征采用标准正交表示,推导了线特征重投影误差的雅克比矩阵 ...

  3. A context-aware personalized travel recommendation system based on geotagged social media data mining

    文章简介:利用社交网站Flickr上照片的geotag信息将这些照片聚类发现城市里的旅游景点,通过各照片的拍照时间得到用户访问某景点时的时间上下文和天气上下文(利用时间和public API of W ...

  4. 【论文阅读】Motion Planning through policy search

    想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔 ...

  5. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  6. 论文笔记之:Visual Tracking with Fully Convolutional Networks

    论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

  7. BITED数学建模七日谈之三:怎样进行论文阅读

    前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...

  8. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  9. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

随机推荐

  1. Android监听电池状态

    监听电池状态只需要接收Intent.ACTION_BATTERY_CHANGED的广播即可,当电池状态发生变化时会发出广播. 1.运行状态如下图: (1)连接USB时的状态 (2)断开USB时的状态 ...

  2. infiniDB在linux(centos系统)下的安装使用

    tar包的安装过程:http://www.docin.com/p-166891856.html 另一种方法,也可以编译安装(Debian X86_64):http://tech.it168.com/a ...

  3. OpenCV——照亮边缘

    具体的算法原理可以参考: PS滤镜,照亮边缘 // define head function #ifndef PS_ALGORITHM_H_INCLUDED #define PS_ALGORITHM_ ...

  4. AndroidStudio加快Gradle速度的方法-android study之旅(103)

    方法1 打开setting,搜索compiler ,按照如图配置,不要问我为什么,宝宝心里苦~ 方法2 到开项目的根目录的gradle.properties ,把下面的注释解除 org.gradle. ...

  5. Linux 系统应用编程——线程基础

    传统多任务操作系统中一个可以独立调度的任务(或称之为顺序执行流)是一个进程.每个程序加载到内存后只可以唯一地对应创建一个顺序执行流,即传统意义的进程.每个进程的全部系统资源是私有的,如虚拟地址空间,文 ...

  6. css3中的布局相关样式

    web页面中的布局是指在页面中如何对标题.导航栏.主要内容.脚注.表单等各种构成要素进行合理编辑.在css3之前,主要使用float属性或position属性进行页面中的简单布局,但是也存在一些缺点, ...

  7. 关于jasperreport对应java打印机的解决方案

    对于jasperreport打印这个功能,遇到了一大堆问题,也只能一点一点解决我: 1.现在我用的是jasperreport.jar是4.6版本. (1).因为网上查到:6.0以上版本已经不再支持ja ...

  8. Access Treeview树节点代码二

    Private Sub Form_Load() '引用C:\windows\system32\MSCOMCTL.OCX,否则提示出错. Dim Rec As New ADODB.Recordset D ...

  9. chart 目录结构 - 每天5分钟玩转 Docker 容器技术(164)

    chart 是 Helm 的应用打包格式.chart 由一系列文件组成,这些文件描述了 Kubernetes 部署应用时所需要的资源,比如 Service.Deployment.PersistentV ...

  10. Appium-Desktop基本安装教程

    点击详见我的简书博客 一.下载桌面程序安装包 点击此处下载--Appium Desktop下载地址 此处楼主下载的是1.4.0Windows桌面版的 二.配置好自己的Android环境 环境变量: A ...