CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

论文地址

1 Abstract

这是一个可以预测未来一段时间内所发生事情的可视化系统,使用的是twitter数据进行分析。

2 Introduction

识别一个未来的事件并不可以依靠消息量的突增来判断(一般一个很大的事件的到来会引发交际圈的热烈讨论),一个未来时间的发生并不一定可以激发消息量的增加。识别未来事件的挑战在于筛选大量社交媒体数据,并识别埋在关于过去和正在进行的事件,个人状态更新等的压倒性信息中的小信号。

作者看来,未来事件的定义是"与将来的位置和日期/时间(跨度)相关联的事件。 这种情况的特点是地点和时间,通常与特定主题和社交网络相关联。" 位置和时间是定义未来事件的主要属性

通过这个系统。我们既可以发现各种未来事件,也可以对特定的时间地点进行重点调查。

3 Related Work

未来事件提取可视化交互是两个主要的方面

4 System overview and pipeline

CrystalBall集成了多个组件,包括来自Twitter Streaming API ,实体提取,未来事件标识 和排名以及交互式可视化界面。 所有的数据收集和分析都是在线进行的。接口每天刷新以显示未来几天或几周内可能发生的事件的结果。

5 CrystalBall: future event identifiction and characterization

(如何处理数据)

因为未来数据在所有的数据占比小,怎么提取是个问题

NPMI得到了位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。

除了上面所说到的NPMI,还有一些其他特征,这些其他属性包括

链接和比例,我们衡量包含链接的推文与所有与可能的未来事件相关的推文的比例

主题标签比例。同样,我们测量与一个可能的未来事件相关的推文的标签比率

用户可信度,我们选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。 1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系

用户多样性,如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。

除此之外有些信息并不包括完整的信息,比方说纽约在4.3会有一场音乐会,但是推文里只会提到“我将在4月3日访问我在纽约的朋友”,其实可能是和朋友一起看音乐会。所以我们可以设计一些关于相似推文的内容。

中心性。高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。

推特相似性但是并不是所有推文都有@和推文相关联。所以我们还计算了每篇推文的相似性

我们已经提出了确定可能的未来事件(NPMI)的措施,以及六个额外措施来描述事件的特征。下一步是结合这些措施来评估已确定的未来事件的质量。我们希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。

我们使用RankSVM进行排序。为了训练RankSVM,我们开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。我们为表2列出的事件定义了5个类别。标注决定表明我们重视地缘政治和基层性质的事件。

五位编码者独立完成了1000次提取的未来事件,并使用上述分类对事件进行了排名。然后,我们使用标记的数据集来训练RankSVM,并开发了一个可应用于无标签事件排序的模型。在CrystalBall可视化界面中,事件列表视图中每天显示的事件顺序(如图3所示)反映了RankSVM的结果。

5 CrystalBall: Visual Interface(可视化分析)

按时间检索

日期纵览

我们从整个时间轴进行查看

上图是未来事件的总揽,首先每行该日期所发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。

每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。

单个日期查看

我们也可以查看一天的信息

A图,花瓣的红色占比代表了这个指标的大小,中间的数字是该日共有几个未来事件。

B图中,1表是每个时刻的时间数,2表是近30天内将会发生的相似事件,3表是按照感情属性分类的结果。

C图中,未来事件中的关键词。

D按钮可以用来收藏

按地点检索

A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。

B图中当我们点击华盛顿图表,就会跳出所有事件的映像。

上图词云显示的是当前区域当中过的关键词

上图这种模式下,每个节点代表一个事件,节点之间的链接表示两个事件共享相同的位置和时间。节点中的数字表示事件的推文数量。

上图每个点是一个用户,颜色代表了TTF比例,越深代表跟随者越多。聚集在一起表示同样的时间地点。点击这个区域,所有这块有的词语都会被标红

可视化系统的互动方式有 按照 时间,地点,关键词,类型

7 Case Study

上面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图1中的实现代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时一个有趣的现象就是大家的视线都转向了trump的一篇推文(最右边的一张图)。

该系统还可以搜索潜在的用户。用户通过关键词(爱国的欧洲人反对西方的伊斯兰化)搜索,可以非常详细的认识一个活动的开始,组织,和最后收到大家的报道。

8 Validation studies

我们希望通过我们的系统预测于2011年9月17日在纽约市开始的占领运动。CrystalBall分析了大约123,000条推文,其中根据我们的初步数据分析,只有120条推文包含标签“占据”。但是CrystalBall可以找到这些蛛丝马迹。下图显示了这个寻找的过程。

随着事件的组织,CrystalBall可以识别早期信号。用户从事件日历视图开始,发现了一系列的选举后事件。在确定了多个大型全球地点(例如印度,英国,加拿大,伦敦,以色列)后,她发现跨越多个日期的“华盛顿”。选择那个地点后,她在就职典礼日(1月20日)之前发现了多个未成年人事件。描述未来事件的关键词包括“million womenmarch”,“washton”,“1月”等。查看与这些事件有关的推文显示3月份的妇女组织活动在选举后不久发生。

9 Limitation

  • 使用 时间-地点 组合进行编码,比较局限。
  • 识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
  • 时间位置的提取算法还是不准确

10 Future Work

处理多个数据源的流量(fb, ins, wiki, google),新的nlp算法

论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data的更多相关文章

  1. 论文阅读:Learning Visual Question Answering by Bootstrapping Hard Attention

    Learning Visual Question Answering by Bootstrapping Hard Attention Google DeepMind  ECCV-2018   2018 ...

  2. 论文阅读:Robust Visual SLAM with Point and Line Features

    本文提出了使用异构点线特征的slam系统,继承了ORB-SLAM,包括双目匹配.帧追踪.局部地图.回环检测以及基于点线的BA.使用最少的参数对线特征采用标准正交表示,推导了线特征重投影误差的雅克比矩阵 ...

  3. A context-aware personalized travel recommendation system based on geotagged social media data mining

    文章简介:利用社交网站Flickr上照片的geotag信息将这些照片聚类发现城市里的旅游景点,通过各照片的拍照时间得到用户访问某景点时的时间上下文和天气上下文(利用时间和public API of W ...

  4. 【论文阅读】Motion Planning through policy search

    想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔 ...

  5. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  6. 论文笔记之:Visual Tracking with Fully Convolutional Networks

    论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

  7. BITED数学建模七日谈之三:怎样进行论文阅读

    前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...

  8. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  9. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

随机推荐

  1. Java-ServletContextListener

    /** * Implementations of this interface receive notifications about * changes to the servlet context ...

  2. 手持机设备公司(WINCE/ANDROID/LINUX)

    1.深圳扬创科技有限公司网址: http://www.yctek.com/ 2.无锡盈达聚力科技有限公司 点击打开链接 3.上海鲲博通信技术有限公司(主要为用WINCE开发导航产品) 点击打开链接 4 ...

  3. java5后的并发池

    本文可作为传智播客<张孝祥-Java多线程与并发库高级应用>视频的学习记录. 为什么需要并发池 之前写并发的时候 new Thread(new Runnable(){ public voi ...

  4. Android全局异常处理 实现自己定义做强制退出和carsh日志抓取

    在做android项目开发时,大家都知道都会遇到程序报错或者Anr异常,会弹出来一个强制退出的弹出框,对于开发人员是好事,但是对于用户体验和 UI实在毫无违和感,别说用户接受不了,就连我们自己本身可能 ...

  5. 【LaTeX排版】LaTeX论文排版<三>

    A picture is worth a thousand words(一图胜千言).图在论文中的重要性不言而喻,本文主要讲解图的制作与插入. 1.图像的插入     图像可以分为两大类:位图和向量图 ...

  6. 【Qt编程】基于Qt的词典开发系列<十四>自动补全功能

    最近写了一个查单词的类似有道词典的软件,里面就有一个自动补全功能(即当你输入一个字母时,就会出现几个候选项).这个自动补全功能十分常见,百度搜索关键词时就会出现.不过它们这些补全功能都是与你输入的进行 ...

  7. mahout系列之---谱聚类

    1.构造亲和矩阵W 2.构造度矩阵D 3.拉普拉斯矩阵L 4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量 5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类 ...

  8. Understanding the Objective-C Runtime

    Wednesday, January 20, 2010 Understanding the Objective-C Runtime The Objective-C Runtime is one of ...

  9. CSS3概述

    首先我们了解下什么是css3,css3是css技术的一个升级.css3中并没有采用总体结构,而是采用分工协作的模块化结构. css3中的模块 模块名称 功能描述 basic box model 定义各 ...

  10. jdk1.7 tomcat-7安装

    由于软件下载地址经常有变动,所以不能直接wget,还是直接到网上点击下载 下载jdk http://www.oracle.com/technetwork/java/javase/downloads/j ...