ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">

编者按:ACM网络搜索与数据挖掘国际会议(6th ACM
Conference on
Web Search and Data Mining, 简称WSDM 2013)于2013年2月4在意大利首都罗马举行。微软亚洲研究院副研究员武威出席了此次会议。在WSDM设立的与图数据隐私保护相关的数据竞赛中,来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得了第一名。下面,让我们一起来看看武威研究员带来的大会回顾。

作者: 武威 微软亚洲研究院副研究员

会议概况

2013年2月4日,第六届
ACM网络搜索与数据挖掘国际会议 (The Sixth ACM International Conference on Web
Search and Data Mining, WSDM2013)
在意大利首都罗马举行。WSDM是一个新兴的网络搜索与数据挖掘方向的国际会议,主要由工业界的一些大型IT公司赞助。这次会议是继2009年在巴塞罗那举办之后,第二次在欧洲举办。

WSDM,读音为wisdom。该会议于2008年首次举办,由微软、谷歌和雅虎等公司赞助。相对于传统的WWW、SIGIR和ACMSIGKDD等会议,WSDM更加重视应用,是典型的应用会议。本次大会历时5天,共收到来自36个国家和地区的387篇投稿。其中,有73篇文章被大会录用,录用率为18.9%。录用文章的作者遍布20个国家,4大洲,使WSDM真正地成为了一个国际性的网络搜索与数据挖掘方向的顶级会议。其中,投稿最多和被录用文章最多的是美国。中国(包括大陆以及港澳台地区)共有10篇文章被录用,作者来自清华大学、中国科学院、中国人民大学、哈尔滨工业大学、香港中文大学以及微软亚洲研究院和惠普中国研究院。每一篇录用文章都被安排了口头报告和海报展示。为了合理安排大会时间,口头报告分为20分钟的长报告(plenary
presentation)和6分钟的短报告(spot light
presentation)。在73篇录用文章中,有40篇文章的作者获得了长报告的机会。长报告有问答时间,短报告则没有。

这次大会包括8个辅导报告(tutorials)、6个研讨会(workshops)、3个主题演讲(keynotes)、9个专题(sessions)以及一个数据竞赛(data
challenge)。其中,数据竞赛包括图数据压缩和图数据去匿名化两个子任务,是WSDM历史上举办的首次竞赛。从主题演讲和专题的内容分布来看,社交网络(social
network)成为了本次大会的绝对主角。三个主题演讲都与社交网络有关。而9个专题中,有4个与社交网络、社会媒体(social
media)有关。相关工作覆盖了社交网络数据的存储、话题动态、社区发现和情感分析等各个方面。除了社交网络,还有当下十分热门的“大数据”专题。大数据专题中的工作主要研究大数据下的算法效率和数据存储问题。一个十分有意思的事情是,在会议最后一天的工作午餐(business
lunch)中,WSDM的一位主席报告了他们对于录用论文题目的统计分析。通过对录用论文和未录用论文题目建立分类模型,他们发现了接收论文的一些特点,令人印象深刻的是“social
network”和“wikipedia”这两个关键词。这两个关键词在分类模型中很有区分度,是论文被接收的关键性词汇。这也从另外一个角度说明了本次大会,乃至整个网络搜索与数据挖掘学术领域的研究趋势。

ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">

主题演讲

本次大会包括三个主题演讲,分别是邓肯·沃兹(Duncan
Watts)的“The Virtual Lab”,凯瑟琳·塔克(Catherine Tucker)的“Three Findings
Concerning Protecting Consumer Privacy Online”,以及杨强的“Big Data,
Lifelong Machine Learning and Transfer
Learning”。邓肯是微软研究院的首席研究员,也是微软纽约实验室的创建人之一。他的研究兴趣是社会科学。他的演讲主题是虚拟网络对社会科学研究的影响。随着诸如Amazon’s
Mechanical Turk等众包
(crowdsourcing)网站的出现,社会科学家们可以利用互联网构建一些“虚拟的实验室”,来进行之前的“物理实验室”在规模和速度上无法实现的人类行为实验。他把社会科学的研究分为了Turk前和Turk后两个部分,并通过一些实验结果说明了互联网为社会科学研究带来的机遇和挑战。凯瑟琳是美国麻省理工史隆管理学院(MIT
Sloan)
的副教授。她的研究兴趣是信息技术对于人类商业行为的影响。她的演讲主题是数字化时代的个人隐私保护。互联网的产生和发展使得商业公司能够更容易地获得客户的个人信息。在这个前提下,她报告了一些关于个人隐私保护的经验性结果。基于大量的实验,验证了三个发现:第一,个人隐私保护不利于在线广告的有效推广;第二,个人隐私保护能够促进经济产出(economic
outcomes);第三,限制私人数据的存储时间没有太多的经济影响(economic
impact)。有趣的是这次WSDM恰好设立了一个与图数据隐私保护相关的数据竞赛。来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得第一名。杨强是中国香港科技大学的教授,现任华为诺亚方舟实验室的主任。他在报告中展示了诺亚方舟实验室在大数据挖掘方面取得的成果,并介绍了迁移学习(transfer
learning)及其在大数据挖掘上的应用。该报告提出了持续性的机器学习和数据挖掘。

ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">

图2邓肯·沃兹作题为"The Virtual
Lab"的主题演讲

具体来说,大数据洪流带来两个挑战:一方面,如何能够有效地消除噪音,从大数据中挖掘到我们想要的知识;另一方面,当数据发生变化时,已有方法能否自动调整。基于这两个理念,他展示了近期诺亚实验室取得的一些成果,包括微博自动推送机器人小诺以及手机终端上的生活助手等。纵观这次大会的主题演讲,所有内容都或多或少地与当下在学术界和工业界都很热的社交网络以及大数据有关。可以说,社交大数据的时代大幕已经拉开。无论是学术界还是工业界,都在努力争取在新技术时代留下自己的名字。然而,群雄逐鹿,胜负未分。谁能首先抓住问题的本质,以最快的速度应对变化并产生影响,谁就能占得先机,取得新时代技术上的主导地位。

最佳论文

WSDM2013从73篇接收的论文中选出了两篇最佳论文。其中,最佳论文“Optimized
Interleaving for Online Retrieval
Evaluation”的作者是微软研究院的两位研究员。在这篇工作中,作者系统研究了信息检索系统的在线评估办法,提出了一套新的交叉评估(interleaved
evaluation)框架。交叉评估是在线评估的主要方法之一。交叉评估算法是指将同一查询下的两个排序结果以某种方式组合在一起,通过跟踪用户在交叉排序列表上的点击表现来评估排序方法的好坏。交叉算法包括排序组合算法和点击评分机制两部分。已有的工作都存在一些问题,在一些特定排序上会出现与直觉不一致的评估结果。本文的作者创造性地将交叉算法的设计转化成了一个带约束的优化问题,并通过理论证明说明了所提方法不仅包含已有的方法,而且能够克服已有方法的一些弱点。此外,本文作者还提出了利用搜索的历史日志数据来评估交叉算法性能的方法。通过定性分析和定量评估,作者说明他们所提的交叉算法能够克服已有交叉算法存在的一些问题,在评估排序结果好坏上与传统的基于NDCG的办法有更好的一致性,同时所需的样本量又和已有的交叉算法相当。

最佳学生论文“Balanced Label
Propagation for Partitioning Massive
Graphs”是美国康奈尔大学和Facebook的合作成果,解决的是大规模图分割的问题。随着社交网络数据的迅猛增长,如何合理地分割网络关系图,从而实现分块存储成为了一个重要问题。论文将图分割问题形式化成一个带约束的优化问题,而这个优化问题又可以转化为一个线性优化问题,从而可以利用已有的线性优化工具进行高效求解。在两篇最佳论文中,分别关注了传统网络搜索和当下比较火的社交网路问题。两篇文章都有比较好的数学基础和丰富、扎实的实验结果,这也是他们能够最终获选最佳论文的重要因素之一。值得注意的是,两篇最佳论文的主题一旧一新,这体现了本届WSDM承前启后,既重视传统领域中扎实严谨的工作,又鼓励对新领域新问题探索的主导思想。

对WSDM未来的展望

作为一个举办了六届的大会,WSDM在投稿的数量、评审的尺度、接收论文的质量以及参与人的数量和水平上都在逐渐走向成熟。本届大会以社交网络为主题,同时兼顾大数据等新概念,很好地体现了WSDM连接学术界与工业界的宗旨。尤其是大规模关系图分割及存储技术,笔者认为不仅对学术界来说很有研究价值,对于工业界,特别是像Facebook这样的社交网络公司也可能产生直接的应用价值。


申明:《2013
ACM网络搜索与数据挖掘国际会议》一文在微软研究院博客上转载经由《中国计算机学会通讯》同意,版权归《中国计算机学会通讯》所有。原文刊登于《中国计算机学会通讯》2013年3月
第85期

作者介绍

ACM网络搜索与数据挖掘国际会议" title="2013 ACM网络搜索与数据挖掘国际会议">

武 威

微软亚洲研究院高副研究员。主要研究方向为机器学习、智能问答和信息检索。

参考文献

[1] http://www.wsdm2013.org

[2] 中国计算机学会通讯, 第8卷第1期,
2012年1月

____________________________________________________________________________________ 

相关阅读

社交网搜索成为网络搜索学界最炙手可热的话题

TextFlow:把握信息脉博

机器学习正在改变我们的工作与生活

欢迎关注


微软亚洲研究院人人网主页:
http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

2013 ACM网络搜索与数据挖掘国际会议的更多相关文章

  1. 信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议

    微软"领衔主演"--记ACM SIGIR 2013信息检索国际会议" title="信息检索盛会 微软"领衔主演"--记ACM SIGIR  ...

  2. HDU 4738 Caocao's Bridges (2013杭州网络赛1001题,连通图,求桥)

    Caocao's Bridges Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) ...

  3. hduoj 4712 Hamming Distance 2013 ACM/ICPC Asia Regional Online —— Warmup

    http://acm.hdu.edu.cn/showproblem.php?pid=4712 Hamming Distance Time Limit: 6000/3000 MS (Java/Other ...

  4. hduoj 4707 Pet 2013 ACM/ICPC Asia Regional Online —— Warmup

    http://acm.hdu.edu.cn/showproblem.php?pid=4707 Pet Time Limit: 4000/2000 MS (Java/Others)    Memory ...

  5. HDU 4763 Theme Section (2013长春网络赛1005,KMP)

    Theme Section Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tot ...

  6. HDU 4764 Stone (2013长春网络赛,水博弈)

    Stone Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submi ...

  7. HDU 4762 Cut the Cake (2013长春网络赛1004题,公式题)

    Cut the Cake Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tota ...

  8. HDU 4759 Poker Shuffle(2013长春网络赛1001题)

    Poker Shuffle Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tot ...

  9. HDU 4768 Flyer (2013长春网络赛1010题,二分)

    Flyer Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submi ...

随机推荐

  1. 洛谷 AT2827 LIS

    题目传送门 解题思路: 用f[i]表示长度为i的最长上升子序列的最小的末尾. AC代码: #include<iostream> #include<cstdio> #includ ...

  2. AJAX(阿贾克斯)的简单应用

    1.ajax 对象的属性说明(常用的) (1)open(method,url,boolean);创建请求,method :填请求类型(get post),url :请求的地址, boolean:tru ...

  3. Python时间问题

    获取当前的时间,time只能精确到秒,而datetime可以精确到毫秒,所以使用格式化的时候要注意. nowTime=time.localtime((time.time())) t=time.strf ...

  4. C语言笔记 15_标准库&locale&math&setjmp&signal&stdarg&stddef

    <locale.h> 简介 locale.h 头文件定义了特定地域的设置,比如日期格式和货币符号.接下来我们将介绍一些宏,以及一个重要的结构 struct lconv 和两个重要的函数. ...

  5. hdu2457(最少替换多少个字符使主串不包含模式串)ac自动机+dp

    题:http://acm.hdu.edu.cn/showproblem.php?pid=2457 题意:给定n个模式串,给定一个主串,问最替换掉多少个字符使主串不包含模式串或输出“-1”表示没有可行的 ...

  6. mysql的show status和show global status区别在哪

    show status                   本次会话的参数状态show global status        本次MYSQL服务开启(或重置)到现在总请求数

  7. 36. docker swarm docker secret 的使用和管理

    1.secret management 的作用 用来存储 其他人不想看到 的数据 2.secret management 存在 swarm manager 节点 raft database 里. se ...

  8. dbus探索

    一.参考网址 1.Dbus组成和原理

  9. JAVA内存分配-通俗讲解

    Java的内存分配上,主要分4个块: 一块是用来装代码的,就是编译的东西. 一块是用来装静态变量的,例如用static关键字的变量,例如字符串常量. 一块是stack,也就是栈,是用来装变量和引用类型 ...

  10. Redis5新特性Streams作消息队列

    前言 Redis 5 新特性中,Streams 数据结构的引入,可以说它是在本次迭代中最大特性.它使本次 5.x 版本迭代中,Redis 作为消息队列使用时,得到更完善,更强大的原生支持,其中尤为明显 ...