严谨与特色并行——WSDM 2015大会见闻记
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
第8届ACM网络搜索与数据挖掘会议(ACM
International Conference on Web Search and Data
Mining)今年在上海举办。我有机会与微软亚洲研究院袁晶师兄一同参加此次会议,并代表我们入选论文的作者进行发表,倍感荣幸。这篇论文是我和我的双胞胎弟弟钟元(论文的第一作者)大四时,在微软亚洲研究院谢幸老师社会与城市挖掘组实习期间完成的,这是我第一次参加高水平国际顶级学术会议。这次会议,无论从深度——深入了解网络搜索与数据挖掘领域研究的前沿,还是广度——接触了从学术界到工业界,从学术泰斗到和我一样的学术新人,甚至是对个人能力的提升以及对未来研究的规划,都使我受益匪浅。
特色的环节设置与丰富的学术演讲
WSDM非常重视论文质量——本届会议共收到238篇论文投稿,其中来自16个国家,44个科研机构的39篇文章入选,接收率仅为16.4%
(比去年的18%又有所下降) 。
此次会议设置了包括主题报告、专题讲座、实践和经验报告、研讨会和冬令营等在内的多个环节。其中,实践和经验报告作为WSDM会议极具特色的环节,邀请了工业界优秀的研究人员讲解了他们的研究成果以及解决的实际问题。冬令营是本届会议新增环节,旨在为参会者尤其是学生介绍互联网搜索和数据挖掘相关基础理论和前沿科技,涵盖了深度学习、自然语言处理、社会网络、分布式机器学习等领域。
会议邀请加州大学伯克利分校的Michael
Franklin教授讲解了开源软件伯克利数据分析堆栈(Berkeley
Data Analytics Stack)的当前情况,包括GraphX图形处理系统和SampleClean混合人机清理框架等模块。总体来看,BSD系统更加完善,在数据分析方面也越来越有影响力;Facebook的Lada
Adamic介绍了个体瀑布信息流的增长和扩张,以及社交网络中流言、迷因和社会运动等特征的传播和扩散特点;康奈尔大学的Thorsten
Joachims教授做了用户交互学习的主题演讲。他认为,学习用户交互行为不仅仅限于机器学习算法,还要根据用户决策来理解、设计更加合适的交互方式。另外,会议还邀请了斯坦福大学的Jure
Leskovec教授,谷歌公司的Tushar
Chandra,以及百度、阿里巴巴和腾讯公司的朱凯华、金榕和卓居超,进行了实践和经验报告。
利用位置签到预测用户个人信息
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
我们在本届大会上所展示的论文是“利用位置签到预测用户个人信息”(You
are where you go: Inferring Demographic Attributes from Location
Check-ins)。以往关于用户个人信息预测的研究大多基于社交网络用户交互行为,例如:利用Facebook
Likes行为、互联网浏览行为、Twitter回复转发行为等进行预测。这些研究取得了不错的结果,但是具有高度规律性、唯一性和可预测性的用户移动行为数据却一直被忽视了。在这篇论文中,我们提出建立基于用户位置签到行为的预测模型,以当下最流行的社交网络位置签到信息作为用户移动行为数据,来推断包括性别、年龄、教育背景等个人信息。我们证实了看似内容单一的社交网络用户移动行为数据其实可以很好地预测用户个人信息,达到很高的准确率。用户个人信息的预测在社交网络推荐、广告投放、用户关系预测和信息分享等方面都有着巨大的应用前景。
作为代表,我在“用户移动性以及推荐建模”专场,进行了论文的正式报告。报告开篇,我通过举例——弟弟钟元经常在浪漫餐厅签到,而我经常在图书馆签到,推断出我俩各自情感状况。从而引出了我们的工作:利用用户位置签到历史数据来预测性别、年龄、教育背景、性取向等个人信息。然后,提出Location
to profile (L2P)系统整体框架,主要包含:数据爬取、特征抽取、特征降维、预测四部分。
其中,数据爬取部分负责获得新浪微博用户签到数据和点评网用户点评数据;预测部分利用抽取的特征,进行用户个人信息预测。这是系统中相对简单的两部分,相较之下特征抽取和特征降维则是L2P系统核心部分。我们主要从新浪微博用户位置签到数据中抽取空间、时间特征,同时结合点评网用户点评数据抽取签到位置知识特征。对于空间特征,我们通过把签到位置按照交通路网结构进行空间划分来获得;对于时间特征,我们通过按照每周工作日和休息日,每天24小时进行时间划分来获得;对于最重要的签到位置知识特征,我们通过位置知识扩展(location
knowledge enrichment)过程来获得。具体来说,首先根据签到位置的地址、经纬度等信息跨数据集(cross
domain)匹配微博签到位置和点评评论位置,继而利用高效的点评数据提取用户评论关键词,筛选出用户微博中有效的关键词并预测出用户对签到位置的评分,结合已知的签到位置类别信息,完成位置知识从点评到微博的整合。下一步,建立张量分解模型来把特征维度降低到适当维度,进而建立预测模型,来推断用户个人信息。
与微软再聚首
此次学术会议,极大地拓宽了我的研究视野,使我收获颇丰。能在这样的顶级会议上发表文章,与微软亚洲研究院对我和弟弟的培养密不可分。在微软,我们能够与世界上最优秀的计算机科学家一起做创造性的研究,获得细致的指导,这是在大多数高校和研究机构所无法想象的优越环境。恰恰是这种独一无二的氛围,让我们的研究能力有了质的飞跃。在此,我衷心地感谢微软亚洲研究院让我和弟弟有机会在大四实习阶段接触到最前沿的技术,发表了高质量的文章,这对我们未来的科研生活产生了极大的影响。
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
今年暑假,在美国东北大学攻读博士学位的弟弟钟元再次回到微软亚洲研究院做为期三个月的暑期实习生,相信他一定会更加努力地工作,取得更优异的成绩。
钟文
于美国纽约州立大学-石溪分校
相关阅读
别恐慌,大众关心的人工智能问题学界都在努力求解——我眼中的AAAI
2015大会
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
欢迎关注
微软亚洲研究院官方网站:http://www.msra.cn
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
微软亚洲研究院微信:搜索“微软研究院“或扫描下方二维码:
2015大会见闻记" title="严谨与特色并行——WSDM 2015大会见闻记">
严谨与特色并行——WSDM 2015大会见闻记的更多相关文章
- WWDC 2015 - 概记
WWDC 2015已经过去快一个月了,今年似乎没有像去年那样变化巨大,一切都在慢慢演进,iOS.Mac OS.watchOS都变得越来越好. 新的三大平台的发布,iOS 9/Mac OS EL Cap ...
- CTSC&&APIO 2015 酱油记
在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...
- 改变生活的移动计算——感受 MobiSys 2015
MobiSys 2015" title="改变生活的移动计算--感受 MobiSys 2015"> 作者:微软亚洲研究院研究员 张健松 今年的MobiSys会议地点 ...
- WWW 2015:一个神奇的会议
2015:一个神奇的会议" title="WWW 2015:一个神奇的会议"> 作者:微软亚洲研究院研究员 袁进辉 WWW 2015(24th Internatio ...
- 前沿理论、反思创新、产学结合——你不能错过的WSDM 2016大会
第九届ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search and Data Mining,简称WSDM)已于上周(2月22日-25日 ...
- Conference-Web Search and Data Mining
Conference WSDM(Web Search and Data Mining)The ACM WSDM Conference Series 不像KDD.WWW或者SIGIR,WSDM因为从最开 ...
- 接轨国际,碰撞更多科研火花——第八届ChinaSys大会专访微软亚洲研究院首席研究员张霖涛
作者:微软亚洲研究院实习生 徐祎雪 卢思奇 2015年6月5日至6日,由中国科学院深圳先进技术研究院先进计算与数字工程研究所主办的第八届中国计算机系统(ChinaSys)学术研讨会在厦门大学召开.来自 ...
- 深入理解java虚拟机JVM(下)
深入理解java虚拟机JVM(下) 链接:https://pan.baidu.com/s/1c6pZjLeMQqc9t-OXvUM66w 提取码:uwak 复制这段内容后打开百度网盘手机App,操作更 ...
- 问渠那得清如许?为有源头活水来——对【近取Key】产品进行的深度测评与解析
在 Build To Show 的场景中,大家各显身手,用各种办法展现技术,的确很难在单一的维度上确定谁赢谁输.但是,在 Build To Win 的场景中,往往市场就是那么一块, 竞争对手占了 70 ...
随机推荐
- let和var的区别
在JavaScript中,定义变量的关键词一般用var,但还有一种定义变量的关键词叫let.两者的作用域范围不一样,我们可以将var理解为定义的是一个全局变量,而let定义的是一个局部变量.故let常 ...
- mysql SQL优化琐记之索引
equal最好了,其次in,最后是range != <> 这类非操作尽量不用,它会转换为range.>都是范围查询 复合索引有左匹配原则,(clo_a,clo_b)相当建立了两个 ...
- c++ 语言几个坑
#include <iostream> int main(){ int i = 1; switch (i){ case 1 : int j ; j = 1; break; case 2: ...
- 892A. Greed#贪婪(优先队列priority_queue)
题目出处:http://codeforces.com/problemset/problem/892/A 题目大意:有一些可乐(不一定装满),问能不能把所有可乐装进两个可乐瓶中 #include< ...
- [SDOI2019]移动金币(博弈论+阶梯Nim+按位DP)
首先可以把问题转化一下:m堆石子,一共石子数不超过(n-m)颗,每次可以将一堆中一些石子推向前一堆,无法操作则失败,问有多少种方法使得先手必胜? 然后这个显然是个阶梯Nim,然后有这样的结论:奇数层异 ...
- 谁能率先挖掘出5G金矿?
现在,消费者已经习惯4G的存在,它好像另外的一个太阳,点亮了夜生活,也丰富了白天的生活:随时随地的直播.视频通话.移动支付.嘀嘀打车等等,这些都因4G网络和智能手机而快速发展,帮助消费者清理碎片时间之 ...
- 单独安装jenkins-没有tomcat
这里讲解war包的安装:windows的msi版安装很简单,双击即可,不用讲 1.官网下载 2. 3.把war包放到java目录下 4. 5.安装完成后打开:127.0.0.1:8080 输入密码后会 ...
- The Pomodoro Technique
目录 简介 What to solve How to use Some applications 自我总结 结束语 简介 番茄工作法是简单易行的时间管理方法,是由弗朗西斯科·西里洛于1992年创立的一 ...
- smarty应用1 之 模板进行数学运算,保留小数位数
例子1 乘法除法运算: 1格式:{$number|number_format} 保留小数点后2位小数. {$v/$total*100|string_format:"%0.2f"|c ...
- asp.net mvcview界面does not contain a definition
在cshtml使用linq操作数据集,自动补全是可以使用Select,但是一直提示System.Collection.GenericList' does not contain a definitio ...