2013.4.23 - KDD第五天
今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬。讨论的结果大概是这样的:
- 可以test驱动那种,但是别太过火,容易过拟合,当前榜上排前几名都已靖97%的那几个队有可能就已经过拟合了,因为他们尝试的次数太多。
- 可以采用交叉验证,留一块训练样本用来测试,然后将测试的错误于标准答案对比,尽量找到最有共性的错误,然后根据这个错误进行修改模型或者添加特征。这个方法主意别过拟合。
- 可以尝试Bigram。
- 可以尝试构建本体,然后特征分化,找上位词,但是用关键字的话会比较稀疏,可以尝试一下。
- 可以尝试topic model,例如SVD LSA LSI。
还整理了一下我们手里现在都有哪些牌:
- 名称
- 标题
- 关键字
- 机构
- 期刊/会议
后
来师兄提醒我们,如果能使用外部数据的话,那么参考文献是非常强的特征,另外师兄还说,如果不做成分类器,而是做成回归也不错,毕竟最后答案无论正例反例
都要排序。回归的话我的理解就是按照相关度排序我们只要统计一下相关读界值就可以了,小于这个界值的就算他不是这个人写的,大于的就是,这样本身就是排好
序的了。
然后晚上跟中秋进行了又一次探讨,首先就是把晚上的SQL语句抽出来的特征搞明白了,所有特征大概是这样的:
- 作者ID,外部键。
- 文章ID,外部键。
- “该作者在该篇文章所在期刊上发表的论文总数”,当然这个作者在相同期刊发的数量越多说明他经常在这个期刊上发表文章,说明这个作者的这篇文章就很有可能就是他自己写的。
- “该作者在该篇文章所在会议上发表的论文总数”,当然这个作者在相同期刊发的数量越多说明他经常在这个会议上发表文章,说明这个作者的这篇文章就很有可能就是他自己写的。
- 这个作者总共发了多少篇文章,一开始我看到这个特征还有写不解,但是中秋给我解释说这个特征还是很有道理的,这个虽然不能确定这个文章个作者之间的关系,但是却可以确定这个作者的存在性,或者说能确定这条信息的确定性,不过中秋说我还需要好好理解一下这个特征的道理。
- 这个文章总共有多少个作者,道理同上。
然
后就是又让中秋给我讲了一下第二道题的意思,其实按照我的看法更应该说是共指问题,中秋说他对“消岐”这个词也不是很理解,让我去实验室主页或者哪个地方
再调查一下。总的来说其实这题很显然,就是数据库中有三个高文老师(id不一样),然后他们分别是中科院的,哈工大的,北大的。但事实上这都是同一个人,
你要做的就是对他们进行消岐。
最后中秋说有机会的话想让我安排他们俩聊一下,因为他在想在topic model上面使劲,不过不是现在,还要再等等。。。
还有就是我说我SQL都不会,跟学长谈得时候很尴尬,然后中秋说他把今天谈的需要的资料包括SQL明天给我发到邮件里面去。
其
他事情就是,今天晚上跟伟杰料了一下关于编译器的事情,我说我想放弃,改成递归下降分析直接做个Lisp的语法得了,实在不行我就用郑茂和韩冰的那个。然
后伟杰的意思是现在放弃还是太早了,毕竟下周的下周才是DeadLine,还有很多挣扎的余地,而且就算是递归下降还是要写First集的,伟杰对我很鼓
励,认为我一定能做出来。
2013.4.23 - KDD第五天的更多相关文章
- 2013.5.23 - KDD第三十五天
看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的: 我 打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章, ...
- http://www.cnblogs.com/peida/archive/2013/04/23/3036035.html
http://www.cnblogs.com/peida/archive/2013/04/23/3036035.html
- 2013.5.3 - KDD第十五天
今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林: 随机森林是一种比较新的机器学习模型.经典的机器学习模型是神经网络,有半个多世纪的历史了.神经网络预测精确,但是计算量很大.上世纪八十年代 ...
- Notes of the scrum meeting(2013/10/23)
ps:本来是10月23号周三下午开的会,这几天由于各种事情忙,忘记写博客了,现在补上. 软工项目组buaa_smile开始项目第一次scrum meeting meeting time:4:00~5: ...
- Dynamic CRM 2013学习笔记(十五)报表设计:报表入门、开发工具及注意事项
本文是关于CRM 2013报表开发入门介绍,包括开发工具的使用,以及不同于普通Reporting service的相关注意事项. 一.CRM报表简介 报表有两种,SQL-based报表和Fetch-b ...
- Teamwork——Week 4 Daily Scrum Meeting#1 2013.10.23
一.会议议题 1)根据确立的项目题目,进一步明确PM,DEV,TEST的工作. 2)确定团队分工和预估项目时间. 3)完成项目架构NABC模型. 4)确定第一轮开发团队分工 二.会议时间 2013年1 ...
- SharePoint 2013 APP 开发示例 (五)跨域访问 Web Service (REST API)
虽然 JQuery 也能通过授权header实现跨域, 但SharePoint 提供了更简单的方法,它被实现在SP.RequestExecutor里 .它能访问跨域的服务包括REST AP ...
- 2013.6.28 - KDD最后一天
今天收到中秋的邮件.KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561.
- 2013.5.21 - KDD第三十三天
实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈.正好也称这一下午加一晚 ...
随机推荐
- 【446】Deep Learning
ref: 深度学习基础介绍 机器学习19 神经网络NN算法 ref: 深度学习基础介绍 机器学习11 神经网络算法应用上 ref: 深度学习基础介绍 机器学习12 神经网络算法应用下 ref: 神经网 ...
- 关于/r与/n 以及 /r/n 的区别总结
应该说还是区别的,\r就是回到行首,\n就是到下一行的,但是一般我们输出程序时,看不到明显的差别的 '\r'是回车,'\n'是换行,前者使光标到行首,后者使光标下移一格.通常用的Enter是两个加起来 ...
- Java中缓存的介绍
一.什么是缓存1.Cache是高速缓冲存储器 一种特殊的存储器子系统,其中复制了频繁使用的数据以利于快速访问2.凡是位于速度相差较大的两种硬件/软件之间的,用于协调两者数据传输速度差异的结构,均可称之 ...
- 使用ObjectARX 2012向导生成的自定义实体类无法捕捉的问题解决方式
使用ObjectARX 2012自定实体向导的时候,获取捕捉点的重写函数的向导中模板有点问题, C:\Program Files (x86)\Autodesk\ObjectARX 2019 Wizar ...
- webbench源码学习笔记
学习内容 一共五百多行代码,其中包含了linux编程常用的API.可以通过学习源码,把不熟悉的API练习练习. 1 如何使用webbench (1)查看参数帮助 (2)运行方法 即以上模拟30个客户端 ...
- 将本机电脑作为自己的网站服务器--基于XAMPP在本地建立wordPress网站
"我不敢说自己从未担心害怕过. 实际上我希望少一点担心害怕,因为它让我分心,让我的神经系统备受煎熬".----马斯克 周日,搞了大半天,为了熟悉wordPress,先在自己的电脑上 ...
- 嵌入式02 STM32 实验02 端口输入输出各4种模式
GPIO(General-purpose input/output 通用目的输入/输出端口) 电压(A模拟量)与电平(D数字量) GPIO 8种工作模式(输入四种.输出四种) 1.GPIO_Mode_ ...
- stm32F103片上串口USART1通信实验
硬件说明:如原理图所示, 103的PA10 PA11分别接CP2102usb转串口芯片的TXD RXD引脚.CP2102芯片是将串口和电脑USB接口进行了转接,方便应用灵活. 片上串口驱动代码如下. ...
- 用python写一个简单的文件上传
用Pycharm创建一个django项目.目录如下: <!DOCTYPE html> <html lang="en"> <head> <m ...
- MySQL 总结篇 [在Oracle基础上学习的MySQL]
一.学习环境 MySQL 5.7社区版 Navicat for MySQL 百度网盘下载链接:https://pan.baidu.com/s/1yGnznwoZ8CaMgrCsDBhKAQ 二.MyS ...