2013.4.24 - KDD第六天】的更多相关文章

今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文 章<LDA数学八卦>以及<A Note on EM Algorithm and PLSA>,分别是讲LDA和PLSA的. 让我看说明: 1.有个文件里面有专门讲sql的:2.LDA 和PLSA的文件,可以看一下,大概了解下输入输出,算法过程.我建议你现在想想共同作者或者机构的问题,了解下主题模型可能会有帮助,找出作者的 topic这个我正…
http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/24/3096437.html…
今天收到中秋的邮件.KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561.  …
实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈.正好也称这一下午加一晚上的时间把那三篇论文温习一遍,然后把CRF.MRF再看看,不过果然 还是没于看懂,晚上吃完饭回来打算找学长问,不过学长吃饭去了还没有回来,就自己看那篇综述.   等学 瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目.其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种la…
今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林: 随机森林是一种比较新的机器学习模型.经典的机器学习模型是神经网络,有半个多世纪的历史了.神经网络预测精确,但是计算量很大.上世纪八十年代Breiman等人发明分类树的算法(年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果.随机森林在运算量没有显著提高的前提下提高了预测精度.随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数…
早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他.于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用.然后我就在打电脑上变异了一下果然就是可以.不过运行结果最有一行有一个大大的ERROR,还在调试中. 下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子.大概是这样的:   首 先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖…
今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了. 晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发邮件来着,因为我开始觉得他给我的Co-Author好像跟“与当前文章合作的Co-Authro的历来合作的文章总数”那个SQL特征没什么改进,大概就是一样的,只不过可能粒度小. 不过在发邮件之前我还是有打算再调研调研,于是就上网搜了一下社会计算.DBscan...没什么头绪. 晚上回寝室之后,继续到自…
今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬.讨论的结果大概是这样的: 可以test驱动那种,但是别太过火,容易过拟合,当前榜上排前几名都已靖97%的那几个队有可能就已经过拟合了,因为他们尝试的次数太…
其实昨天KDD就开始了,不过今天算是我跟KDD的第一天.   昨天夜里就短信跟中秋聊了一会儿,然后中秋说他一天都在弄数据库,连不上怒了.然后我跟他说明天我来.于是今天就在图书馆弄KDD,数据是用数据库存储的而 不是文件,数据库用的PostgreSQL,然后就在Linux上搭建PostgreSQL,没什么问题.就是最后在载入样例数据备份的时候数据一直下载 不下来,然后就到中秋哪里拿数据.   在中秋那里看了一下他的错误,其实没解决,我的感觉还是他的安装包的问题,貌似PostgreSQL对Windo…
今天第一次接触学习boost库,虽然以前也听过boost,但是没有用心学习和使用此库. 学习的材料是:Boost_c++库.pdf RAII 智能指针的原理基于一个常见的习语叫做RAII:资源申请即初始化.智能指针只是这个习语的其中一例--当然是相当重要的一例.智能指针的内存都能得到正确的释放,从而将开发人员从这项任务中解放出来.这宝库程序因为异常而中断,原本来用于释放内存的代码被跳过的场景. 用一个动态分配的地址来初始化智能指针,在析构的时候释放内存,就确保了这一点.因为析构函数总是会被执行的…