2013.6.24 - OpenNE第四天

今天晚上跟师兄讨论，这那几篇论文，对于《领域多词表达翻译对的自动抽取及其应用》那篇，我的感觉是跟实体识别不太吻合。他的大概意思就是先讲所有有可能的多词表达都找出来，然后在用C-value、上下文熵、北京语料库等手段进行过滤，不过我看了前面生成预选集合的地方就觉得不太对劲。因为多词表达跟实体差别还是挺大的，实体对于内部结构有依赖，他的方法就是连续统计一句话每词之间的相关联度，然后将最大的一个一个接着规约合并，合并的中间产物和最终产物都算是有可能的多词表达，整个规约过程可以被表达成一颗树。但是这样并不好，因为对于多词表达来说这样做也许能够奏效，因为多词表达对于结构依赖的不是那么多，然而对于实体来说，情况太多了，想做的好点，大部分都得通过结构来判别是不是某种实体的，如果像文章那样做，每次都只考虑两个词之间的关联程度来规约的话，很多真正的实体可能就不会在预选机里面，以后再怎么筛都不可能筛出来了，也就是说第一步就不对了。比如预料中只有“鱼香肉丝”，没有“鱼香茄条”这个词，所以“鱼香“跟“肉丝”的关联度可能很大，但“鱼"跟"茄条”之间的关联程度最后算出来的可能就是零，或者经过平滑之后得到一个很小的值，但是“鱼香茄条”、“鱼香黄瓜”都是正常的实体，他们有着相同的结构。所以最后大师兄说这个地方可能还需要考虑考虑别的思路。

不过目前大概的思路就是两张牌：

实体结构
话题模型

目前大师兄的意思是我们先从实体结构上下手，看看能不能抽出来，效果怎么样。让我先看着论文《基于维百科和条件随机场的领域主题词抽取方法》，师兄说这个文章的方法比较简单，大概写一个简单的代码，看能跑出来什么。先对着几个领域试一下：

化学品名
药品名
动植物名
菜名
疾病名

最后就是定了一下碰头的固定时间，周一的晚上，还有周三和周五的下午一起商量。

夜里看多次表达那篇论文的高潮部分，感觉那个上下文熵还有点意思。不过还没理解好，主要是不知道那个熵为什么这样设计，其中的C/N代表什么，为什么把N放在分母上，为什么认为N越小越好？不过这个人做的手法现在大概已经很清晰了，其实他识别多次表达的时候就用了四张牌：

内部结合紧密程度：其实就是两个词之间的关联程度，他说衡量的手法还挺多，比如频次、互信息、DICE系数、LLR、卡方统计量、选择关
联度、对称条件概率等。他这里采用的是LLR，主要用于生成候选集合。我主要是认为他这张牌出的不好，针对命名实体的话。接下来的四张牌都用于候选集合的
筛选了。
嵌套搭配：因为如果一个多词表达，出现在另外一个多次表达的内部，那么我们算大的那个，不算里面的，他把这个考虑进去了，其实这不应该是一张牌，但是这其中的C-value方法中考虑到了词串的长度，他认为词串越长奇异性越小，而且含有的信息越多，我觉得这个值得考虑。
使用自由度：他用的是上下文熵。还要继续琢磨。
背景语料库：这里他用的是KL距离，来计算前景语料库和背景语料库的差异，表示没太看懂。

明天主要就是研究这四张牌，然后编码那个抽取结构的demo。

2013.6.24 - OpenNE第四天的更多相关文章

json（http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/24/3096437.html）
http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/24/3096437.html
SharePoint Server 2013开发之旅（四）：配置工作流开发和测试环境
工作流这个功能,在SharePoint Server 2013中做了很大的改动.我们可以从微软官方的文档中了解一下大概的情况 http://technet.microsoft.com/zh-cn/li ...
Dynamic CRM 2013学习笔记（十四）复制/克隆记录
经常有这样的需求,一个单据上有太多要填写的内容,有时还关联多个子单据,客户不想一个一个地填写,他们想从已有的单据上复制数据,克隆成一条新的记录.本文将介绍如何克隆一条记录,包括它的子单据以生成一条新的 ...
day 24 二十四、组合、继承、方法重写和重用、super（）
一.组合 1.定义:自定义类的对象作为类的属性 A类的对象具备某一个属性,该属性的值是B类的对象基于这种方式就把A类与B类组合到一起对象既能使用A类中的数据与功能,也能使用B类中的数据与功能 2. ...
SharePoint 2013 APP 开发示例（四）JQuery访问REST
这个示例里,我们将用JQuery AJAX去发送一个 REST请求,并查看返回结果.为了让我们更好地理解REST 接口,我们将添加一个输入框让用户可以指定REST的URL, 这将让我们尝试着用构造的U ...
2013/10/24初学BOOST
今天第一次接触学习boost库,虽然以前也听过boost,但是没有用心学习和使用此库. 学习的材料是:Boost_c++库.pdf RAII 智能指针的原理基于一个常见的习语叫做RAII:资源申请即初 ...
Cheatsheet: 2013 10.24 ~ 10.31
Web Performance Comparison Between Node.js and Java EE Other Hidden Productivity Secrets With Alfred ...
大一暑假为期五周的ACM实验室培训结束了(2013.8.24)
没想到,我的大学里第一个暑假,9周的时间只有最初的两周在家待着,接下来的7周将会在学校度过. 说真的,这是我上学以来,第一次真正好好利用的假期.在这五周里,周一.三.五下午学长都会给我们讲点知识,之后 ...
__x__(24)0907第四天__ display 和 visibility
<a>百度</a> 也是内联元素,无法设置width和height <img>可以设置width和height,但是不会占用一行,所以是典型的行内块元素inl ...

随机推荐

【交互】抖音VS快手
从能量节约,懒惰的人性本质角度来分析,有点意思. https://www.ui.cn/detail/506135.html
consul多数据中心搭建【h】
自建IDC后面简称own.阿里云机房ali.腾讯云机房txown机房:内网10.10.10.0/24,边界节点,10.10.10.100/101.xxx.80.xxxali机房:内网10.10.10. ...
PLSQL Developer 11 使用技巧(持续更新)
PLSQL Developer 11 使用技巧 (持续更新) 目录(?)[-] 首先是我的颜色配置常用快捷键提升PLSQL编程效率按空格自动替换关闭Window窗口 PLSQL 实用技巧 TI ...
MySQL 中的共享锁和排他锁的用法
在 MySQL 中的行级锁.表级锁和页级锁中,咱们介绍过,行级锁是 MySQL 中锁定粒度最细的一种锁,行级锁能大大减少数据库操作的冲突.行级锁分为共享锁和排他锁两种,本文将详细介绍共享锁和排他锁的概 ...
kubelet tls
当成功签发证书后,目标节点的 kubelet 会将证书写入到 --cert-dir= 选项指定的目录中:此时如果不做其他设置应当生成上述除ca.pem以外的4个文件 kubelet-client.cr ...
04 javascirpt基础知识---听课笔记
1.JavaScript概念一门客户端脚本语言运行在客户端浏览器中的.每一个浏览器都有JavaScript的解析引擎脚本语言:不需要编译,直接就可以被浏览器解析执行了 * 功能:可以来增强用户和ht ...
vue总结的知识点
1.Vue生命周期钩子,都是干嘛用的? Vue实例从创建到销毁的过程,就是生命周期.Vue的生命周期包括:开始创建.初始化数据.编译模板.挂载Dom.渲染→更新→渲染.卸载等一系列过程.在Vue的整个 ...
tomcat-修改端口--号
1.背景在默认情况下,tomcat的端口是8080,使用了两个tomcat,那么就需要修改其中的一个的端口号才能使得两个同时工作. 2.方法 2.1改动一那么,如何修改tomcat的端口号呢?首先 ...
DP（动态规划）总结
前言动态规划是很重要的一个知识点,大大小小的比赛总会有一两道DP题,足以说明动态规划的重要性. 动态规划主要是思想,并没有固定的模板,那么,怎么判断题目是不是动态规划呢? DP题一般都会满足三个条件 ...
Detecting GAN-generated Imagery using Color Cues
Abstract 论文创新点:分析流行GAN网络结构得知,GAN网络生成得图片在颜色处理与真实摄像机拍摄的照片存在不同,主要表现在两方面. 实验结果:证明了两种线索能够有效区分GAN生 ...

2013.6.24 - OpenNE第四天

2013.6.24 - OpenNE第四天的更多相关文章

随机推荐

热门专题