今天晚上跟师兄讨论,这那几篇论文,对于《领域多词表 达翻译对的自动抽取及其应用》那篇,我的感觉是跟实体识别不太吻合。他的大概意思就是先讲所有有可能的多词表达都找出来,然后在用C-value、上下文 熵、北京语料库等手段进行过滤,不过我看了前面生成预选集合的地方就觉得不太对劲。因为多词表达跟实体差别还是挺大的,实体对于内部结构有依赖,他的方法 就是连续统计一句话每词之间的相关联度,然后将最大的一个一个接着规约合并,合并的中间产物和最终产物都算是有可能的多词表达,整个规约过程可以被表达成 一颗树。但是这样并不好,因为对于多词表达来说这样做也许能够奏效,因为多词表达对于结构依赖的不是那么多,然而对于实体来说,情况太多了,想做的好点, 大部分都得通过结构来判别是不是某种实体的,如果像文章那样做,每次都只考虑两个词之间的关联程度来规约的话,很多真正的实体可能就不会在预选机里面,以 后再怎么筛都不可能筛出来了,也就是说第一步就不对了。比如预料中只有“鱼香肉丝”,没有“鱼香茄条”这个词,所以“鱼香“跟“肉丝”的关联度可能很大, 但“鱼"跟"茄条”之间的关联程度最后算出来的可能就是零,或者经过平滑之后得到一个很小的值,但是“鱼香茄条”、“鱼香黄瓜”都是正常的实体,他们有着 相同的结构。所以最后大师兄说这个地方可能还需要考虑考虑别的思路。

不过目前大概的思路就是两张牌:

  1. 实体结构
  2. 话题模型

目前大师兄的意思是我们先从实体结构上下手,看看能不能抽出来,效果怎么样。让我先看着论文《基于维百科和条件随机场的领域主题词抽取方法》,师兄说这个文章的方法比较简单,大概写一个简单的代码,看能跑出来什么。先对着几个领域试一下:

  1. 化学品名
  2. 药品名
  3. 动植物名
  4. 菜名
  5. 疾病名

最后就是定了一下碰头的固定时间,周一的晚上,还有周三和周五的下午一起商量。

 
夜里看多次表达那篇论文的高潮部分,感觉那个上下文熵还有点意思。不过还没理解好,主要是不知道那个熵为什么这样设计,其中的C/N代表什么,为什么把N放在分母上,为什么认为N越小越好?不过这个人做的手法现在大概已经很清晰了,其实他识别多次表达的时候就用了四张牌:
 
  1. 内部结合紧密程度:其实就是两个词之间的关联程度,他说衡量的手法还挺多,比如频次、互信息、DICE系数、LLR、卡方统计量、选择关
    联度、对称条件概率等。他这里采用的是LLR,主要用于生成候选集合。我主要是认为他这张牌出的不好,针对命名实体的话。接下来的四张牌都用于候选集合的
    筛选了。
  2. 嵌套搭配:因为如果一个多词表达,出现在另外一个多次表达的内部,那么我们算大的那个,不算里面的,他把这个考虑进去了,其实这不应该是一张牌,但是这其中的C-value方法中考虑到了词串的长度,他认为词串越长奇异性越小,而且含有的信息越多,我觉得这个值得考虑。
  3. 使用自由度:他用的是上下文熵。还要继续琢磨。
  4. 背景语料库:这里他用的是KL距离,来计算前景语料库和背景语料库的差异,表示没太看懂。
 
明天主要就是研究这四张牌,然后编码那个抽取结构的demo。
 

2013.6.24 - OpenNE第四天的更多相关文章

  1. json(http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/24/3096437.html)

    http://www.cnblogs.com/lanxuezaipiao/archive/2013/05/24/3096437.html

  2. SharePoint Server 2013开发之旅(四):配置工作流开发和测试环境

    工作流这个功能,在SharePoint Server 2013中做了很大的改动.我们可以从微软官方的文档中了解一下大概的情况 http://technet.microsoft.com/zh-cn/li ...

  3. Dynamic CRM 2013学习笔记(十四)复制/克隆记录

    经常有这样的需求,一个单据上有太多要填写的内容,有时还关联多个子单据,客户不想一个一个地填写,他们想从已有的单据上复制数据,克隆成一条新的记录.本文将介绍如何克隆一条记录,包括它的子单据以生成一条新的 ...

  4. day 24 二十四、组合、继承、方法重写和重用、super()

    一.组合 1.定义:自定义类的对象作为类的属性 A类的对象具备某一个属性,该属性的值是B类的对象 基于这种方式就把A类与B类组合到一起 对象既能使用A类中的数据与功能,也能使用B类中的数据与功能 2. ...

  5. SharePoint 2013 APP 开发示例 (四)JQuery访问REST

    这个示例里,我们将用JQuery AJAX去发送一个 REST请求,并查看返回结果.为了让我们更好地理解REST 接口,我们将添加一个输入框让用户可以指定REST的URL, 这将让我们尝试着用构造的U ...

  6. 2013/10/24初学BOOST

    今天第一次接触学习boost库,虽然以前也听过boost,但是没有用心学习和使用此库. 学习的材料是:Boost_c++库.pdf RAII 智能指针的原理基于一个常见的习语叫做RAII:资源申请即初 ...

  7. Cheatsheet: 2013 10.24 ~ 10.31

    Web Performance Comparison Between Node.js and Java EE Other Hidden Productivity Secrets With Alfred ...

  8. 大一暑假为期五周的ACM实验室培训结束了(2013.8.24)

    没想到,我的大学里第一个暑假,9周的时间只有最初的两周在家待着,接下来的7周将会在学校度过. 说真的,这是我上学以来,第一次真正好好利用的假期.在这五周里,周一.三.五下午学长都会给我们讲点知识,之后 ...

  9. __x__(24)0907第四天__ display 和 visibility

    <a>百度</a>    也是内联元素,无法设置width和height <img>可以设置width和height,但是不会占用一行,所以是典型的行内块元素inl ...

随机推荐

  1. (转载)PyTorch代码规范最佳实践和样式指南

    A PyTorch Tools, best practices & Styleguide 中文版:PyTorch代码规范最佳实践和样式指南 This is not an official st ...

  2. [LeetCode] 680. Valid Palindrome II 验证回文字符串 II

    Given a non-empty string s, you may delete at most one character. Judge whether you can make it a pa ...

  3. AppCrawler安装使用

    百度网盘: https://pan.baidu.com/s/1bpmR3eJ mac下安装appium 真机或者模拟器均可. 确保adb devices可以看到就行 启动appium 启动appium ...

  4. 在ensp上配置Hybrid接口

    Hybrid接口是华为特有的一种接口 Hybrid接口是既可以连接普通终端的接入链路,又可以连接交换机间的干道链路. 简单说就是Hybrid接口既能实现Access的功能又能实现Trunk接口的功能. ...

  5. IDEA 自定义代码模板

    IDEA 自定义代码模板操作步骤:

  6. [转帖]IOC Security: Indicators of Attack vs. Indicators of Compromise

    IOC Security: Indicators of Attack vs. Indicators of Compromise https://www.crowdstrike.com/blog/ind ...

  7. int main(int argc, char *argv[])解释

    int main(int argc, char *argv[]) 详解: #include <stdio.h> int main(int argc, char *argv[]) { int ...

  8. java笔记4—继承

    继承: 作用: 提高了代码的复用性. 让类与类之间产生了关系,为多态提供了前提 继承中成员变量的特点: 继承中成员函数的特点: 方法重写: 注意:重写方法必须和被重写的方法具有相同的方法名,参数列表和 ...

  9. 2.7_Database Interface OLE-DB诞生

    ODBC仅支持关系数据库,以及传统的数据库类型,并且只以C/C++语言API(API就是一些C语言的代码,是最底层的程序,在windows中就是一些.dll的文件)形式提供服务,因而无法符合日渐复杂的 ...

  10. Linux 用户管理命令笔记

    1.新增用户 useradd user1 用户创建流程 1.系统先将用户信息记录在/etc/passwd中,一般会在/etc/passwd和/etc/shadow末尾,同时分配该用户UID. 2.创建 ...