来自论文:GENIA corpus—a semantically annotated corpus for bio-textmining  2003

1.介绍

GENIA corpus, a semantically annotated corpus of biological literature, is being compiled and annotated in the scope of GENIA project. It is aiming at providing high quality reference materials to let NLP techniques work for bioinformatics and at providing the gold standard for the evaluation of text mining systems.

GENIA语料库,一个语义标注的生物文献语料库,在GENIA项目的范围内被编译和标注。它旨在提供高质量的参考材料,让NLP技术为生物信息学服务,并为文本挖掘系统的评估提供黄金标准。

we released GENIA corpus version 3.0. It consists of 2000 abstracts taken from MEDLINE database, and contains more than 400 000 words and almost 100 000 annotations that have been hand-coded for biological terms.

我们发布了GENIA语料库3.0版。它由MEDLINE数据库中的2000篇摘要组成,包含超过400000个单词和近100000个注释,这些注释是针对生物术语手工编码的。

PubMed 是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。它同时也提供对于相关生物医学资讯上相当全面的支援,像是生化学与细胞生物学。该搜寻引擎是由美国国立医学图书馆提供,作为 Entrez 资讯检索系统的一部分。PubMed 的资讯并不包括期刊论文的全文,但可能提供指向全文提供者(付费或免费)的连结。

2.GENIA CORPUS

Since we wanted our annotation work to converge on biological reactions concerning transcription factors in human blood cells, we selected articles with the MeSH terms, human, blood cell and transcription factor.

因为我们希望我们的注释工作能够集中在与人类血细胞转录因子相关的生物反应上,所以我们选择了包含MeSH术语、人类、血细胞和转录因子的文章。

每一个article都有medlineID,title,abstract等属性,并且abstract中的句子都被分为了sentence。

3.GENIA  本体 ONTOLOGY

GENIA ontology is a taxonomy of, currently, 47 biologically relevant nominal categories.

GENIA本体是目前47个生物学相关的命名类别的分类

图表中最左侧的三个概念:biological source,biological substance,other.

the other is not actually a biological concept but is prepared for the terms that are regarded as biological concepts but are not identified with any other concepts in the ontology.

另一个概念实际上不是生物概念,而是为被视为生物概念但不与本体中的任何其他概念相一致的术语而准备的。

在粗黑体框中的 终端概念terminal,它们形成语义注释的实际标签集

4. LINGUISTIC ANNOTATION

术语的语法定义:

<术语>:=<修饰语>*<中心名词>

<修饰语>:=<形容词>|<名词修饰语>
*在这里可能是连接,|是或。

Mostly, terms can be annotated by simply inserting mark-ups around them as exemplified in Figure 4。

大多数情况下,术语可以通过简单地在它们周围插入标记来注释,例如图4.

图4中,IL-2gene,IL-2gene transcription,T cells,这三个术语,被cons标签所包含。

注意到:IL-2 gene是被递归地标注在IL-2gene transcription标签中的。

However, when terms appear in coordinated clauses involving ellipsis, the annotation is not simply achieved, since we cannot find all the terms fully spelled at the surface of the text.

然而,当术语出现在涉及省略的协调子句中时,注释并不简单,因为我们无法在文本表面找到所有拼写完整的术语。

图5中表现的名词是:CD2 and CD 25 receptors ,实际上是两个概念,不过前面一个省略了一个receptors,没有完整的CD2 receptors出现。

receptors 不仅是CD25的中心名词,而且是CD2的中心名词。

极度省略的协调字句例子。//很明显标签存在的是并列关系。

B and T lymphocyte activation  and mitogenesis中lymphocyte是B和T的中心名词;activation  and mitogenesis 是B lymphocyte和T lymphocyte的中心名词。

We, however, see that there may be high demand for simple annotations that reveal just the terms appearing at the surface of text.

然而,我们看到对简单注释的需求可能很高,这些注释只显示文本表面出现的术语

图6的简化结果见图7:

//不太明白这个简化结果,那还能表达原来的含义嘛?

5.STATISTICS 统计

No of cons是标记数量。

表2中simple是surface level terms ,complex是higher level annotations 。

GENIA语料库学习【转载】的更多相关文章

  1. Java多线程学习(转载)

    Java多线程学习(转载) 时间:2015-03-14 13:53:14      阅读:137413      评论:4      收藏:3      [点我收藏+] 转载 :http://blog ...

  2. Windows Services 学习(转载)

    转载:http://blog.csdn.net/fakine/article/details/42107571 一.学习点滴 1.本机服务查看:services.msc /s2.服务手动安装(使用sc ...

  3. 【学习转载】MyBatis源码解析——日志记录

    声明:转载自前辈:开心的鱼a1 一 .概述 MyBatis没有提供日志的实现类,需要接入第三方的日志组件,但第三方日志组件都有各自的Log级别,且各不相同,但MyBatis统一提供了trace.deb ...

  4. JVM的相关知识整理和学习--(转载)

    JVM是虚拟机,也是一种规范,他遵循着冯·诺依曼体系结构的设计原理.冯·诺依曼体系结构中,指出计算机处理的数据和指令都是二进制数,采用存储程序方式不加区分的存储在同一个存储器里,并且顺序执行,指令由操 ...

  5. Jqgrid学习(转载)

    jqGrid API 全   JQGrid是一个在jquery基础上做的一个表格控件,以ajax的方式和服务器端通信. JQGrid Demo 是一个在线的演示项目.在这里,可以知道jqgrid可以做 ...

  6. R中双表操作学习[转载]

    转自:https://www.jianshu.com/p/a7af4f6e50c3 1.原始数据 以上是原有的一个,再生成一个新的: > gene_exp_tidy2 <- data.fr ...

  7. Java核心编程快速学习(转载)

    http://www.cnblogs.com/wanliwang01/p/java_core.html Java核心编程部分的基础学习内容就不一一介绍了,本文的重点是JAVA中相对复杂的一些概念,主体 ...

  8. FPGA/SOPC学习转载

    转自小時不識月http://www.cnblogs.com/yuphone/archive/2010/08/27/docs_plan.html 新网址为:http://andrewz.cn [连载计划 ...

  9. OpenGL入门学习(转载)

    说起编程作图,大概还有很多人想起TC的#include <graphics.h>吧? 但是各位是否想过,那些画面绚丽的PC游戏是如何编写出来的?就靠TC那可怜的640*480分辨率.16色 ...

随机推荐

  1. python 解释器

    原文 Python 能让程序紧凑, 可读性增强. 用 Python 写的程序通常比同样的 C, C++ 或 Java 程序要短得多, 这是因为以下几个原因: 高级数据结构使你可以在单独的语句中也能表述 ...

  2. Centos7下使用mail发送邮件配置

    参考文档:https://blog.csdn.net/lyf844692713/article/details/81479066 安装环境查看 查看服务是否安装 rpm -qa|grep mail 如 ...

  3. 我心目中的Dream-购物车

    功能要求: 1.要求用户输入自己拥有的总资产,例如:30000 2.显示商品列表的序号,商品名称,商品价格,让用户根据序号选择商品,然后加入购物车 例如: 1 Macbook 12000 2 Logi ...

  4. iPhone XS 能否经受的起寒冬的考验

    我的知乎文章链接: https://zhuanlan.zhihu.com/p/51782644 华北地区近日寒风凛冽,温度骤降,已经进入真正的冬天了,最低温度可以达到零下10度,我们手里的iPhone ...

  5. web标准 浏览器介绍 开发工具介绍 HTML介绍 HTML颜色介绍 规范 HTML结构详解 {前端之前端初识}

    前端之前端初识   前端初识 本节目录 一 web标准 二 浏览器介绍 三 开发工具介绍 四 HTML介绍 五 HTML颜色介绍 六 规范 七 HTML结构详解 一 web标准 web准备介绍: 1. ...

  6. [No0000180]改善C#程序的建议8:避免锁定不恰当的同步对象

    在C#中让线程同步的另一种编码方式就是使用线程锁.所谓线程锁,就是锁住一个资源,使得应用程序只能在此刻有一个线程访问该资源.可以用下面这句不是那么贴切的话来理解线程锁的作用:锁,就是让多线程变成单线程 ...

  7. [development][tcp/ip][ids] 一个简单有参考价值的库 libnids

    libhtp 中的例子, 可以通过libnids快速使用. 或者可以快速的写个sniffer. 支持三个功能 ip分片重组, tcp乱序重排, 端口扫描发现. 工程: https://github.c ...

  8. LeetCode 476 Number Complement 解题报告

    题目要求 Given a positive integer, output its complement number. The complement strategy is to flip the ...

  9. 应用docker化

    1)首先安装源代码工具Git.  [root@master~]# yum install-y git  2)从GitHub上下载示例的Java应用源代码.  [root@master~]# cd/op ...

  10. 催希凡javaweb 学习28天

    看到这样的博客,自己也在看传智播客的视频,收藏一下 催希凡javaweb 学习28天 http://www.cnblogs.com/Prozhu/category/824899.html