BioNLP概述

工具:

GENIA Tagger:GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%,短语切分(chunking)性能F-score达到93%。

生物医学文献生物命名实体识别

识别实体主要包括基因、蛋白质、DNA和RNA。

评测:JNLPBA、BioCreative

生物实体命名的特点:

  • 描述性的命名习惯:如"47 kDa sterol regulatory element binding factor",名字较长(大约18.6%
  • 的生物实体名包含四个以上的单词),这样很难确定生物实体名的边界。
  • 非标准的命名习惯:生物实体可能有多种拼写形式,如"N-acetylcysteine"、"N-acetyl-cysteine"和"NAcetylCysteine"都是指同一生物实体。功能无关的基因、蛋白质还可能出现同名的情况。生物实体名可以包含数字、希腊或拉丁文字母;可以是大小写相关的。
  • 缩写:在生物医学文献中,缩写大量使用,也很不规范,如"Inter1eukin2"的缩写"IL2"是根据音节的得到的,而"palate"的缩写"PAL"是根据音节的得到的,再如"TCF"在不同的文章中可以是"T cell Factor"和"Tissue Culture Fluid"的缩写。
  • 包含关系:生物实体名可以是其他生物实体名的子串,如"epidermal growth factor"和"epidermal growth factor receptor"是两个不同的生物实体。

主要方法基于词典、基于规则和基于机器学习的方法。

  • 基于词典:在GENIA预料集上75.6% 。 2005年
  • 基于规则:利用词性特征、词性分析、语法分析,在medline上面67%左右。
  • 基于机器学习:主要有HMM,SVM,最大熵马尔科夫模型(MEMM),CRFs。其中最具优势的是CRFs,CRFs只使用很少特征就可以到70%左右。

生物医学文献实体关系抽取

当前进行蛋白质交互关系抽取主要三种方法:

  • 基于自然语言处理的系统:浅层分析和深层分析
  • 基于模式匹配的系统:根据预先定义好的模式和匹配规则将标注好词性的序列与结构信息进行匹配。
  • 基于机器学习和统计的方法

生物医学文献中的假设发现

方法:

  • 从相关MEDLINE记录的自由文本(freetext,即题目和摘要)中,通过自然语言处理技术提取其中的概念作为相关概念。
  • 使用基于医学主题词MesH(Medical subject Headings)的相关概念获取方法。

算法:

  • 开放发现算法(Open Discovery Algorithm):根据用户给出的查询概念A,通过获取相关的中间概念B,再获取与B相关的概念C,从而找到以前未曾发现的A与C的关联,即A->B->C。
  • 闭合发现算法(Closed Discovery Algorithm):根据用户给出的查询概念A和概念C,找到把它们联系起来的中间概念B,即A->B<-C,从而对新发现的A与C的关联进行验证。

BioNLP概述的更多相关文章

  1. 【AR实验室】ARToolKit之概述篇

    0x00 - 前言 我从去年就开始对AR(Augmented Reality)技术比较关注,但是去年AR行业一直处于偶尔发声的状态,丝毫没有其"异姓同名"的兄弟VR(Virtual ...

  2. Recurrent Neural Network系列1--RNN(循环神经网络)概述

    作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...

  3. Swift3.0服务端开发(一) 完整示例概述及Perfect环境搭建与配置(服务端+iOS端)

    本篇博客算是一个开头,接下来会持续更新使用Swift3.0开发服务端相关的博客.当然,我们使用目前使用Swift开发服务端较为成熟的框架Perfect来实现.Perfect框架是加拿大一个创业团队开发 ...

  4. .Net 大型分布式基础服务架构横向演变概述

    一. 业务背景 构建具备高可用,高扩展性,高性能,能承载高并发,大流量的分布式电子商务平台,支持用户,订单,采购,物流,配送,财务等多个项目的协作,便于后续运营报表,分析,便于运维及监控. 二. 基础 ...

  5. [C#] 进阶 - LINQ 标准查询操作概述

    LINQ 标准查询操作概述 序 “标准查询运算符”是组成语言集成查询 (LINQ) 模式的方法.大多数这些方法都在序列上运行,其中的序列是一个对象,其类型实现了IEnumerable<T> ...

  6. 【基于WinForm+Access局域网共享数据库的项目总结】之篇一:WinForm开发总体概述与技术实现

    篇一:WinForm开发总体概述与技术实现 篇二:WinForm开发扇形图统计和Excel数据导出 篇三:Access远程连接数据库和窗体打包部署 [小记]:最近基于WinForm+Access数据库 ...

  7. Java消息队列--JMS概述

    1.什么是JMS JMS即Java消息服务(Java Message Service)应用程序接口,是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送 ...

  8. [AlwaysOn Availability Groups]健康模型 Part 1——概述

    健康模型概述 在成功部署AG之后,跟踪和维护健康状况是很重要的. 1.AG健康模型概述 AG的健康模型是基于策略管理(Policy Based Management PBM)的.如果不熟悉这个特性,可 ...

  9. μCos-ii学习笔记1_概述

    一.μCos-ii _概述 网上关于μCosii的文章多不胜数,本人学习的过程中也参考了很多人的理解和想法,看的是卢有亮老师的<嵌入式实时操作系统-μC/OS原理与实践>(第2版),同时也 ...

随机推荐

  1. php单元测试入门教程phpunit详解

    本文档提供了一些phpunit官方教程没有提到的信息,帮助初学者快速了解php单元测试,在phpunit官网提供了详细的中文教程,可选多种格式下载 phpunit官网地址:https://phpuni ...

  2. VM虚拟机内ubuntu无法连接到网络

    VM虚拟机内ubuntu无法连接到网络 解决:编辑网络,将网路都删除掉.又一次加入网络桥接和NAT链接. .又一次连接就可以,查看一下ip地址. 方法2: 虚拟机中新装ubuntu 编辑虚拟网络,先恢 ...

  3. stage3D基础一-----Stage3D如何工作(转)

    在如何使用Stage3D系列中的第一个教程中,你将会学习到有关在Flash Player 11中新引入的ActionScript API,该API允许在Flash中利用硬件加速进行3D渲染.在学习这个 ...

  4. notepad 替换行收尾字符串或在行首尾新增字符

    用 Notepad++ 打开,把每一个将要放在表中单元格的内容放一行(注: ^ 代表行首 $ 代表行尾) 去除行尾空格和空白行:按CTRL+H 选择正则表达式-- 查找目标:\s+$ 替换为空 去除行 ...

  5. 机器学习6—SVM学习笔记

    机器学习牛人博客 机器学习实战之SVM 三种SVM的对偶问题 拉格朗日乘子法和KKT条件 支持向量机通俗导论(理解SVM的三层境界) 解密SVM系列(一):关于拉格朗日乘子法和KKT条件 解密SVM系 ...

  6. bootstrat 设置 select option 选项的值

    <script> /** //把textarea替换成一个编辑器 UE.getEditor('22upTips',{ initialFrameWidth:"80%", ...

  7. 解决:Adb connection Error:远程主机强迫关闭了一个现有的连接

    最近刚入手了一台G12,用它来调试程序的时候,eclipse的console总是出现如下的错误“Adb connection Error:远程主机强迫关闭了一个现有的连接” 问题出现的原因:这是ddm ...

  8. 工具类之Condition

    再次看到Condition,第一感觉还是觉得它和Mutex的功能是一样的,没必要存在.心里这么想,其实自己也知道怎么可能多余呢?老老实实的再分析一下代码,这次一定要把理解出来的内容记下来!都怪平时写代 ...

  9. DM8168 自己主动登录root用户

    ①指定连接: <DM8168># ln -s /bin/busybox /sbin/getty ②改动/etc/inittab文件: <DM8168># vi /etc/ini ...

  10. mysql5.5.30源码安装及主从搭建

    双机热备(实验环境) 主服务器:ip地址192.168.100.244,mysql版本5.5.30,源码安装 从服务器:ip地址192.168.100.245 一.源码安装mysql5.5 启动目录: ...