生物信息学

染色体可以据染色图谱判断染色体号码,1-22号染色体依次变短,它们影响机体发育,23号染色体决定性别。肿瘤是由于遗传密码变异造成的。因此,遗传密码的解读非常重要,但是因为遗传密码长度非常长,所以虽然已经全部测出来,但是破译它们依然存在很多难题。

生物信息学是一个学科领域,它的研究对象基因组,所以最初下定义是基因组信息学,主要内容是获取处理、存储、分配、分析和解释生物数据,即对生物信息的获取管理和信息挖掘。

破译具体而言是序列分析,对于编码序列看编码何种蛋白质,而对于非编码序列看起到何种作用。当今自然科学领域和技术科学领域中,生物信息学是结合三类问题的复合学科,包括基因组,信息结构和复杂性。

生物信息学:

1.Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

2.生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

3.生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至下一世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

随着human genomeproject完成,生物信息数据随之飞快增长,数据库种类逐渐变多,数据增长速度也逐渐变大。所以有以下四类数据库,DNA碱基数据库&expression sequence tag表达序列标签数据库,其中注释活细胞中正在实现功能的gene,这些gene覆盖人类基因组的90%。SNPs单核苷酸多态性数据库(single nucleotide polymorphisms),单独物种genome dataset。慢慢的,诞生了其他综合性数据库,就是二次数据库,包括Genbank;EMBL;DDBJ;这些数据库之间每天都在交互数据。

普遍研究流程是由Gene到primary sequence of protein,再到3D structure of protein,然后注释biological function,以前认为的junk gene现在部分转化为noncoding gene,并对其展开研究。

大基因组中的序列的拼接和注释主要依靠生物信息学方法。

在经过Sequencing,basecalling测碱基荧光,vector mark(通过碱基比对去除引物)这些物理方法之后,生物信息学应用于assembly,Assembly的难题在于片段多无法正确拼接,所以assembly主要思路是对相同数据的采用不同切割方法,这些方法产生的不同断面,可以帮助我们找到拼接gene组的线索,如今supercompute帮助更快凭借,覆盖率可以99%。即使这样,也存在未能finishing(补洞)上的部分,这是很大的难题。但是至此,大部分序碱基信息可以读取出来,然后再repeat mark +ORF prediction+Gene annotation破译更多信息,解决生物学问题。

basecalling|vector mark|Assembly的难题|的更多相关文章

  1. C# 使用SIMD向量类型加速浮点数组求和运算(1):使用Vector4、Vector<T>

    作者: 目录 一.缘由 二.使用向量类型 2.1 基本算法 2.2 使用大小固定的向量(如 Vector4) 2.2.1 介绍 2.2.2 用Vector4编写浮点数组求和函数 2.3 使用大小与硬件 ...

  2. [NOIP 2016D2T2/Luogu P1600] 天天爱跑步 (LCA+差分)

    待填坑 Code //Luogu P1600 天天爱跑步 //Apr,4th,2018 //树上差分+LCA #include<iostream> #include<cstdio&g ...

  3. 【洛谷P1379】八数码难题(广搜、A*)

    八数码难题 题目描述 一.广搜: 首先要考虑用什么存每一个状态 显然每个状态都用一个矩阵存是很麻烦的. 我们可以考虑将一个3*3的矩阵用一个字符串或long long 存. 每次扩展时再转化为矩阵. ...

  4. FZU 1686 神龙的难题 (重复覆盖)

    Problem 1686 神龙的难题 Accept: 397    Submit: 1258Time Limit: 1000 mSec    Memory Limit : 32768 KB  Prob ...

  5. How to upgrade workflow assembly in MOSS 2007

    This problem generally start when you are having an existing custom workflow and there are instances ...

  6. [转载] [Mark]分布式存储必读论文

    原文: http://50vip.com/423.html 分布式存储泛指存储存储和管理数据的系统, 与无状态的应用服务器不同, 如何处理各种故障以保证数据一致,数据不丢, 数据持续可用, 是分布式存 ...

  7. POJ 3096 Surprising Strings(STL map string set vector)

    题目:http://poj.org/problem?id=3096 题意:给定一个字符串S,从中找出所有有两个字符组成的子串,每当组成子串的字符之间隔着n字符时,如果没有相同的子串出现,则输出 &qu ...

  8. hdu 1251 统计难题 trie入门

    统计难题 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本 ...

  9. bzoj 2402: 陶陶的难题II 二分答案维护凸包

    2402: 陶陶的难题II Time Limit: 40 Sec  Memory Limit: 128 MBSec  Special JudgeSubmit: 68  Solved: 45[Submi ...

随机推荐

  1. 吴裕雄--天生自然TensorFlow高层封装:Estimator-自定义模型

    # 1. 自定义模型并训练. import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist i ...

  2. nm命令介绍

    一.参考文章 网址1:https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/nm.html 参考2: man nm 参考3:<linux ...

  3. dubbo的启动时检查

    修改的消费者(xml) 修改的消费者(注解)

  4. mybatis使用Map<String,Object>映射mysql结果集,关于字段的问题

    --mysql常用字段类型如图 --mybatis使用Map<String,Object>映射,会将tinyint映射成Integer类型.decimal映射成BigDecimal类型 所 ...

  5. [Algo] 280. Sort With 2 Stacks

    Given an array that is initially stored in one stack, sort it with one additional stacks (total 2 st ...

  6. js时间与日期

    var box = new Date(); //创建了一个日期对象:构造方法里面可以传参数,指定时间.如果没有传,就是默认当前时间alert(box); alert(Date.parse('4/12/ ...

  7. MJServer部署

    工具: 1.jdk-8u60-macosx-x64.dmg 2.MjServer.zip 3.eclipse-jee-kepler-SR2-macosx-cocoa-x86_64.tar.gz 4.a ...

  8. SOA,ROA 比较

    1.SOA 面向服务架构 业务被抽象成服务 SOA架构中的对外服务一般都由web service来暴露 SOA架构中的内部服务一般由某种高效的RPC调用来暴露,当然了 也可以用web service来 ...

  9. 菜鸟cmake使用

    cmake是用过把源码生成visual studio 工程的工具,也就是生成.sln文件.他会把相应的库依赖都自动添加上. cmake有个CMakeLists.txt (具体语法这里先不介绍) 我都是 ...

  10. space sniffer

    space sniffer 一款检测本地磁盘文件占用情况的工具,高效,快速.