生物信息学

染色体可以据染色图谱判断染色体号码,1-22号染色体依次变短,它们影响机体发育,23号染色体决定性别。肿瘤是由于遗传密码变异造成的。因此,遗传密码的解读非常重要,但是因为遗传密码长度非常长,所以虽然已经全部测出来,但是破译它们依然存在很多难题。

生物信息学是一个学科领域,它的研究对象基因组,所以最初下定义是基因组信息学,主要内容是获取处理、存储、分配、分析和解释生物数据,即对生物信息的获取管理和信息挖掘。

破译具体而言是序列分析,对于编码序列看编码何种蛋白质,而对于非编码序列看起到何种作用。当今自然科学领域和技术科学领域中,生物信息学是结合三类问题的复合学科,包括基因组,信息结构和复杂性。

生物信息学:

1.Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

2.生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

3.生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至下一世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

随着human genomeproject完成,生物信息数据随之飞快增长,数据库种类逐渐变多,数据增长速度也逐渐变大。所以有以下四类数据库,DNA碱基数据库&expression sequence tag表达序列标签数据库,其中注释活细胞中正在实现功能的gene,这些gene覆盖人类基因组的90%。SNPs单核苷酸多态性数据库(single nucleotide polymorphisms),单独物种genome dataset。慢慢的,诞生了其他综合性数据库,就是二次数据库,包括Genbank;EMBL;DDBJ;这些数据库之间每天都在交互数据。

普遍研究流程是由Gene到primary sequence of protein,再到3D structure of protein,然后注释biological function,以前认为的junk gene现在部分转化为noncoding gene,并对其展开研究。

大基因组中的序列的拼接和注释主要依靠生物信息学方法。

在经过Sequencing,basecalling测碱基荧光,vector mark(通过碱基比对去除引物)这些物理方法之后,生物信息学应用于assembly,Assembly的难题在于片段多无法正确拼接,所以assembly主要思路是对相同数据的采用不同切割方法,这些方法产生的不同断面,可以帮助我们找到拼接gene组的线索,如今supercompute帮助更快凭借,覆盖率可以99%。即使这样,也存在未能finishing(补洞)上的部分,这是很大的难题。但是至此,大部分序碱基信息可以读取出来,然后再repeat mark +ORF prediction+Gene annotation破译更多信息,解决生物学问题。

basecalling|vector mark|Assembly的难题|的更多相关文章

  1. C# 使用SIMD向量类型加速浮点数组求和运算(1):使用Vector4、Vector<T>

    作者: 目录 一.缘由 二.使用向量类型 2.1 基本算法 2.2 使用大小固定的向量(如 Vector4) 2.2.1 介绍 2.2.2 用Vector4编写浮点数组求和函数 2.3 使用大小与硬件 ...

  2. [NOIP 2016D2T2/Luogu P1600] 天天爱跑步 (LCA+差分)

    待填坑 Code //Luogu P1600 天天爱跑步 //Apr,4th,2018 //树上差分+LCA #include<iostream> #include<cstdio&g ...

  3. 【洛谷P1379】八数码难题(广搜、A*)

    八数码难题 题目描述 一.广搜: 首先要考虑用什么存每一个状态 显然每个状态都用一个矩阵存是很麻烦的. 我们可以考虑将一个3*3的矩阵用一个字符串或long long 存. 每次扩展时再转化为矩阵. ...

  4. FZU 1686 神龙的难题 (重复覆盖)

    Problem 1686 神龙的难题 Accept: 397    Submit: 1258Time Limit: 1000 mSec    Memory Limit : 32768 KB  Prob ...

  5. How to upgrade workflow assembly in MOSS 2007

    This problem generally start when you are having an existing custom workflow and there are instances ...

  6. [转载] [Mark]分布式存储必读论文

    原文: http://50vip.com/423.html 分布式存储泛指存储存储和管理数据的系统, 与无状态的应用服务器不同, 如何处理各种故障以保证数据一致,数据不丢, 数据持续可用, 是分布式存 ...

  7. POJ 3096 Surprising Strings(STL map string set vector)

    题目:http://poj.org/problem?id=3096 题意:给定一个字符串S,从中找出所有有两个字符组成的子串,每当组成子串的字符之间隔着n字符时,如果没有相同的子串出现,则输出 &qu ...

  8. hdu 1251 统计难题 trie入门

    统计难题 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本 ...

  9. bzoj 2402: 陶陶的难题II 二分答案维护凸包

    2402: 陶陶的难题II Time Limit: 40 Sec  Memory Limit: 128 MBSec  Special JudgeSubmit: 68  Solved: 45[Submi ...

随机推荐

  1. js实现placehoider效果

    placeholder作为input输入框提示语很好用,但是低版本ie却不支持,对于只有提示语的输入框并不适用 <input type="text" value=" ...

  2. np.newaxis 为 numpy.ndarray(多维数组)增加一个轴

    >> type(np.newaxis) NoneType np.newaxis 在使用和功能上等价于 None,其实就是 None 的一个别名. 1. np.newaxis 的实用 > ...

  3. [Algo] 132. Deep Copy Undirected Graph

    Make a deep copy of an undirected graph, there could be cycles in the original graph. Assumptions Th ...

  4. one_day_one_linuxCmd---wget命令

    <坚持每天学习一个 linux 命令,今天我们来学习 wget 命令> Linux wget 是一个文件下载工具,它用在命令行下,使用也非常方便,不但体积小而且功能完善,并支持很多强大的功 ...

  5. LeetCode Input Initial Code

    说明 LeetCode提供的样本输入,显示上是数组Array,而后台的实际测试用例则是树TreeNode,链表ListNode等. 如果你是在页面手撸代码直接提交的,那没什么影响. 如果你是在本地ID ...

  6. win10下安装cygwin全过程

    简单讲:cygwin就是在windows系统上跑linux和unix的环境,跨平台移植的应用程序移植. 安装步骤: 下载cygwin: 打开官网https://cygwin.com/install.h ...

  7. Redis分布式锁前世今生

    1.redis锁前世即基于单Redis节点的分布式锁,诸如setkey value px milliseconds nx 前世者,必将经历种种磨砺,才能稍微符合一些主流.推荐自测非常好用的redis工 ...

  8. centos快速安装mysql

    1. wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 2. rpm -ivh mysql-community-r ...

  9. 深度学习数据集MNIST ImageNet COCO PASCAL VOC介绍

    参考文档 深度学习数据集汇总介绍 1.  MNIST 深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,每个样本 ...

  10. systemd[1]: mariadb.service: Can't open PID file /data/mariadb/mysql/30-mariadb-1.pid (yet?) after start: No such file or directory

    环境:Centos8 编译安装Mariadb-10.4.11,安装到make install都没有问题,添加服务启动脚本到/lib/systemd/system/,服务启动脚本名为mariadb.se ...