基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己. 首先我们需要明确我们需要的数据和软件: 数据包括: all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列 这样就是所有的输入文件了,现在我们列举一下需要用到的软件: gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annov…
来自:https://www.jianshu.com/p/e6a5e1f85dda 使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据. 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组.目前随着三代测序价格下降,这一点问题不大. 基因组命名应该简单,最好就是">contig1"或">tig000001" 基因组需要屏蔽重复序列 默认参数通常表现效果就很好,但是也要根据物种…
下午花了两个小时回答读者的疑问,觉得可以记录下来,也许能帮到一部分人. 第一位读者做的是非模式物种的单细胞. 一开始以为是想问我非模式物种的marker基因在哪儿找,读者朋友也提到了blast 研究的主要细胞类型的marker是有的 让读者朋友困惑的是一张表,cluster乘样本的表,每一个值表示表达这个marker基因的细胞数目.这个表其实没有多少信息,且容易给人误导.应该直接从小提琴图看. 解答完了这个问题,另一个问题还是回到"非模式物种如何找marker".找同源基因是一个思路,…
问题1 : 不同人类个体的基因组长度总长是不是一样,如果不一样,那么人类基因组长度排序和范围区间是如何控制的?最短是多少,最长是多少?如果一样,如何理解基因的插入与缺失,INDEL等现象,如何平衡的呢? 附: 植物和高等生物在问题1的规律面前是不是对等的,一致的,这个法则普适用于全地区生物吗? 时间:2018-06-08 于南京 问题也许很低级,我觉得很有意思,对长度的问题展开,意义与价值无穷,看似一个非常简单,非常基础的生物学问题,为何所有的搜索引擎在这方面的阐述那么少呢.…
生命组学: 细菌和其他物种比,容易发生基因漂移,duplication和重排. 泛基因组学研究的一般思路是通过comparison找到特殊基因区域orspecific gene,研究其调控机制(即通过一维发现特殊三维结构,再利用一维结构解释特殊结构的形成机制eg:基因保守与保守空间结构vs非保守空间结构,同时找两种不同结构的物理位置分布),并向应用上扩展. 重测序与泛基因组的差异在于,重测序是将新测得的genome与referencegenome比较,辨别其中的差异,而泛基因组是将同一个物种中不…
目录 问题 思路 问题 原问题来自:How to calculate overlapping genes between two genome annotation versions? 其实可分为两个问题: 一是我组装了一个新的基因组,做了多个注释版本,如何比较它们的feature?比如gene 二是我组装了一个新的参考基因组,并做了注释,想和其他已有的同物种参考基因组比较,如何寻找共有和特有的基因(或其他feature)? 思路 第一个问题是比较好解决的,使用bedtools即可. bedto…
目录 1. ncRNA 2. 软件 tRNA注释 rRNA注释 其他ncRNA注释 3. 注释 tRNA rRNA snRNA.miRNA等 4. snRNA.miRNA等结果的统计 1. ncRNA 非编码RNA(Non-coding RNA, ncRNA) 包括rRNA,tRNA,snRNA,snoRNA 和microRNA 等不编码蛋白质的RNA,它们转录后直接在RNA 水平上就能行使各自的生物学功能,并不需要翻译成蛋白质. 2. 软件 tRNA注释 一般用tRNAscan-SE,老牌软件…
基因结构预测中同源注释策略,将mRNA.cDNA.蛋白.EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件: tblastn gamp exonerate blat 根据我的实测,以上软件整体都比较慢.gmap可设置多线程来提升速度.tblastn虽然也可以,但对提速没什么影响.exonerate和gamp巨吃内存. 以下是跑的资源情况.我的组装基因组约400Mb.tblastn的查询序列311764条,gmap的查询序列1483791条,exonerate的查询序列43632条.…
目录 1.conda安装 2.配置RepBase 3.RepeatMasker避坑 4.RepeatProteinMask避坑 5.RepeatModeler避坑 6.自定义重复序列库 后记 1.conda安装 conda安装虽然简单,但还是有很多坑,而且很多都是隐形的坑. # conda install -c bioconda repeatmasker conda install -c bioconda repeatmodeler repeatmodeler依赖于repeatmasker,因此…
GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注.怎么理解呢,其实所谓的基因名,基因座等,都只是后来人们给一段DNA序列起的名字而已,还原到细胞中就是细胞核里面的一条长长的染色体(DNA序列).而这个GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息. GTF文件我一般喜欢去ensembl下载,gencode也可以. 这里给出链接: ftp://ftp.ensembl.org/pub/r…