转载:http://fhqdddddd.blog.163.com/blog/static/18699154201241014835362/

http://blog.sina.com.cn/s/blog_4476400f0100iq0x.html

 
EST----
对EST序列进行冗余查找,利用CD_HIT软件聚类,快速批量去除冗余序列
est-trimer(去掉帽子和尾巴,去掉太短而不可信的)
RepeatMaster(去掉转座子等重复)
seqclean(去除载体,线粒体叶绿体等序列)
CAP3(拼接)
 
est-trimmer可以从 http://pgrc.ipk-gatersleben.de/misa/do- wnload/est_trimmer.pl 下载,就是个perl脚本,不用安装。脚本运行参数:
DESCRIPTION: Tool for trimming EST (DNA) sequences
## 
## SYNTAX:   est_trimmer.pl <FASTAfile> [-amb=n,win] [-tr5=(A|C|G|T),n,win]
##                          [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]
##                          [-help]
## 
##    <FASTAfile>    Single file in FASTA format containing the sequence(s).
##    [-amb=n,win]   Removes distal stretches containing "n" ambiguous bases in
 a
##                   "win" bp sized window.
##    [-tr5=N,n,win] Removes stretches of the given type N={A,C,G,T} from the 5
'
##                   end. Value "n" defines the min. accepted repeat number of 
"N"
##                   in a 5' window of the size "win".
##    [-tr3=N,n,win] according to [-tr5] for the 3' end.
##    [-cut=min,max] Sets min. value for cutoff and max. sequence size.
##    [-id=name]     Optional. Final results are stored in "name".results, wher
eas
##                   processing steps are listed in "name".log. If not used,
##                   extensions are appended to <FASTAfile>.
##    [-help]        Further descriptions. Use "EST_trimmer.pl -help".
## 
##    Arguments can be used plurally and are processed according to their order
.
## 
## EXAMPLE:  est_trimmer.pl ESTs -amb=2,50 -tr5=T,5,50 -tr3=A,5,50 -cut=100,700
## ____________________________________________________________________________
___
## 
 
个人觉得-amb 太恐怖了,还是没有,-cut 删除了太多了 将700设定到最大,我是设定到10000。
我的命令:
perl est_trimmer.pl input  -tr5=T,5,50 -tr3=A,5,50 -cut=100,10000 -id=output
 
 

repeatmasker 下载地址:http://repeatmasker.org/RMDownload.html

repeatmasker 是个比较复杂的软件,参数比较多,此外还必须在本机装过crossmatch或者wu-blast要多看手册根据自己实际情况设定。其软件有个数据库,每年都更新,本地计算的必须要注意。
此外 repeatmasker运行真是慢,最好可以设成几个CPU一起算。
 
我的命令 repeatmasker input -e crossmatch -s
 
seqclean (下载:http://compbio.dfci.harvard.edu/tgi/software/)
我倒是没遇到参数的问题,就是得在NCBI上下载下载体序列ftp://ftp.ncbi.nih.gov/pub/UniVec/ 里面还有个core的,和全的,我的数据反正算的快,就选了比较大的那个文件,将univec用formatdb命令格式化下就可以直接用了
我的命令
 /usr/biosoft/blast-2.2.18/bin/formatdb -i UniVec -p F -o T
 /usr/biosoft/seqclean/seqclean BnE091007.fasta -v UniVec -o BnE_clean.fasta
 
当是我因为程序的权限不够,怎么都用不了。后来用chmod把seqclean程序的文件夹的东西都改了才行。还好最后终于成功了

38、EST序列拼接流程的更多相关文章

  1. 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

    EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列 ...

  2. Bracket Sequences Concatenation Problem括号序列拼接问题(栈+map+思维)

    A bracket(括号) sequence is a string containing only characters "(" and ")".A regu ...

  3. Est数据库

    Est--编码序列,gene 片段且具有标签 其中,est数据库中是类似测序1.测序2.测序3这样的序列.实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest).如果有overlap则认 ...

  4. (六)WebGIS中地图瓦片在Canvas上的拼接显示原理

    文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 在之前的五个章节中,我们在第一章节里介绍了WebGIS的基本 ...

  5. python学习 数据类型之序列

    一.序列(本文使用python3.5)############################################################# 列表.元组 字符窜都是序列#特点:#1 ...

  6. opencv拼接相关1

    这里面都是一些比较杂的东西,没什么实际意义.主要是为了,后面能跑一个程序: Stitcher: 抠细节: http://docs.opencv.org/2.4.2/modules/stitching/ ...

  7. bowtie:短序列比对的新工具

    bowtie:短序列比对的新工具(转) (2014-11-17 22:15:24) 转载▼ 标签: 转载   原文地址:bowtie:短序列比对的新工具(转)作者:玉琪星兆 Bowtie是一个超级快速 ...

  8. 从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理

    从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理 作者:naaoveGI…    文章来源:naaoveGIS    点击数:1145    更新时间: ...

  9. [golang note] 流程控制

    流程控制 • 流程控制语句作用 ▪ 选择:根据条件跳转到不同的执行序列. ▪ 循环:根据条件反复执行某个序列. ▪ 跳转:据条件返回到某执行序列. • 流程控制语句类型 ▪ 条件语句:关键字为if.e ...

随机推荐

  1. 每天一个Linux命令(9)mv命令

    mv命令用来对文件或目录重新命名,或者将文件从一个目录移到另一个目录中. 注意事项:mv与cp的结果不同,mv好像文件“搬家”,文件个数并未增加.而cp对文件进行复制,文件个数增加了.     (1) ...

  2. python中reduce()函数

    reduce()函数也是Python内置的一个高阶函数.reduce()函数接收的参数和 map()类似,一个函数 f,一个list,但行为和 map()不同,reduce()传入的函数 f 必须接收 ...

  3. 斯坦福机器学习视频笔记 Week1 线性回归和梯度下降 Linear Regression and Gradient Descent

    最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...

  4. Myeclipse中启动tomcat 异常

    信息: Unable to find org.hibernate.search.event.FullTextIndexEventListener on the classpath. Hibernate ...

  5. M1905

    11.09    11:00------102万 11.09     14:00---103万 11.12    16:00------103万 11.19     16:00---94万 11.20 ...

  6. jquery树形菜单插件treeView

    Jquery的treeview很好用,如果是简单的树形菜单按照下面的源码实例模仿就可以. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Tr ...

  7. CDH- CDH大数据集群运维

    CDH前端CM监控不正常(未解决) Request to the Service Monitor failed. This may cause slow page responses. View th ...

  8. 在windows下进行linux开发:利用Vagrant+virtualbox

    1,介绍Vagrant 我们做web开发的时候经常要安装各种本地测试环境,比如apache,php,mysql,redis等等.出于个人使用习惯,可能我们还是比较习惯用windows.虽然说在wind ...

  9. 分享知识-快乐自己:运行(wordcount)案例

    运行 wordcount 案例: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...

  10. GUI创建各常用控件(一)

    首先,作个申明: 1.这是一个野路子非科班的小菜鸟的学习,故诚心欢迎批评指正(同时所述内容可能有误): 2.本人目前使用的Unity3D版本为 5.3.5: 言归正传! 事实上在开发过程中已经很少用G ...