转载:http://fhqdddddd.blog.163.com/blog/static/18699154201241014835362/

http://blog.sina.com.cn/s/blog_4476400f0100iq0x.html

 
EST----
对EST序列进行冗余查找,利用CD_HIT软件聚类,快速批量去除冗余序列
est-trimer(去掉帽子和尾巴,去掉太短而不可信的)
RepeatMaster(去掉转座子等重复)
seqclean(去除载体,线粒体叶绿体等序列)
CAP3(拼接)
 
est-trimmer可以从 http://pgrc.ipk-gatersleben.de/misa/do- wnload/est_trimmer.pl 下载,就是个perl脚本,不用安装。脚本运行参数:
DESCRIPTION: Tool for trimming EST (DNA) sequences
## 
## SYNTAX:   est_trimmer.pl <FASTAfile> [-amb=n,win] [-tr5=(A|C|G|T),n,win]
##                          [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]
##                          [-help]
## 
##    <FASTAfile>    Single file in FASTA format containing the sequence(s).
##    [-amb=n,win]   Removes distal stretches containing "n" ambiguous bases in
 a
##                   "win" bp sized window.
##    [-tr5=N,n,win] Removes stretches of the given type N={A,C,G,T} from the 5
'
##                   end. Value "n" defines the min. accepted repeat number of 
"N"
##                   in a 5' window of the size "win".
##    [-tr3=N,n,win] according to [-tr5] for the 3' end.
##    [-cut=min,max] Sets min. value for cutoff and max. sequence size.
##    [-id=name]     Optional. Final results are stored in "name".results, wher
eas
##                   processing steps are listed in "name".log. If not used,
##                   extensions are appended to <FASTAfile>.
##    [-help]        Further descriptions. Use "EST_trimmer.pl -help".
## 
##    Arguments can be used plurally and are processed according to their order
.
## 
## EXAMPLE:  est_trimmer.pl ESTs -amb=2,50 -tr5=T,5,50 -tr3=A,5,50 -cut=100,700
## ____________________________________________________________________________
___
## 
 
个人觉得-amb 太恐怖了,还是没有,-cut 删除了太多了 将700设定到最大,我是设定到10000。
我的命令:
perl est_trimmer.pl input  -tr5=T,5,50 -tr3=A,5,50 -cut=100,10000 -id=output
 
 

repeatmasker 下载地址:http://repeatmasker.org/RMDownload.html

repeatmasker 是个比较复杂的软件,参数比较多,此外还必须在本机装过crossmatch或者wu-blast要多看手册根据自己实际情况设定。其软件有个数据库,每年都更新,本地计算的必须要注意。
此外 repeatmasker运行真是慢,最好可以设成几个CPU一起算。
 
我的命令 repeatmasker input -e crossmatch -s
 
seqclean (下载:http://compbio.dfci.harvard.edu/tgi/software/)
我倒是没遇到参数的问题,就是得在NCBI上下载下载体序列ftp://ftp.ncbi.nih.gov/pub/UniVec/ 里面还有个core的,和全的,我的数据反正算的快,就选了比较大的那个文件,将univec用formatdb命令格式化下就可以直接用了
我的命令
 /usr/biosoft/blast-2.2.18/bin/formatdb -i UniVec -p F -o T
 /usr/biosoft/seqclean/seqclean BnE091007.fasta -v UniVec -o BnE_clean.fasta
 
当是我因为程序的权限不够,怎么都用不了。后来用chmod把seqclean程序的文件夹的东西都改了才行。还好最后终于成功了

38、EST序列拼接流程的更多相关文章

  1. 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

    EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列 ...

  2. Bracket Sequences Concatenation Problem括号序列拼接问题(栈+map+思维)

    A bracket(括号) sequence is a string containing only characters "(" and ")".A regu ...

  3. Est数据库

    Est--编码序列,gene 片段且具有标签 其中,est数据库中是类似测序1.测序2.测序3这样的序列.实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest).如果有overlap则认 ...

  4. (六)WebGIS中地图瓦片在Canvas上的拼接显示原理

    文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 在之前的五个章节中,我们在第一章节里介绍了WebGIS的基本 ...

  5. python学习 数据类型之序列

    一.序列(本文使用python3.5)############################################################# 列表.元组 字符窜都是序列#特点:#1 ...

  6. opencv拼接相关1

    这里面都是一些比较杂的东西,没什么实际意义.主要是为了,后面能跑一个程序: Stitcher: 抠细节: http://docs.opencv.org/2.4.2/modules/stitching/ ...

  7. bowtie:短序列比对的新工具

    bowtie:短序列比对的新工具(转) (2014-11-17 22:15:24) 转载▼ 标签: 转载   原文地址:bowtie:短序列比对的新工具(转)作者:玉琪星兆 Bowtie是一个超级快速 ...

  8. 从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理

    从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理 作者:naaoveGI…    文章来源:naaoveGIS    点击数:1145    更新时间: ...

  9. [golang note] 流程控制

    流程控制 • 流程控制语句作用 ▪ 选择:根据条件跳转到不同的执行序列. ▪ 循环:根据条件反复执行某个序列. ▪ 跳转:据条件返回到某执行序列. • 流程控制语句类型 ▪ 条件语句:关键字为if.e ...

随机推荐

  1. ubuntu16.04 docker安装

    docker官网安装页面:https://docs.docker.com/engine/installation/linux/ubuntu/ 这个是ubuntu14.04 LTS需要的 $ sudo ...

  2. 简单做出HTML5翻页效果文字特效

    之前在网上看到一款比较有新意的HTML5文字特效,文字效果是当鼠标滑过是出现翻开折叠的效果,类似书本翻页.于是我兴致勃勃的点开源码看了一下,发现其实实现也挺简单的,主要利用了CSS3的transfor ...

  3. Python 注释和中文乱码

    Python 注释分为三种: 1.单行注释:# 2.多行注释:前后3个单引号,或者三个双引号: 如:''' 多行注释 ''', """或者 多行注释 '"&qu ...

  4. Eclipse安装Propedit插件、SVN插件、js插件

    1.在线安装Propedit 打开Eclipse的在线安装界面,点击Add Name: propedit Location:http://propedit.sourceforge.jp/eclipse ...

  5. java 获取访问主机的ip地址

    Java的api的说法: getHeader public java.lang.String getHeader(java.lang.String name) Return the first val ...

  6. Spark- RDD持久化

    官方原文: RDD Persistence One of the most important capabilities in Spark is persisting (or caching) a d ...

  7. Oracle 11g的7个服务详解

    成功安装Oracle 11g后,共有7个服务,这七个服务的含义分别为:1. Oracle ORCL VSS Writer Service:Oracle卷映射拷贝写入服务,VSS(Volume Shad ...

  8. linux命令学习笔记(48):watch命令

    watch是一个非常实用的命令,基本所有的Linux发行版都带有这个小工具,如同名字一样,watch可以帮你监测 一个命令的运行结果,省得你一遍遍的手动运行.在Linux下,watch是周期性的执行下 ...

  9. php中五种常见的设计模式

    设计模式 一书将设计模式引入软件社区,该书的作者是 Erich Gamma.Richard Helm.Ralph Johnson 和 John Vlissides Design(俗称 “四人帮”).所 ...

  10. Gym 101142C :CodeCoder vs TopForces(强连通算法)

    题意:N个人,每个人有a属性和b属性,如果一个人的a或者b大于另外一个人,我们说这个人可以打败那个人.且这种关系可以传递.对于每个人,输出他可以打败多少人.(保证每个a不相同,保证每个b不相同. 思路 ...