转载:http://fhqdddddd.blog.163.com/blog/static/18699154201241014835362/

http://blog.sina.com.cn/s/blog_4476400f0100iq0x.html

 
EST----
对EST序列进行冗余查找,利用CD_HIT软件聚类,快速批量去除冗余序列
est-trimer(去掉帽子和尾巴,去掉太短而不可信的)
RepeatMaster(去掉转座子等重复)
seqclean(去除载体,线粒体叶绿体等序列)
CAP3(拼接)
 
est-trimmer可以从 http://pgrc.ipk-gatersleben.de/misa/do- wnload/est_trimmer.pl 下载,就是个perl脚本,不用安装。脚本运行参数:
DESCRIPTION: Tool for trimming EST (DNA) sequences
## 
## SYNTAX:   est_trimmer.pl <FASTAfile> [-amb=n,win] [-tr5=(A|C|G|T),n,win]
##                          [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]
##                          [-help]
## 
##    <FASTAfile>    Single file in FASTA format containing the sequence(s).
##    [-amb=n,win]   Removes distal stretches containing "n" ambiguous bases in
 a
##                   "win" bp sized window.
##    [-tr5=N,n,win] Removes stretches of the given type N={A,C,G,T} from the 5
'
##                   end. Value "n" defines the min. accepted repeat number of 
"N"
##                   in a 5' window of the size "win".
##    [-tr3=N,n,win] according to [-tr5] for the 3' end.
##    [-cut=min,max] Sets min. value for cutoff and max. sequence size.
##    [-id=name]     Optional. Final results are stored in "name".results, wher
eas
##                   processing steps are listed in "name".log. If not used,
##                   extensions are appended to <FASTAfile>.
##    [-help]        Further descriptions. Use "EST_trimmer.pl -help".
## 
##    Arguments can be used plurally and are processed according to their order
.
## 
## EXAMPLE:  est_trimmer.pl ESTs -amb=2,50 -tr5=T,5,50 -tr3=A,5,50 -cut=100,700
## ____________________________________________________________________________
___
## 
 
个人觉得-amb 太恐怖了,还是没有,-cut 删除了太多了 将700设定到最大,我是设定到10000。
我的命令:
perl est_trimmer.pl input  -tr5=T,5,50 -tr3=A,5,50 -cut=100,10000 -id=output
 
 

repeatmasker 下载地址:http://repeatmasker.org/RMDownload.html

repeatmasker 是个比较复杂的软件,参数比较多,此外还必须在本机装过crossmatch或者wu-blast要多看手册根据自己实际情况设定。其软件有个数据库,每年都更新,本地计算的必须要注意。
此外 repeatmasker运行真是慢,最好可以设成几个CPU一起算。
 
我的命令 repeatmasker input -e crossmatch -s
 
seqclean (下载:http://compbio.dfci.harvard.edu/tgi/software/)
我倒是没遇到参数的问题,就是得在NCBI上下载下载体序列ftp://ftp.ncbi.nih.gov/pub/UniVec/ 里面还有个core的,和全的,我的数据反正算的快,就选了比较大的那个文件,将univec用formatdb命令格式化下就可以直接用了
我的命令
 /usr/biosoft/blast-2.2.18/bin/formatdb -i UniVec -p F -o T
 /usr/biosoft/seqclean/seqclean BnE091007.fasta -v UniVec -o BnE_clean.fasta
 
当是我因为程序的权限不够,怎么都用不了。后来用chmod把seqclean程序的文件夹的东西都改了才行。还好最后终于成功了

38、EST序列拼接流程的更多相关文章

  1. 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

    EST:表达序列标签,expressed sequence tags . 顾名思义,很好理解,就是表达出来的序列,即从基因组DNA上表达出来的RNA,但是我们没法测序RNA,所以我们最终测的是表达序列 ...

  2. Bracket Sequences Concatenation Problem括号序列拼接问题(栈+map+思维)

    A bracket(括号) sequence is a string containing only characters "(" and ")".A regu ...

  3. Est数据库

    Est--编码序列,gene 片段且具有标签 其中,est数据库中是类似测序1.测序2.测序3这样的序列.实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest).如果有overlap则认 ...

  4. (六)WebGIS中地图瓦片在Canvas上的拼接显示原理

    文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言 在之前的五个章节中,我们在第一章节里介绍了WebGIS的基本 ...

  5. python学习 数据类型之序列

    一.序列(本文使用python3.5)############################################################# 列表.元组 字符窜都是序列#特点:#1 ...

  6. opencv拼接相关1

    这里面都是一些比较杂的东西,没什么实际意义.主要是为了,后面能跑一个程序: Stitcher: 抠细节: http://docs.opencv.org/2.4.2/modules/stitching/ ...

  7. bowtie:短序列比对的新工具

    bowtie:短序列比对的新工具(转) (2014-11-17 22:15:24) 转载▼ 标签: 转载   原文地址:bowtie:短序列比对的新工具(转)作者:玉琪星兆 Bowtie是一个超级快速 ...

  8. 从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理

    从底层谈WebGIS 原理设计与实现(六):WebGIS中地图瓦片在Canvas上的拼接显示原理 作者:naaoveGI…    文章来源:naaoveGIS    点击数:1145    更新时间: ...

  9. [golang note] 流程控制

    流程控制 • 流程控制语句作用 ▪ 选择:根据条件跳转到不同的执行序列. ▪ 循环:根据条件反复执行某个序列. ▪ 跳转:据条件返回到某执行序列. • 流程控制语句类型 ▪ 条件语句:关键字为if.e ...

随机推荐

  1. js 实现滑块效果

    var dd = $(".drag_bott").removeAttr('id').last().attr('id','drag_bott'); var drag = docume ...

  2. Python 3 面向对象 一

    Python 3 面向对象 一.面向过程-->面向对象 面向过程:根据业务逻辑从上到下堆叠代码,即先干什么再干什么,基于面向过程去设计程序就好比在设计一条流水线,是一种机械式的思维方式 函数式: ...

  3. phpmyadmin mysqlnd cannot connect to

    mysqlnd cannot connect to MySQL 4.1+ using the old insecure authentication. Please use an administra ...

  4. 最常用的Eclipse快捷键

    最常用的Eclipse快捷键 2015/03/27 | 分类: 基础技术 | 0 条评论 | 标签: ECLIPSE 分享到:0 原文出处: IT江湖 本文是一些最实用.最齐全.最省时间的 Eclip ...

  5. 激活idea2018

    首先下载安装完成后,打开hosts文件,新增一条路由: 0.0.0.0 account.jetbrains.com 打开软件输入序列码: EB101IWSWD-eyJsaWNlbnNlSWQiOiJF ...

  6. 英语发音规则---L字母

    英语发音规则---L字母 一.总结 一句话总结:[l]音在词首和词尾的发音不同,/l/+其它音节./l/+元音./l/+/j/称它为清晰/l/,发清晰/l/音时,在下一个音即将出出时舌头离开上齿龈,迅 ...

  7. javascript时间戳转换成指定格式的日期

    //时间戳转换成指定格式的日期DateTool.IntDatetimeTo = function(time, format){    var testDate = new Date(time);    ...

  8. Web中常用字体介绍

    1.在Web编码中,CSS默认应用的Web字体是有限的,虽然在新版本的CSS3,我们可以通过新增的@font-face属性来引入特殊的浏览器加载字体. 浏览器中展示网页文字内容时,文字字体都会按照设计 ...

  9. http接口测试框架-python

    简单分解一下 接口测试框架设计: 主入口 -> 遍历接口/用例 -> 发送请求+接收响应 ->结果的对比 -> 生成报告 ->发送email 分成几大类:主入口的py文件 ...

  10. Python基础-多线程与多进程

    一,线程与进程之间的关系:(从知乎上看到的) 一个必须知道的事实:执行一段程序代码,实现一个功能的过程介绍 ,当得到CPU的时候,相关的资源必须也已经就位,就是显卡啊,GPS啊什么的必须就位,然后CP ...