SRA数据的的处理流程大概如下

一、SRA数据下载、

NCBI 上存储的数据现在大都存储为SRA格式。

下载以后就是以SRA为后缀名。

这里可以通过三种方式下载SRA格式的数据。

1.通过http方式,2.通过ftp方式,3.通过Aspera

Aspera可以在NCBI网站上下载。

参阅:http://www.ncbi.nlm.nih.gov/books/NBK47540/

二、SRA格式转换成FASTQ格式

./fastq-dump -A SRR058977 ~/project/yanzi/data/GEO/SRA/SRR058977.sra

fastq-dump可以在ncbi官方网站下载,这里面包含一系列的转换工具;

参阅:http://www.ncbi.nlm.nih.gov/books/NBK56560/

http://eutils.ncbi.nih.gov/Traces/sra/?view=software

转换成FASTQ,SFF,lllumina native,AB SOLiD native等格式;

另,转换FASTQ以后要转换成FASTA 命令如下:

awk '{if(FNR%4==1) print ">",$0; else if(FNR%4==2) print $0;}' a.fastq >a.fasta

————————----------------------------------------------------------------

以上部分为预处理部分:

当然我做的方向是比对方向,就可以用fasta做比对工作了。

………………………………………………………………………………………………………………………………………………………………………………………………

后面还可以做其他反面的研究:

3.去接头(此步要注意是否有接头,一般RNA-SEQ数据应该是没有接头的)

4.用tophat寻找可变剪切

tophat -r 42 -G genome.fa -o PF genomeIndex SRR058977.fastq

5.用cufflinks找不同组织中的差异

cuffdiff genomeAnnotation.gff   ../BF/accept.bam ./accept.bam

来源:http://blog.sciencenet.cn/blog-565558-626137.html

…………………………………………………………………………………………………………………………………………………………

可能会用到的修改目录权限的linux命令

Linux改变分区权限(简单好用版)

原理:

1.在Linux和Unix世界里,一切都是以文件的形式存在的。文件夹是文件,文件是文件,设备也是文件。
2.分区在挂载后,会在 /media/ 下以文件夹的形式显现
3.chmod用于修改权限 而chmod ugo+rwx 用于给所有的用户和用户组添加所有的权限

步骤:
1.假设需要修改权限的分区名为x
2.挂载x
3.赋权

代码:
sudo chmod ugo+rwx /media/x

NCBI SRA数据预处理的更多相关文章

  1. NCBI SRA数据如何进行md5校验?

    下了一些sra数据库中的公共数据,因为pretech和aspera不稳定,稍微大点的文件经常传断,部分文件我只能通过本地下载再上传. 那么问题来了,sra没有md5校验,我怎么知道我数据的完整性,尤其 ...

  2. NCBI下载sra数据(新)

      今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Tool ...

  3. NCBI下载SRA数据

    从NCBI下载数据本来是一件很简单的事情,但是今天碰到几个坑: 1.paper里没有提供SRA数据号.也没有提供路径: 2.不知道文件在ftp的地址,不能直接用wget下载 所以通过在NCBI官网,直 ...

  4. 用R包来下载sra数据

    1)介绍 我们用SRAdb library来对SRA数据进行处理. SRAdb 可以更方便更快的接入  metadata associated with submission, 包括study, sa ...

  5. NCBI SRA数据库使用详解

    转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html 批量下载SRA http://ww ...

  6. <二代測序> 下载 NCBI sra 文件

    本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了S ...

  7. NCBI SRA数据库

    简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...

  8. 借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率

    原文链接 简介 为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...

  9. R语言进行数据预处理wranging

    R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...

随机推荐

  1. [BZOJ5427]最长上升子序列

    考虑O(n log n)的LIS求法,dp[i]表示到目前为止,长度为i的LIS的末尾最小是多少. 当当前数确定时直接用LIS的求法更新dp数组,当不确定时,由于这个数可以是任意数,所以可以接在任意上 ...

  2. [BZOJ3143][HNOI2013]游走(期望+高斯消元)

    3143: [Hnoi2013]游走 Time Limit: 10 Sec  Memory Limit: 128 MBSubmit: 3576  Solved: 1608[Submit][Status ...

  3. 【9.15校内测试】【寻找扩展可行域+特判】【Trie树 异或最小生成树】【模拟:)】

    之前都没做出来的同名题简直留下心理阴影啊...其实这道题还是挺好想的QAQ 可以发现,鸟可以走到的点是如下图这样扩展的: 由$(0,0)$向两边扩展,黑色是可以扩展到的点,红色是不能扩展的点,可以推出 ...

  4. 2015 UESTC 搜索专题F题 Eight Puzzle 爆搜

    Eight Puzzle Time Limit: 20 Sec  Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/61 ...

  5. kali下更新软件时,总是报错,说下列签名无效 解决办法

    解决办法就是重新获取下签名key wget -q -O - https://archive.kali.org/archive-key.asc | apt-key add

  6. CentOS 6.9/7通过yum安装指定版本的JDK/Maven

    说明:通过yum好处其实很多,环境变量不用配置,配置文件放在大家都熟悉的地方,通过rpm -ql xxx可以知道全部文件的地方等等. 一.安装JDK(Oracle JDK 1.8) # wget -- ...

  7. SQL Server的thread scheduling(线程调度)

      https://www.zhihu.com/question/53125711/answer/134461670 https://www.zhihu.com/question/53125711   ...

  8. 软件版本GA,RC,alpha,beta,Build 含义

    (1)RC:(Release Candidate) Candidate是候选人的意思,用在软件上就是候选版本.Release.Candidate.就是发行候选版本.和Beta版最大的差别在于Beta阶 ...

  9. Linux/UNIX线程(2)

    线程(2) 线程同步 当多个控制线程共享同样内存时,须要确保每一个线程看到一致的数据视图.假设每一个线程使用的变量都是其它线程不会读取或改动的,那么就不在一致性问题. 当两个或多个线程试图在同一时间改 ...

  10. appium+python自动化26-模拟手势点击坐标(tap)

    ​# 前言: 有时候定位元素的时候,你使出了十八班武艺还是定位不到,怎么办呢?(面试经常会问) 那就拿出绝招:点元素所在位置的坐标 tap用法 1.tap是模拟手指点击,一般页面上元素 的语法有两个参 ...