SMRT portal安装教程:

http://www.pacb.com/wp-content/uploads/2015/09/SMRT-Analysis-Software-Installation-v2.3.0.pdf

ISO-seq数据地址:

/share/backups/pacbio/20160222_68 的 A01 和 B01。

<1kb的得到1.28G数据,>1kb的得到了2.8G的数据。

SMRT portal 地址:

http://59.79.232.10:8080/smrtportal/#/Design-Job/
软件安装主目录:
/share/workplace/software/PACBIO

reference_droplist: :

/share/workplace/software/PACBIO/userdata/references_dropbox

username: pbuser
password: pacbio-one2three

学习目的:对这两个cell收集一下结果(多少reads,多少全长reads,多少isoform,SMRT-portal的报告都有。

ISOseq数据比对到参考基因组

文本教程参见:
 
 
视频教程:
 

THE CHALLENGE OF ISOFORM RECONSTRUCTION

简单的说就是二代测序无法有效区分同一个transcript的单倍型!

In eukaryotic organisms, the majority of genes are alternatively spliced to produce multiple transcript isoforms, dramatically increasing the protein-coding potential of a genome.

Alternatively spliced isoforms from the same gene can have significantly different, even antagonistic, effects. To study gene expression, researchers have looked at fragments of an organism’s genes utilizing next-generation sequencing methods, commonly referred to as RNA sequencing (RNA-seq). However, short-read RNA-seq cannot span full-length transcripts, making it difficult to accurately characterize the diverse landscape of isoforms.

Produce full-length transcripts without assembly

简单的说就是三代测序能直接把一个单倍型测穿。这就是ISOseq

The isoform sequencing (Iso-Seq) application generates full-length cDNA sequences — from the 5’ end of transcripts to the poly-A tail — eliminating the need for transcriptome reconstruction using isoform-inference algorithms. The Iso-Seq method generates accurate information about alternatively spliced exons and transcriptional start sites. It also delivers information about poly-adenylation sites for transcripts up to 10 kb in length across the full complement of isoforms within targeted genes or the entire transcriptome.

Iso-Seq的目的就是: understand transcriptome complexity using accurate, unassembled, full-length long reads.

实验室测序出来的数据目录结构:

Analysis_Results下的文件:

正确的数据结构如下:

注意metadata.xml文件和子目录下的bax.h5文件。

对于数据的处理有三种方式,一种是通过RS_isoseq SMRT portal, 一种是github code,一种是RS_isoseq 明令行。三者的主要区别如下:

The differences between the GitHub code and the RS_IsoSeq code are:

  • GitHub code requires you to set up a virtual environment and install all libraries on your own
  • GitHub code is more step-by-step and allows more flexibility
  • GitHub code is updated faster
  • GitHub code is all source code - you can modify the code as needed

The difference between the SMRT Portal version and the command-line version (pbtranscript.py) is that the command-line version additionally allows you to:

  • Use more CPUs than default
  • Directly start from the isoform-level clustering (ICE) part of RS_IsoSeq. Since v2.3.0, we have added additional entry points to the ICE/Quiver pipeline.

如果用SMRT portal 来分析数据,步骤如下:

1, getting FL reads

首先导入你的raw data,然后选择RS_IsoSeq protocol(SMRT PORTAL的版本要v2.3.0以上)

具体操作参见以前写的博客。(http://www.cnblogs.com/freemao/p/3783475.html)

Iso-seq 建库流程:

扫盲几个概念:

reads of insert 和 FL reads:

建库的时候可能会产生artificial chimeras,分两种:

第一种是接头浓度低导致的:

第二种是PCR扩增时导致的:

所以最终的数据:

下一步:

为何要进行上面的步骤:

Iso-seq的整个生物信息学分析流程大概就是这样的:

主要是两部分:1是classify, 2是cluster

classify 识别FL reads

cluster 主要是performs isoform-level clustering and outputs Quiver-polished high-quality consensus full-length transcript sequences.

整个过程是不需要参考基因组的,如果有参考基因组,可以被用来做比对,把polished transcipts map上去。从而可以

①,去除redundancy(Iso-Seq cluster output can be redundant).如下图:

去除冗余应用实例:

②,可以发现新的基因或者isoforms.

classify 和 cluster的比较如下:

运行classify 和 cluster既可以在SMRT Portal,也可完全用命令行(pbtranscript.py),TOFU. 使用帮助在(https://github.com/PacificBiosciences/cDNA_primer/wiki)

关于最后的isoform结果 可以通过UCSC browser看一下,肯定是要比二代的效果好很多。

Iso seq的应用:

1, Transcript indentification and annotation

2,  Identification of Alternatively spliced isoforms

3,  Targeted sequencing

4, normalization reduces the representation of highly expressed genes.

后续可以做的分析有(根据你自己的项目而定):

详情见2015 webinar 文档。

学习网站:

•Iso-Seq Website (general information):
•Iso-Seq Analysis Information:
•Protocols:
 
•Available Datasets:
–MCF-7 Cancer Cell Line
–Human Normal Tissues (Brain, Heart, Liver)
 
 
 
 
Library and Sequencing Evaluation 步骤:
 
结果表格如下:
 
 任务过程:
http://59.79.232.10:8080/smrtportal/#/Design-Job/
import and manage
import SMRT cells
add...
/share/backups/pacbio/20160222_68/A01_1
scan...OK
/share/backups/pacbio/20160222_68/B01_1
scan...OK
Design Job
Creat new
Analysis 对话框全部打钩
Next
填写Job Name
Protocals 选择 RS_IsoSeq.1
将YM1-30pM和YM2-30pM 这两个样导入,如果不知道哪个是你的数据,就看Uri那一列,有数据的位置。
save
start
任务就开始跑了 
可以到melon上 执行 qstat -a查看任务状态 也可以直接在网页上monitor查看
 
 
freemao
FAFU
miaochenyong@163.com
 
 
 
 
 
 
 
 

Iso-Seq学习的更多相关文章

  1. iso 开发学习--简易音乐播放器(基于iPhone4s屏幕尺寸)

    三个按钮  一个进度条 贴图(软件中部分图片,来自网络,如果侵犯了您的权益,请联系我,会立刻撤下) 核心代码 // // ViewController.m // 08-10-MusicPlayer / ...

  2. ISO模型学习

    PDU:协议数据单元是指层次之间传递的数据单位 物理层PDU :PDU是数据位 bit数据链路层的PDU是数据帧frame网络层的PUD是数据包 packet传输层的PDU是数据段 segment其他 ...

  3. VMware 安装 centos6.8

    参考文档:https://jingyan.baidu.com/article/49711c61964328fa441b7c93.html 准备工作 VMware Workstation Pro 下载地 ...

  4. Linux下安装python,ftp,Ubuntu和centos配置静态ip以及下载地址

    一个服务器最多创建65535个端口Ubuntu apt-get aliyun转换https://www.cnblogs.com/hcl1991/p/7894958.htmlOpenSSLhttps:/ ...

  5. redhat更改yum源及安装PHP环境

    redhat更新yum源 删除同RHEL一同安装的yum源 rpm -qa|grep yum #查看本地yum yum list | wc -l #看个数 yum install pip #看现象 r ...

  6. 网络知识学习1---(基础知识:ISO/OSI七层模型和TCP/IP四层模型)

    以下的内容和之后的几篇博客只是比较初级的介绍,想要深入学习的话建议自己钻研<TCP/IP详解 卷1:协议> 1.ISO/OSI七层模型    下四层是为数据传输服务的,物理层是真正的传输数 ...

  7. Linux学习之CentOS(六)---mount挂载设备(u盘,光盘,iso等 )

    对于新手学习,mount 命令,一定会有很多疑问.其实我想疑问来源更多的是对linux系统本身特殊性了解问题. linux是基于文件系统,所有的设备都会对应于:/dev/下面的设备.如: [cheng ...

  8. Ubuntu ROS Arduino Gazebo学习镜像iso说明(indigo版)

    ROS机器人程序设计(原书第2版)学习镜像分享及使用说明 新版已经发布,请参考: http://blog.csdn.net/zhangrelay/article/details/53324759 Ub ...

  9. 用ISO C++实现自己的信号槽(Qt另类学习)

    qtc++objectsignalclassstring   目录(?)[-] Qt信号与槽 引入元对象系统 建立信号槽链接 信号的激活 槽的调用 全家福 零零散散写在后面 Q_OBJECT Conn ...

随机推荐

  1. 高手总结的“恋爱法”学习Linux系统,效果更好。

    如果你恋爱了,那你一定非常喜欢她.了解她,知道她喜欢吃什么玩什么,知道她需要什么,在她生气的时候可以哄她开心,一切尽在你的手指中.那你想学好Linux吗?喜欢Linux吗?你懂她吗?你有喜欢Linux ...

  2. Android之NDK开发(转)

    Android之NDK开发 一.NDK产生的背景 Android平台从诞生起,就已经支持C.C++开发.众所周知,Android的SDK基于Java实现,这意味着基于Android SDK进行开发的第 ...

  3. Beginning.......

    第一次写博客,希望能坚持下去.................

  4. 翻转和翻页效果TextFile的几种自定义例子

    前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某个环节 ...

  5. OpenLDAP安装

    参考: http://54im.com/openldap/centos-6-yum-install-openldap-phpldapadmin-tls-%E5%8F%8C%E4%B8%BB%E9%85 ...

  6. [转]as3 算法实例【输出1 到最大的N 位数 题目:输入数字n,按顺序输出从1 最大的n 位10 进制数。比如输入3,则输出1、2、3 一直到最大的3 位数即999。】

    思路:如果我们在数字前面补0的话,就会发现n位所有10进制数其实就是n个从0到9的全排列.也就是说,我们把数字的每一位都从0到9排列一遍,就得到了所有的10进制数. /** *ch 存放数字 *n n ...

  7. 同上! 下拉复选框 点击当前的checkbox 选中后面li 添加到指定区域

    (function() { $(".cxbtntj").click(function(){ console.log($("#jsLi1").attr(" ...

  8. MySQL,排序,统计行转列

    表 -- ------------------------------ Table structure for a-- ---------------------------- DROP TABLE ...

  9. 学习Find函数和select

    Find函数其实就类似于在excel按下Ctrl+F出现的查找功能:在某个区域中查找你要找的字符,一旦找到就定位到第一个对应的单元格.所以Find函数的返回值是个单元格,也就是个range值.举例,s ...

  10. 《java异常的一些总结》

    关于Java中异常的一些总结: 3 有些时候,程序在try块里打开了一些物理资源(例如数据库连接,网络连接. 4 和磁盘文件等),这些物理资源都必须显示回收. 5 6 注意:Java的垃圾回收机制不会 ...