Pileup 格式详细说明
转自:
https://blog.csdn.net/herokoking/article/details/79276939
Pileup 格式最初是由Sanger Institute的Tony Cox 和 Zemin Ning 使用的,描述了染色体上每个位置的碱基信息。 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。
Pileup 文件一般是由SAMtools从sorted bam 文件生成。
samtools mpileup -f ../crrbwaidx/crr5ref.fa -Q 15 -q 20 4_S4_L001.sorted.bam -o 4_S4_L001.pileup
mpileup 就是SAMtools生成pileup文件的命令(SAMtools 文档):
-f 后面是参考序列或者基因组
-q 是mapping quality的最小值, 默认值是0
-Q 是base quality的最小值,默认值是13
然后是输入文件*.sorted.bam, -o 后面是输出文件*.pileup
pileup 格式有几个变体,下面的是由SAMtools输出的默认格式:
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<seq1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<seq1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&<seq1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<<seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<每一行由染色体,参考碱基在染色体中的位置(reference position),参考碱基(reference base),覆盖该位点的reads的个数,覆盖该位点的碱基(read bases) 和碱基质量(base qualities),之间由tab分开。
在read base那一列,每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。下面第一行是一个插入的例子,第二行是两个缺失的例子(有五个reads都出现了两个的缺失):
chr1 12994 G 20 ......,,,+1c,,,,,,,,,,, KK<KFKFAKKKFKKKKK7KKchr1 13656 C 18 .-2AG....,-2ag,,-2ag.,.,-2ag....,-2ag, FKKKKKKKKF7KKKKKK<在read base那一列,‘^'是每条reads的开始,’^'后面跟的符号" ' "的ASCII十进制值减去33就是这条reads的mapping quality. '$'是每条reads的结束。如下:
chr1 13005 A 21 .....,,,,,,,,,,,,,^',^',^', 7KFFKFF<KKKKKK7K<KEEEchr1 13006 G 24 .$.....,,,,,,,,,,,,,,,,,^'. >KKFAKK7FKKKKKKKKFKKKFKBreads开始和结束的标志是受到了Phil Green's CALF format 的启发。通过开始和结束的标志可以从pileup文件重建reads.
SAMtools 可以选择性的把mapping quality加到输出结果的每一行,这样会使输出的文件更大,但当只有一部分位点被提取出来时,这样做就有必要了(因为只提取一部分位点,开始的标志'^'就可能不会被包含着提取的位点,就没法知道每个reads base的mapping quality了.)。
以下来自:http://www.chenlianfu.com/?p=1399

Pileup 格式详细说明的更多相关文章
- 每天进步一点点------YUV格式详细解释
YUV格式详细解释 YUV开放分类: 网络.计算机.手机.色彩学.影像学 概述 YUV(亦称YCrCb)是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式 ...
- RTP 包格式 详细解析
H.264 视频 RTP 负载格式 1. 网络抽象层单元类型 (NALU) NALU 头由一个字节组成, 它的语法如下: +---------------+ |0|1|2|3|4|5|6|7 ...
- avi格式详细介绍
百度:http://wenku.baidu.com/link?url=KB7qKc6UG4aeU-i9FtXeV8Uou4JHPceiyz3HNbzCrQw4phY-qRlcp3tTSwYPeIgdx ...
- Mysql Binlog三种格式详细介绍
一.MySQL Binlog格式介绍 mysql binlog日志有三种格式,分别为Statement,MiXED,以及ROW! 查看binlog的格式的脚本: 二.binlog 的不同模式有什么区别 ...
- (转) s-video vs. composite video vs. component video 几种视频格式详细说明和比较
之前对着几种视频格式认识不是很清晰,所以看数据手册的时候,看的也是稀里糊涂的. 因为项目中需要用到cvbs做视频输入,在元器件选型上,看到tw2867的数据手册上,有这么一句话: The TW2867 ...
- sam格式详细说明
原文链接 https://www.jianshu.com/p/386f520e5de1 The SAM Format Specification(sam格式说明) 1 The SAM Format S ...
- YUV格式详细解释与FFMPEG的关系
YUV主要的采样格式 主要的采样格式有YCbCr 4:2:0.YCbCr 4:2:2.YCbCr 4:1:1和 YCbCr 4:4:4.其中YCbCr 4:1:1 比较常用,其含义为:每个点保存一个 ...
- NSDateFormatter格式详细列表一览
转自:http://www.cnblogs.com/xinus/archive/2012/10/29/NSDateFormatter_samples.html 前言:iOS开发中NSDateForma ...
- C# 日期格式转【转】
使用:DateTime.ToString的方法(String, IFormatProvider)转换格式 using System; using System.Globalization; Strin ...
随机推荐
- Android Drawable - Shape Drawable使用详解(附图)
TIPS shape图形 –简单介绍 shape图形 –如何画? shape图形 –参数详细解析 shape图形 –如何用? shape图形 –实际开发应用场景 shape图形简单介绍 用xml实现一 ...
- 高校表白app用后感
此款app前提是我们自行设计研发的app,其次满足了在校大学生对谈恋爱的需求,可以说是一款简单实用,好操作的软件.下面我根据自己的使用体验简单的介绍一下此软件: (1)首先对于未使用过的用户,你需要在 ...
- HDU3555 Bomb 题解 数位DP
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3555 题目大意:求 \([1,n]\) 范围内有多少数包含"49". 解题思路: ...
- 数据库中间件分片算法之enum
前言 最近挺焦虑的,不知道未来该做什么,方向又是什么.只能用别慌,月亮也正在大海的某处迷茫.来安慰下自己.不过学习的初心咱们还是不要忘记.今天我们学习的是enum分片算法. 1.hash分区算法 2. ...
- Web开发学习目录
1.MyBaits 1.1mybatis学习入门 1.2mybatis学习之CURD 1.3mybatis学习之连接池 1.4mybatis学习之动态SQL 1.5mybatis学习之多表操作 1.6 ...
- oracle-按年、月、周、日、时、分 分组查询统计数据,无数据补零(connect by)
目的:统计一段时间内每年.每月.每周.每日.每时.每分数据,无数据时自动补零 思路:1. 生成给定时间段对应日期 2. 将原表中该时间段内的不为0的数据量统计出来 3. 用left join连接起来, ...
- iOS滤镜系列-滤镜开发概览
概述 滤镜最早的出现应该是应用在相机镜头前实现自然光过滤和调色的镜片,然而在软件开发中更多的指的是软件滤镜,是对镜头滤镜的模拟实现.当然这种方式更加方便快捷,缺点自然就是无法还原拍摄时的真实场景,例如 ...
- 【转】7本免费的Java电子书和教程
本文由 ImportNew - 唐小娟 翻译自 Javapapers.如需转载本文,请先参见文章末尾处的转载要求. 1. Thinking in Java (Third Edition) 本书的作者是 ...
- Spring Boot2 系列教程(十九) | @Value 和 @ConfigurationProperties 的区别
微信公众号:一个优秀的废人.如有问题,请后台留言,反正我也不会听. 前言 最近有跳槽的想法,所以故意复习了下 SpringBoot 的相关知识,复习得比较细.其中有些,我感觉是以前忽略掉的东西,比如 ...
- P1828 香甜的黄油 Sweet Butter 最短路 寻找一个点使得所有点到它的距离之和最小
P1828 香甜的黄油 Sweet Butter 闲来无事 写了三种最短路(那个Floyed是不过的) 题目描述 农夫John发现做出全威斯康辛州最甜的黄油的方法:糖.把糖放在一片牧场上,他知道N(1 ...