转自:

https://blog.csdn.net/herokoking/article/details/79276939

Pileup 格式最初是由Sanger Institute的Tony Cox 和 Zemin Ning 使用的,描述了染色体上每个位置的碱基信息。 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。

Pileup 文件一般是由SAMtools从sorted bam 文件生成。

samtools mpileup -f ../crrbwaidx/crr5ref.fa  -Q 15 -q 20 4_S4_L001.sorted.bam -o 4_S4_L001.pileup

mpileup 就是SAMtools生成pileup文件的命令(SAMtools 文档):
-f 后面是参考序列或者基因组
-q 是mapping quality的最小值, 默认值是0
-Q 是base quality的最小值,默认值是13
然后是输入文件*.sorted.bam, -o 后面是输出文件*.pileup

pileup 格式有几个变体,下面的是由SAMtools输出的默认格式:

seq1 272 T 24  ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 T 23  ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 T 23  ,.$....,,.,.,...,,,.,...    7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 A 23  ,$....,,.,.,...,,,.,...^l.  <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 G 22  ...T,,.,.,...,,,.,....  33;+<<7=7<<7<&<<1;<<6<
seq1 277 T 22  ....,,.,.,.C.,,,.,..G.  +7<;<<<<<<<&<=<<:;<<&<
seq1 278 G 23  ....,,.,.,...,,,.,....^k.   %38*<<;<7<<7<=<<<;<<<<<
seq1 279 C 23  A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<

每一行由染色体,参考碱基在染色体中的位置(reference position),参考碱基(reference base),覆盖该位点的reads的个数,覆盖该位点的碱基(read bases) 和碱基质量(base qualities),之间由tab分开。

在read base那一列,每个点(dot)代表这个碱基正向匹配到reference base, 每个逗号代表该碱基反向匹配到reference base. 如果是‘ACGTN’,说明这个碱基是个正向的mismatch,如果是‘actgn', 说明这个碱基是个反向的mismatch。这个样式 '\+ or - [0-9]+[ACGTNacgtn]+'是在这个reference position和下一个reference position之间的插入(insertion)或缺失(deletion)突变。加号代表插入,减号代表缺失,数字是插入或缺失的长度,数字后面的’ACGTN or acgtn'就是插入或缺失的碱基。下面第一行是一个插入的例子,第二行是两个缺失的例子(有五个reads都出现了两个的缺失):

chr1    12994   G       20      ......,,,+1c,,,,,,,,,,, KK<KFKFAKKKFKKKKK7KK
chr1    13656   C       18      .-2AG....,-2ag,,-2ag.,.,-2ag....,-2ag,  FKKKKKKKKF7KKKKKK<

在read base那一列,‘^'是每条reads的开始,’^'后面跟的符号" ' "的ASCII十进制值减去33就是这条reads的mapping quality. '$'是每条reads的结束。如下:

chr1    13005   A       21      .....,,,,,,,,,,,,,^',^',^',     7KFFKFF<KKKKKK7K<KEEE
chr1    13006   G       24      .$.....,,,,,,,,,,,,,,,,,^'.     >KKFAKK7FKKKKKKKKFKKKFKB

reads开始和结束的标志是受到了Phil Green's CALF format 的启发。通过开始和结束的标志可以从pileup文件重建reads.
SAMtools 可以选择性的把mapping quality加到输出结果的每一行,这样会使输出的文件更大,但当只有一部分位点被提取出来时,这样做就有必要了(因为只提取一部分位点,开始的标志'^'就可能不会被包含着提取的位点,就没法知道每个reads base的mapping quality了.)。

以下来自:http://www.chenlianfu.com/?p=1399

Pileup 格式详细说明的更多相关文章

  1. 每天进步一点点------YUV格式详细解释

    YUV格式详细解释 YUV开放分类: 网络.计算机.手机.色彩学.影像学  概述  YUV(亦称YCrCb)是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式 ...

  2. RTP 包格式 详细解析

    H.264 视频 RTP 负载格式 1. 网络抽象层单元类型 (NALU) NALU 头由一个字节组成, 它的语法如下: +---------------+      |0|1|2|3|4|5|6|7 ...

  3. avi格式详细介绍

    百度:http://wenku.baidu.com/link?url=KB7qKc6UG4aeU-i9FtXeV8Uou4JHPceiyz3HNbzCrQw4phY-qRlcp3tTSwYPeIgdx ...

  4. Mysql Binlog三种格式详细介绍

    一.MySQL Binlog格式介绍 mysql binlog日志有三种格式,分别为Statement,MiXED,以及ROW! 查看binlog的格式的脚本: 二.binlog 的不同模式有什么区别 ...

  5. (转) s-video vs. composite video vs. component video 几种视频格式详细说明和比较

    之前对着几种视频格式认识不是很清晰,所以看数据手册的时候,看的也是稀里糊涂的. 因为项目中需要用到cvbs做视频输入,在元器件选型上,看到tw2867的数据手册上,有这么一句话: The TW2867 ...

  6. sam格式详细说明

    原文链接 https://www.jianshu.com/p/386f520e5de1 The SAM Format Specification(sam格式说明) 1 The SAM Format S ...

  7. YUV格式详细解释与FFMPEG的关系

    YUV主要的采样格式 主要的采样格式有YCbCr 4:2:0.YCbCr 4:2:2.YCbCr 4:1:1和 YCbCr 4:4:4.其中YCbCr 4:1:1 比较常用,其含义为:每个点保存一个 ...

  8. NSDateFormatter格式详细列表一览

    转自:http://www.cnblogs.com/xinus/archive/2012/10/29/NSDateFormatter_samples.html 前言:iOS开发中NSDateForma ...

  9. C# 日期格式转【转】

    使用:DateTime.ToString的方法(String, IFormatProvider)转换格式 using System; using System.Globalization; Strin ...

随机推荐

  1. 通过公网连接阿里云redis,rinetd

    目前云数据库 Redis 需要通过 ECS 的内网进行连接访问.如果您本地需要通过公网访问云数据库 Redis,可以在 ECS Linux 云服务器中安装 rinetd 进行转发实现. 1.在云服务器 ...

  2. 跟我一起学QT_QT标准对话框_文件对话框

    标准对话框 QT的标准对话框分为以下几种 颜色对话框 文件对话框 字体对话框 输入对话框 消息对话框 进度对话框 错误信息对话框 向导对话框 文件对话框 QT中的文件对话框QFileDialog类提供 ...

  3. 洛谷$P$4301 $[CQOI2013]$新$Nim$游戏 线性基+博弈论

    正解:线性基 解题报告: 传送门! 这题其实就是个博弈论+线性基,,,而且博弈论还是最最基础的那个结论,然后线性基也是最最基础的那个板子$QwQ$ 首先做这题的话需要一点点儿博弈论的小技能,,,这题的 ...

  4. 「UVA1328」Period 解题报告

    English题面 题意: 给你一个长度为n的字符串,依次取字符串前i个(前缀),如果前缀由k(k>0)个相同真子串构成,那么输出i和k 直到n为0结束,每组数据后要有一行空白 思路: KMP+ ...

  5. 在Mac/linux上查找(并终止)进程锁定特定端口的几种方法

    前言  无论是做网站还是做产品,经常使用到杀死某个进程的方法.制作脚本并熟悉运用是一个非常节省时间的方法. 基本命令  查找: [sudo] lsof -i :3000  杀戮 kill -9 方法一 ...

  6. 05_jquery 操作table使tr(数据)整行上移下移

    1:ajax请求数据到页面 function GetWorkSpaceList() { GetServerData("get", GetEnterpriseUrl() + &quo ...

  7. Win10系统下应用窗口任务栏居中效果

    实现步骤: 在资源管理器中新建文件夹,一定要保证文件夹内无任何文件 任务栏上鼠标右键,移动到工具栏上,选择新建工具栏 选择新建的空文件夹 空文件夹出现在任务栏后,鼠标可以拖动工具栏前的两条竖线(图片上 ...

  8. Kubernetes 会不会“杀死” DevOps?

    作者丨孙健波(天元)  阿里巴巴技术专家 导读:DevOps 这个概念最早是在 2007 年提出的,那时云计算基础设施的概念也才刚刚提出没多久,而随着互联网的逐渐普及,应用软件的需求爆发式增长,软件开 ...

  9. WIN10高清壁纸

    下面给大家分享我自己收集的WIN10的壁纸(大家可以存在在自己网盘里) 百度网盘下载 提取码:dsf5

  10. Redis内存碎片清理

    当Redis中清理了大量的Key之后原先Redis申请的内存(used_memory_rss)将继续持有而不会释放,此时查看内存信息将会看到存在大量的内存碎片.那么,Redis的内存碎片可以清理么,该 ...