在合并数据过程当中,经常会发现不同来源的数据正负链不是统一的,这是一件很头疼的事。

正负链没有统一的情况下直接合并在一起会产生什么后果呢。

举个最简单的例子,假如我们从小明和小红分别拿到了一批基因型数据。那么存在以下几种可能:1)小明的基因型数据统一好正链或者负链;2)小红的基因型数据统一好正链或者负链;3)小明和小红都不知道他们的数据有没有统一好,反正数据拿给你了,你自己解决。

在我们不知道这两人的基因型数据正负链是否统一的情况下,如果直接合并这两个不同来源的数据,会产生什么情况呢?

对于大多数突变位点,通过数据处理,再合并是没有问题的。比如A/G,A/C,T/G,T/C。

如果好巧不巧,存在A/T,C/G这种突变,那么结果会是什么样呢。

结果就是对于同一个个体,他在小明的数据库显示的碱基是A,在小红的数据库显示的是T。这就是正负链惹的祸。

正链的小明:A

负链的小红:T

如果从个体角度还不能理解,我再从群体的角度去说明这个问题。

假定小明和小红的数据都是东亚人,那么理论上同一个突变位点的频率是接近的。存在正负链混淆的情况下,可能的结果就是小明数据的A频率是0.4,小红的A频率是0.6,问题是,小明的A是小红的T,非A,把他们直接合并的话,A和T就混在一起了

所以不同来源的基因型数据直接合并数据,是不对的。

那么,我们有什么方法解决这个问题呢?

下面我来推一个工具snpflip

这个工具很简单,算起来非常快。分析完成后,会生成三个文件:annotated_bim、ambiguous、reverse

第一个文件是annotated_bim,这个文件是总体评估你丢进去的SNP位点是正链、负链、还是无法区分正负链(最后一列)。

chromosome 0_idx_position snp_name genetic_distance allele_1 allele_2 reference reference_re strand

1 0 snp1 0 A C A T forward

1 1 snp2 0 A T C G ambiguous

1 2 snp3 0 A G T A reverse

2 0 snp4 0 A G C G reverse

2 1 esv5 0 AA G C G reverse

25 1 snp7 0 A G ambiguous

X 1 inv1 0 A G N N ambiguous

Y 0 snp6 0 A G A T forward

第二个文件是ambiguous,这个文件是汇总所有无法分清正负链的位点;

snp2

snp7

inv1

最后一个文件是reverse,这个文件是汇总所有负链的位点;

snp3

snp4

esv5

基因型数据正负链怎么翻转(snp flip)的更多相关文章

  1. plink修改正负链(--flip, change the positive and negative stand)

    修改正负链用到的参数为--flip 假定trial.bim的内容如下: trial.bim 1 rs142578063 0 732746 G A 1 rs144022023 0 732801 G A ...

  2. [Swift]LeetCode293. 翻转游戏 $ Flip Game

    You are playing the following Flip Game with your friend: Given a string that contains only these tw ...

  3. 【opencv基础】图像翻转cv::flip详解

    前言 在opencv中cv::flip函数用于图像翻转和镜像变换. 具体调用形式 void cv::flip( cv::InputArray src, // 输入图像 cv::OutputArray ...

  4. R语言实现两文件对应行列字符替换(解决正负链统一的问题)

    假设存在文件file1.xlsx,其内容如下: 存在文件file2.xlsx,其内容如下: 现在我想从第七列开始,将file2所有的字符替换成file1一样的,即第七.八.九.十列不需要改变,因为fi ...

  5. 图像数据增强 (Data Augmentation in Computer Vision)

    1.1 简介 深层神经网络一般都需要大量的训练数据才能获得比较理想的结果.在数据量有限的情况下,可以通过数据增强(Data Augmentation)来增加训练样本的多样性, 提高模型鲁棒性,避免过拟 ...

  6. illumina SNP 芯片转基因型矩阵

    一.芯片数据 此次拿到的illumina芯片数据并不是原始的数据,已经经过GenomeStudio软件处理成了finalreport文件,格式如下: 之前没处理过芯片数据,对于这种编码模式(Forwa ...

  7. PolymiRTS 数据库- miRNA SNP数据库

    背景: miRNA通过和mRNA的3'UTR区结合,导致mRNA讲解或者抑制mRNA翻译,从而实现转录后调控的作用: 如果在miRNA和 mRNA的结合区域,发生了snp,就可能会影响miRNA和mR ...

  8. SNP芯片的原理

    Illumina的SNP芯片原理 Illumina的SNP生物芯片的优势在于: 第1,它的检测通量很大,一次可以检测几十万到几百万个SNP位点 第2,它的检测准确性很高,它的准确性可以达到99.9%以 ...

  9. Deep Learning -- 数据增强

    数据增强 在图像的深度学习中,为了丰富图像训练集,更好的提取图像特征,泛化模型(防止模型过拟合),一般都会对数据图像进行数据增强,数据增强,常用的方式,就是旋转图像,剪切图像,改变图像色差,扭曲图像特 ...

随机推荐

  1. MySQL/MariaDB数据库的性能测试

      MySQL/MariaDB数据库的性能测试 作者:尹正杰  版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据库服务衡量指标 qps: query per second(每秒支持多少查询 ...

  2. 百度编译器ueditor插入视频的时候。在预览的窗口提示 “输入的视频地址有误,请检查后再试!

    ueditor.all.js: 搜索me.commands["insertvideo"] 把html.push(creatInsertStr( vi.url, vi.width | ...

  3. C++学习(2)—— 数据类型

    C++规定在创建一个变量或者常量的时候,必须指定出相应的数据类型,否则无法给变量分配内存 数据类型存在意义:给变量分配合适的内存空间 1. 整型 作用:整型变量表示的是整数类型的数据 C++中能够表示 ...

  4. app开发-2

    一.app登录注册实现 1.首先进行布局,mhead,mbody 在app index.html内创建一个 a链接通过mui.openWindow跳到登录页面 <a class="mu ...

  5. win10设置以管理员身份开机启动

    首先是右键程序,然后设置了管理员权限启动.但是在这样设置之后原先的开机机启动就失效了. 在谷歌之后发现有人通过计划任务开机启动.于是就试了试.别人设置的是用户登录时,我改成了开机就启动.就是这样一改, ...

  6. Python使用pip安装Numpy模块

    安装Numpy模块一般有两种安装方法: 一:下载模块对应的.exe文件,直接双击运行安装 二:下载模块对应的.whl文件,使用pip安装 对于exe文件的安装比较简单,都是双击运行,这里就不说了. 这 ...

  7. easyui 自己写的一些小东西

    1设置combobox,当我们只需要显示一个commbobox的时候,并且默认选择第一项 function Getcombobox(comboId, value, groupNo) { $('#' + ...

  8. c# 3.0语言主要增强

    1隐含类型的局部变量 var i=5; var h=23.56; var s="Cshap" var intarr=new[]{1,2,3}; var 为关键字,可以根据后边的初始 ...

  9. zabbix4.2.5默认告警模板

    产生告警: Problem: {EVENT.NAME} Problem started at {EVENT.TIME} on {EVENT.DATE} Problem name: {EVENT.NAM ...

  10. windows 10 下使用Navicat for oracle 数据库还原

    一.前期准备 1.安装windows 10系统 2.安装oracle 11g 数据库 3.安装PLsql(也不需要) 4.安装sqlplus(这个必须有) 5.使用下面这个东西新建数据库(不懂创建的话 ...