【数据使用】3k水稻数据库现成SNP的使用

---恢复内容开始---

我们经常说幻想着使用已有数据发表高分文章，的确，这样的童话故事每天都在发生，但如何走出第一步我们很多小伙伴不清楚，那么我们就从水稻SNP数据库的使用来讲起。

http://snp-seek.irri.org/

这是3k的水稻变异库，上面保存着现成的SNP，由于数据过大，网站的维护方使用了Plink的格式来给我们在线储存SNP的信息，可以理解毕竟3025个水稻的全基因组SNP，怎么算都不是个小数。

Plink格式是如下三个文件：

base_filtered_v0.7.bed.gz

base_filtered_v0.7.bim.gz

base_filtered_v0.7.fam.gz

用Plink软件的“--recode”就可以把这三个软件转化为Vcf格式：

--recode [output format] < | > <tab | tabx | spacex | bgz | gen-gz>

         <include-alt> <omit-nonmale-y>

  Create a new text fileset with all filters applied.  The following output

  formats are supported:

  * '': 23andMe -column format.  This can only be used on a single

    sample's data (--keep may be handy), and does not support multicharacter

    allele codes.

  * 'A': Sample-major additive (//) coding, suitable for loading from R.

    If you need uncounted alleles to be named in the header line, add the

    'include-alt' modifier.

  * 'AD': Sample-major additive (//) + dominant (het=/hom=) coding.

    Also supports 'include-alt'.

  * 'A-transpose': Variant-major //.

  * 'beagle': Unphased per-autosome .dat and .map files, readable by early

    BEAGLE versions.

  * 'beagle-nomap': Single .beagle.dat file.

  * 'bimbam': Regular BIMBAM format.

  * 'bimbam-1chr': BIMBAM format, with a two-column .pos.txt file.  Does not

    support multiple chromosomes.

  * 'fastphase': Per-chromosome fastPHASE files, with

    .chr-[chr #].recode.phase.inp filename extensions.

  * 'fastphase-1chr': Single .recode.phase.inp file.  Does not support

    multiple chromosomes.

  * 'HV': Per-chromosome Haploview files, with .chr-[chr #][.ped + .info]

    filename extensions.

  * 'HV-1chr': Single Haploview .ped + .info file pair.  Does not support

    multiple chromosomes.

  * 'lgen': PLINK  long-format (.lgen + .fam + .map), loadable with --lfile.

  * 'lgen-ref': .lgen + .fam + .map + .ref, loadable with --lfile +

     --reference.

  * 'list': Single genotype-based list, up to  lines per variant.  To omit

    nonmale genotypes on the Y chromosome, add the 'omit-nonmale-y' modifier.

  * 'rlist': .rlist + .fam + .map fileset, where the .rlist file is a

    genotype-based list which omits the most common genotype for each

    variant.  Also supports 'omit-nonmale-y'.

  * 'oxford': Oxford-format .gen + .sample.  With the 'gen-gz' modifier, the

    .gen file is gzipped.

  * 'ped': PLINK  sample-major (.ped + .map), loadable with --file.

  * 'compound-genotypes': Same as 'ped', except that the space between each

    pair of same-variant allele codes is removed.

  * 'structure': Structure-format.

  * 'transpose': PLINK  variant-major (.tped + .tfam), loadable with

    --tfile.

  * 'vcf', 'vcf-fid', 'vcf-iid': VCFv4..  'vcf-fid' and 'vcf-iid' cause

    family IDs or within-family IDs respectively

to be used for the sample

    IDs in the last header row, while 'vcf' merges both IDs and puts an

    underscore between them.  If the 'bgz' modifier is added, the VCF file is

    block-gzipped.

    The A2 allele is saved as the reference and normally flagged as not based

    on a real reference genome (INFO:PR).  When it is important for reference

    alleles to be correct, you'll also want to include --a2-allele and

    --real-ref-alleles in your command.

  In addition,

  * The '' modifier causes A1 (usually minor) alleles to be coded as ''

    and A2 alleles to be coded as '', while '' maps A1 ->  and A2 -> .

  * The 'tab' modifier makes the output mostly tab-delimited instead of

    mostly space-delimited.  'tabx' and 'spacex' force all tabs and all

    spaces, respectively.

plink --bfile <prefix> --recode vcf-iid --out ./<out-prefix>

通过这种方式就可以把bed的信息转化为可用的vcf。

【数据使用】3k水稻数据库现成SNP的使用的更多相关文章

如何将MongoDB数据库的数据迁移到MySQL数据库中
FAQ v2.0终于上线了,断断续续忙了有2个多月.这个项目是我实践的第一个全栈的项目,从需求(后期有产品经理介入)到架构,再到设计(有征询设计师的意见).构建(前端.后台.数据库.服务器部署),也是 ...
数据导入导出Oracle数据库
临近春节,接到了一个导入数据的任务,在Linux客户端中的数据有50G,大约3亿3千万行: 刚开始很天真,把原始的txt/csv文件用sh脚本转化成了oralce 的insert into 语句,然后 ...
测试Oracle 11gr2 RAC 非归档模式下，offline drop数据文件后的数据库的停止与启动测试全过程
测试Oracle 11gr2 RAC 非归档模式下,offline drop数据文件后的数据库的停止与启动测试全过程最近系统出现问题,由于数据库产生的日志量太大无法开启归档模式,导致offline的 ...
怎样把excel的数据导入到sqlserver2000数据库中
在做程序的时候有时需要把excel数据导入到sqlserver2000中,以前没从外部导入过数据,今天刚做了一下导入数据,感觉还是蛮简单的,没做过之前还想着多么的复杂呢,下面就来分享一下我是如何把ex ...
学习springMVC框架配置遇到的问题-数据写入不进数据库时的处理办法
配置完了,运行,数据写入不到数据库中,就应该想UserAction 中的handleRequest()方法有没有进去,然后就设置断点.如果发现程序没有进去,就再想办法进去.
paip.导入数据英文音标到数据库mysql为空的问题之道解决原理
paip.导入数据英文音标到数据库mysql为空的问题之道解决原理 #---原因:mysql 导入工具的bug #---解决:使用双引号不个音标括起来. 作者老哇的爪子 Attilax 艾龙, E ...
python 读取SQLServer数据插入到MongoDB数据库中
# -*- coding: utf-8 -*-import pyodbcimport osimport csvimport pymongofrom pymongo import ASCENDING, ...
极限挑战—C#100万条数据导入SQL SERVER数据库仅用4秒 (附源码)
原文:极限挑战-C#100万条数据导入SQL SERVER数据库仅用4秒 (附源码) 实际工作中有时候需要把大量数据导入数据库,然后用于各种程序计算,本实验将使用5中方法完成这个过程,并详细记录各种方 ...
将DataTable 数据插入 SQL SERVER 数据库
原文:将DataTable 数据插入 SQL SERVER 数据库以下提供3中方式将DataTable中的数据插入到SQL SERVER 数据库: 一:使用sqlcommand.executenon ...

随机推荐

sqlserver等软件下载
http://msdn.itellyou.cn/ 找到所需要的,复制下载路径,到迅雷下载
ganglia问题汇总
1.有数据,不出图排查方法: 1)确保 php-gd 插件已安装 2) 确保rrdtool 的命令路径是正确的 3)确保php.ini中passthru函数是否开启,参数safe_mode 是否为o ...
Dart 语言简易教程系列
google Fuchsia系统及 dart语言简介在 InteIIiJ IDEA 中搭建 Dart 的开发环境 Dart Linux 开发环境搭建 Dart 语言简易教程(一) Dart 语言简 ...
下载Crypto，CyCrypto，PyCryptodome 报错问题
python下载Crypto,CyCrypto,PyCryptodome,如有site-packages中存在crypto.pycrypto,在pip之前,需要pip3 uninstall crypt ...
@media 媒体查询
@media screen and (max-width: 300px) { //当视口宽度小于等于300px时生效 } max-width 相当于 <= @media screen an ...
浅谈Observer在代码中表现形式
说到观察者模式,基本在软件工程领域中是应用广泛,不知道的可以先学习一番,下面给个快速的回顾,然后在通过一个grpc中的responseObserver谈下观察者对象在代码中的位置. 喜欢类图,就不上其 ...
MySQL中kill掉所有表的进程
同事打电话告诉我用户数据库挂掉了. 我起床看一下进程列表. mysql>show processlist; 出来哗啦啦好几屏幕的, 没有一千也有几百条, 查询语句把表锁住了, 赶紧找出第一个Lo ...
SecureCRT操作指令
连接服务器,文件——连接SFTP会话,然后可以help查看命令传输文件需要明确并处在客户端和服务器端两个正确路径下, 服务器端的操作: cd——去服务器指定的路径 pwd——查看服务器端当前目录 l ...
shell符号
*: 通配符 *.c : c结尾的文件 *v : v结尾的文件 v* : v开头的文件
RTOS 和中断之间要注意的
#define configLIBRARY_LOWEST_INTERRUPT_PRIORITY 15 #define configLIBRARY_MAX_SYSCALL_INTERRUPT_PRI ...

【数据使用】3k水稻数据库现成SNP的使用

【数据使用】3k水稻数据库现成SNP的使用的更多相关文章

随机推荐

热门专题