3D-DNA是一款简单,方便的处理Hi-C软件,可将contig提升到染色体水平。其githup网址:https://github.com/theaidenlab/3d-dna

3D-DNA流程简介

  • 将Hi-C数据比对到draft.genome.fa。(利用Juicer分析Hi-C数据)
  • 利用自动化流程进行纠错(misjoin),排序(order),确定正确方向(orient),最后scaffolding,得到染色体水平的组装结果(3D-DNA分析)
  • Juicebox 进行人工纠错

所需软件及安装

  • LastZ (version 1.03.73 released 20150708) – for diploid mode only
  • Java version >=1.8
  • Bash >=4
  • GNU Awk >=4.0.2
  • GNU coreutils sort >=8.11
  • Python >=2.7 - for chromosome number-aware splitter module only
  • scipy numpy matplotlib - for chromosome number-aware splitter module only
  • GUN Parallel >=20150322 (可选,建议装)
  • bwa
  • 两个核心软件 juicer 和3D-DNA

安装软件

 1 ## 安装juice
2 git clone https://github.com/theaidenlab/juicer.git
3 cd juicer
4 ln -s CPU scripts
5 cd scripts/common
6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
8
9 ## 安装3D-DNA
10 git clone https://github.com/theaidenlab/3d-dna.git

大概流程

数据准备:

  • ref文件夹: 存放draft.genome.fa
  • fastq: 存放HI-C测序双端reads, 注意reads文件名的格式 保证*.R1.fastq, *.R2.fastq

++++++++++++++++++++++++正式开始+++++++++++++++++++++++++++++

一、 利用Juicer 分析HI-C数据

第一步:基因组建立索引

bwa index draft.genome.fa

第二步: 创建可能的酶切位点文件

1 python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
2
3 # 本次使用的是 HindIII 进行酶切;选择自己所有的酶

第三步:获取每条contig的长度

1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes

第四步:运行juicer

注意:必须在当前目录存在fastq和ref文件夹, -z,-p,-y必须参数

 1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8
2
3
4
5 ## 参数
6 -g: 定义一个物种名
7 -s:酶切类型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
8 -z : 参考基因组文件
9 -y: 限制性酶切位点可能出现位置文件
10 -p: 染色体大小文件
11 -C: 将原来的文件进行拆分,必须是4的倍数,默认是90000000, 即22.5M reads
12 -S: 和任务重运行有关,从中途的某一步开始,"merge", "dedup", "final", "postproc" 或 "early"
13 -d: juicer的目录
14 -D: juicer scripts的目录
15 -t: 线程数

结果:结果文件在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

二、 运行3D-DNA

使用默认参数进行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后输出文件中,包含FINAL就是我们需要的结果。

三、 juicerbox进行手动纠错

首先下载该软件:https://github.com/aidenlab/Juicebox/wiki/Download

一般组装错误为:

  • misjoin
  • translocations
  • inversions
  • chromosome boundaries

关于该软件用法,可看该视频:https://www.bilibili.com/video/av65134634

纠错完以后,会得到genome.review.assembly用于下一步的分析

四、 再次运行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt

欢迎大家讨论交流,若有问题,可添加一下公众号,后台留言即可

---END---

3D-DNA 挂载染色体的更多相关文章

  1. ChemDraw绘制DNA结构的技巧

    对生物有一定了解的朋友都知道DNA是染色体的重要组成部分,DNA结构中包含重要的遗传物质,孩子的DNA来自父母DNA的组合,这就是为什么“一家人相像”的奥秘所在.ChemDraw虽然号称是化学结构绘制 ...

  2. Unnatural

    1. 纪录片:非自然选择 1.1 CRISPR-Cas9的出现 1.2 故事1:先天性基因缺陷而失明的小孩 1.3 故事2:基因变异的蚊子 1.4 基因技术应用的现状 1.5 担忧 2. CRISPR ...

  3. OMIM 表型和基因如何关联

    OMIM数据库:大神私藏的数据库,99.9%的人都不知道! 2019-03-04 11:00乳腺癌/医生/肺癌 “ GEO.NCDB.TCGA.SEER数据库这些我都知道,但OMIM是什么鬼? OMI ...

  4. 肠道微生物研究进展 | Microbiology | Human Gut Microbiome | human gut microbiota

    之前我有过一篇16s基本概念和数据分析的文章.16S 基础知识.分析工具和分析流程详解 可以分成两部分,生物层面和技术层面. 生物层面: 1. 肠道微生物里面包含了哪些微生物?显然包含了所有层面的微生 ...

  5. MIT Molecular Biology 笔记1 DNA的复制,染色体组装

    视频  https://www.bilibili.com/video/av7973580?from=search&seid=16993146754254492690 教材 Molecular ...

  6. DNA分子结构3D模型

    生物信息资源更新越来越快,使用可视化的方法来分析DNA序列已成为生物信息学的一个研究热点,用图形表示DNA序列的方法也越来越成熟.2011年,著名杂志<Science>发表一篇引起轰动的文 ...

  7. 【基因组组装】HiC挂载Juicebox纠错补充

    目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...

  8. 如何在ASP.Net创建各种3D图表

    我们都知道,图表在ASP.NET技术中是一种特别受欢迎而又很重要的工具.图表是表示数据的图形,一般含有X和Y两个坐标轴.我们可以用折线,柱状,块状来表示数据.通过图表控件,我们即能表示数据又能比较各种 ...

  9. cfDNA(circulating cell free DNA)全基因组测序

    参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA ...

随机推荐

  1. Java:并发笔记-01

    Java:并发笔记-01 说明:这是看了 bilibili 上 黑马程序员 的课程 java并发编程 后做的笔记 1. 进程与线程 本章内容 进程和线程的概念 并行和并发的概念 线程基本应用 1.1 ...

  2. csp总结 (差点爆零的总结)

    T1,iterator忘了怎么写了,想了很久都想不出来有什么可以替代,只好O(n^2): T2,不会,只会打暴力 T3,自以为是正解,写了很久大概3h,却一直过不了大样例,大样例输出全是0: T4,不 ...

  3. Mysql的入门和连接问题

    Mysql的连接问题 最近学完了mysql的基础语法,基本上是掌握了mysql的简单运用. 1.入门mysql 我是通过看<漫画sql>入门的,这个视频案例很到位,跟着2倍速学前9章就可以 ...

  4. SpringBoot整合Easyexcel操作Excel,闲暇之余,让我们学习更多

    关于封面:晚饭后回自习室的路上 Easyexcel 官方文档 Easyexcel | github 前言 最近也是在写的一个小练习中,需要用到这个.趁着这次就将写个整合的Demo给大家. 希望能够让大 ...

  5. WPF进阶技巧和实战08-依赖属性与绑定03

    数据提供者 在大多数的代码中,都是通过设置元素的DataContext属性或者列表控件的ItemsSource属性,从而提供顶级的数据源.当数据对象是通过另一个类构造时,可以有其他选择. 一种是作为窗 ...

  6. 顺时针打印矩阵 牛客网 剑指Offer

    顺时针打印矩阵 牛客网 剑指Offer 题目描述 输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字,例如,如果输入如下4 X 4矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 ...

  7. Python Linux Ubuntu apt安装PyCharm

    PyCharm一个是Python集成开发环境,它既提供收费的专业版,也提供免费的社区版本.PyCharm带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试.语法高亮.Proj ...

  8. 『学了就忘』Linux基础 — 17、远程服务器关机及重启时的注意事项

    目录 1.为什么远程服务器不能关机 2.远程服务器重启时需要注意两点 3.不要在服务器访问高峰运行高负载命令 4.远程配置防火墙时不要把自己踢出服务器 5.指定合理的密码规范并定期更新 6.合理分配权 ...

  9. sqlldr 导入有中文乱码问题

    1.导入成功后,查看导入数据有乱码 2.查看字符集为uft8 select * from v$nls_parameters where PARAMETER like '%NLS_CHARACTERSE ...

  10. ACL实验

    ACL实验 基本配置:略 首先根据题目策略的需求1,从这个角度看,我们需要做一条高级ACL,因为我们不仅要看你是谁,还要看你去干什么事情,用高级ACL来做的话,对于我们华为设备,只写拒绝,因为华为默认 ...