【Python小试】计算目录下所有DNA序列的Kmer并过滤

背景

Kmer是基因组组装算法中经常接触到的概念，简单来说，Kmer就是长度为k的核苷酸序列。一般长短为m的reads可以分成m-k+1个Kmer。Kmer的长度和阈值直接影响到组装的效果。

Denovo组装流程：原始数据——数据过滤——纠错——kmer分析——denovo组装。

组装测序策略：根据基因组大小和具体情况选择个大概的k值，构建contig所需的数据量以及所需的构建的文库数量。对于植物基因组一般考虑的是大kmer（>31），动物一般在27左右，具体根据基因组情况调整。需要在短片段数据量达到20X左右的时候进行kmer分析。Kmer分析正常后，继续加测数据以达到最后期望的数据量。

编码

import os

import sys

# convert command line arguments to variables

kmer_size = int(sys.argv[1])

count_cutoff = int(sys.argv[2])

# define the function to split dna

def split_dna(dna, kmer_size):

    kmers = []

    for start in range(0,len(dna)-(kmer_size-1),1):

        kmer = dna[start:start+kmer_size]

        kmers.append(kmer)

    return kmers

# create an empty dictionary to hold the counts

kmer_counts = {}

# process each file with the right name

for file_name in os.listdir("."):

    if file_name.endswith(".dna"):

        dna_file = open(file_name)

        # process each DNA sequence in a file

        for line in dna_file:

            dna = line.rstrip("\n")

            # increase the count for each k-mer that we find

            for kmer in split_dna(dna, kmer_size):

                current_count = kmer_counts.get(kmer, 0)

                new_count = current_count + 1

                kmer_counts[kmer] = new_count

# print k-mers whose counts are above the cutoff

for kmer, count in kmer_counts.items():

    if count > count_cutoff:

        print(kmer + " : " + str(count))

Ref: https://www.cnblogs.com/leezx/p/5577600.html

【Python小试】计算目录下所有DNA序列的Kmer并过滤的更多相关文章

python获取指定目录下所有文件名os.walk和os.listdir
python获取指定目录下所有文件名os.walk和os.listdir 觉得有用的话,欢迎一起讨论相互学习~Follow Me os.walk 返回指定路径下所有文件和子文件夹中所有文件列表其中文 ...
python实现指定目录下批量文件的单词计数：并发版本
在文章 <python实现指定目录下批量文件的单词计数:串行版本>中, 总体思路是: A. 一次性获取指定目录下的所有符合条件的文件 -> B. 一次性获取所有文件的所有文件行 - ...
python引入同一目录下的py文件
python引入同一目录下的py文件注意:python2和python3的包内import语法有区别,下面介绍一下python3的包内import语法例如在admin.py文件中要引入dealco ...
Python获取指定目录下所有子目录、所有文件名
需求给出制定目录,通过Python获取指定目录下的所有子目录,所有(子目录下)文件名: 实现 import os def file_name(file_dir): for root, dirs, f ...
用Python删除本地目录下某一时间点之前创建的所有文件
因为工作原因,需要定期清理某个文件夹下面创建时间超过1年的所有文件,所以今天集中学习了一下Python对于本地文件及文件夹的操作.网上这篇文章简明扼要地整理出最常见的os方法,抄袭如下: os.l ...
Python读取一个目录下的所有文件
#!/usr/bin/python # -*- coding:utf8 -*- import os allFileNum = 0 def printPath(level, path): global ...
python获取指定目录下特定格式的文件名
之前一直用windows下的bat脚本获取一个目录下的指定格式的文件名,如下所示: dir *.jpg /b/s > train.set pause 十分简单,将这个bat文件放到你想要获取文件 ...
python 读取一个目录下的所有目录和文件
#!/usr/bin/python # -*- coding:utf8 -*- import os allFileNum = 0 def printPath(level, path): global ...
python实现查看目录下重复的文件
该python 脚本有以下三个功能: 1. 实现查看目录下重复的文件,输出文件按修改时间升序排列 2. 将按修改时间排列比较旧的.可删除的文件列出来 3. 按目录对重复文件进行统计,比如,目录/tmp ...

随机推荐

LeetCode：数组专题
数组专题有关数组的一些 leetcode 题,在此做一些记录,不然没几天就忘光光了二分查找双指针滑动窗口前缀和/差分数组二分查找本文内容摘录自公众号labuladong中有关二分查找的文 ...
聊聊 Kubernetes Pod or Namespace 卡在 Terminating 状态的场景
这个话题,想必玩过kubernetes的同学当不陌生,我会分Pod和Namespace分别来谈. 开门见山,为什么Pod会卡在Terminationg状态? 一句话,本质是API Server虽然标记 ...
linux下的IO模型---学习笔记
1.linux文件系统和缓存文件系统接口文件系统-一种把数据组织成文件和目录的存储方式,提供了基于文件的存取接口,并通过文件权限控制访问. 存储层次文件系统缓存主存(通常时DRAM)的一块区域 ...
OKhttp3的使用教程
首先在build.gradle下的dependencies下添加引用. implementation "com.squareup.okhttp3:okhttp:4.9.0" 然后编 ...
nod_1004 n^n的末位数字（二分快速幂）
题意: 给出一个整数N,输出N^N(N的N次方)的十进制表示的末位数字. Input 一个数N(1 <= N <= 10^9) OutPut 输出N^N的末位数字思路: EASY,,,, ...
linux 内核源代码情景分析——i386 的页式内存管理机制
可以看出,在页面目录中共有210 = 1024个目录项,每个目录项指向一个页面表,而在每个页面表中又共有1024个页面描述项. 由图看出来,从线性地址到物理地址的映射过程为: 1)从CR3取得页面目录 ...
Java线程的三种实现方法
Java多线程详解线程简介多任务,多线程多任务情况中,虽然可以完成,但是实际上,多任务的完成是由一个一个小任务的完成来实现的,也就是说在执行多任务时,不是同时执行多个任务,而是一个时间段内只完成 ...
HDC2021：HMS Core分析服务，数智化营销闭环方案帮助开发者实现精益增长
10.22-10.24华为开发者大会2021(Together)在东莞如期举行.本次大会上,HMS Core华为分析服务作为多平台.跨设备的一站式数据分析平台以数据驱动业务智能决策为理念,带来了数智化 ...
服务集与AP的配合
一.实验目的 1)掌握添加无线网络配置 2)掌握配置信道和协议使用并配置在一个天线上同时运行两个服务集,即两个无线网络二.实验仪器设备及软件仪器设备:一台AC,两台AP,一台AR,一台LSW 软件 ...
Get value from agent failed: cannot connect to [[127.0.0.1]:10050]: [111] Connection refused
zabbix 监控连接失败 1.查看配置文件端口,server端口10051开启正常,agent端10050开启正常 2.查看/var/log/zabbix/zabbix_server.log./va ...

【Python小试】计算目录下所有DNA序列的Kmer并过滤

背景

编码

【Python小试】计算目录下所有DNA序列的Kmer并过滤的更多相关文章

随机推荐

热门专题