spark kmer计算

输入文件：fa格式的文件
输出结果：kmer的频数和对应的kmer类型和计数
1.将fq.gz的文件转换成fa文件：

#!/usr/bin/python env

# -*- coding:utf-8 -*-

import os

import re

import os.path

import gzip

import sys

#在这里可以写一个函数用来将文件转换成id和序列对应的字典

#需要用到哪个转化操作呢？考虑先尝试使用filter或者map

'''

@r261DFRAAXX100204:1:100:10494:3070/1

ACTGCATCCTGGAAAGAATCAATGGTGGCCGGAAAGTGTTTTTCAAATACAAGAGTGACAATGTGCCCTGTTGTTT

+

ACCCCCCCCCCCCCCCCCCCCCCCCCCCCCBC?CCCCCCCCC@@CACCCCCACCCCCCCCCCCCCCCCCCCCCCCC

'''

#这里是利用python直接读取压缩的fastq文件

def read_gz_file(path):

    if os.path.exists(path):

        with gzip.open(path,'rt') as pf:

            for line in pf:

                yield line

    else:

        print 'the path [{}] is not exist!'.format(path)

def ReadFastq(fastq):

    flag = 1

    dict_fq={}

    if fastq.endswith('gz'):

        con = read_gz_file(fastq)

        if getattr(con,'__iter__','None'):

            for line in con:

                line=line.strip()

                flag_index = flag%4

                if flag_index == 1:

                    id = line

                if flag%4 == 2:

                    seq = line

                else:

                    flag +=1

                    continue

                dict_fq[id] = seq

                flag+=1

            return dict_fq

    else:

        with open (fastq,'r') as fqr:

            for line in fqr.readlines():

                line = line.strip()

                flag_index = flag%4

                if flag_index == 1:

                    id = line

                if flag%4 == 2:

                    seq = line

                else:

                    flag +=1

                    continue

                dict_fq[id] = seq

                flag+=1

            return dict_fq

def convert_to_fa(dict_hash,output):

    with open (output,'w') as fr:

        for i in dict_hash.keys():

            fr.write(i+'\n')

            fr.write(dict_hash[i]+'\n')

if __name__ == '__main__':

    input = sys.argv[1]

    output = sys.argv[2]

    dic_fa = ReadFastq(input)

    convert_to_fa(dic_fa,output)

2.将reads打断成kmer并统计kmer的频数

#!/usr/bin/env python

# coding=utf-8

import os

import sys

import re

from pyspark import SparkConf, SparkContext

input_fasta_file ='/home/yueyao/Spark/00.data/both.fa'

conf = SparkConf().setMaster("local").setAppName("Yue Yao app")

sc = SparkContext(conf = conf)

fasta_file = sc.textFile(input_fasta_file)

#这里是对fasta文件进行转化操作，过滤掉reads的名称

reads_fa = fasta_file.filter(lambda line :">" not in line)

#这个函数用来将reads打断成kmer，这里的kmer是25,返回一个列表

def map_file(line):

    seq_lis=[]

    for i in range(len(line)-25+1):

        sub_seq = line[i:i+25]

        seq_lis.append(sub_seq)

    return seq_lis

kmer_list = reads_fa.flatMap(map_file)

#对打断的kmer进行计数

kmer_count = kmer_list.map(lambda id:(id,1))

kmer_total_count = kmer_count.reduceByKey(lambda a,b:(a+b))

#这里过滤掉了含有N的kmer

kmer_not_contain_N = kmer_total_count.filter(lambda line :"N" not in line[0])

kmer_key=kmer_not_contain_N.keys()

#统计kmer的种类，并计数

kmer_vari_count = kmer_not_contain_N.map(lambda kmer_vari:(kmer_vari[1],1))

kmer_histo = kmer_vari_count.reduceByKey(lambda a,b:(a+b))

#输出kmer频数的结果

kmer_histo.saveAsTextFile('Kmer25.histo')

kmer_not_contain_N.saveAsTextFile('kmer25')

kmer_key.saveAsTextFile('kmer25_key')

spark kmer计算的更多相关文章

如何在 Serverless K8s 集群中低成本运行 Spark 数据计算？
作者 | 柳密阿里巴巴阿里云智能 ** 本文整理自<Serverless 技术公开课>,关注"Serverless"公众号,回复"入门",即可获取 ...
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理 ...
Spark 实时计算整合案例
1.概述最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务.了解到,在使用 Storm 时,需要编写基于编程语言的代码.比如,要实现一个流水指标的统计 ...
Spark将计算结果写入到Mysql中
今天主要来谈谈如何将Spark计算的结果写入到Mysql或者其他的关系型数据库里面.其实方式也很简单,代码如下: package scala import java.sql.{DriverManage ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...
大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...

随机推荐

mpvue搭建小程序框架
http://mpvue.com/mpvue/ 美团开源了mpvue 由于mpvue框架是完全基于Vue框架的(重写了其runtime和compiler) 运行时框架 runtime 和代码编译器 c ...
Linux下DM无法显示建模界面的解决方法
方法来源: http://www.linuxhospital.com/read/unable-to-resolve-function-glxqueryextension-in-hyperview.ht ...
SyntaxError: Non-ASCII character 'æ' in file csdn.py on line 7, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
错误信息: SyntaxError: Non-ASCII character , but no encoding declared; see http://python.org/dev/peps/pe ...
VS2010专业版和旗舰版（中文版）下载
本文转载自https://blog.csdn.net/chy2z/article/details/80080399 注意: 中文版为iso镜像文件,使用 Daemon Tools 虚拟光驱软件载入进行 ...
cv2.warpAffine 参数详解
本文链接:https://blog.csdn.net/qq878594585/article/details/81838260本文为作者原创文章,未经同意严禁转载! opencv中的仿射变换在pyth ...
taocrypt
taocrypt MySQL Bugs: #25189: mysqld: coding.cpp:243: void TaoCrypt::Base64Decoder::Decode(): Asserti ...
vue-router 利用url传递参数
vue-router 利用url传递参数 :冒号的形式传递参数在路由配置文件里以:冒号的形式传递参数,这就是对参数的绑定. 1. 在配置文件里以冒号的形式设置参数.我们在/src/router/i ...
Oracle 查询表注释以及字段注释
Oracle 查询表注释以及字段注释 --表字段信息 select * from all_tab_columns a where a.TABLE_NAME='T_X27_USER'; --表注释信息 ...
Visual Studio IronPython CPython
安装 IronPython - 张善友 - 博客园https://www.cnblogs.com/shanyou/archive/2006/09/14/504580.html VS2017作为pyth ...
flutter 页面布局 Paddiing Row Column Expanded 组件
Flutter Paddiing 组件在 html 中常见的布局标签都有 padding 属性,但是 Flutter 中很多 Widget 是没有 padding 属性.这个时候我们可以用 Pad ...

spark kmer计算

spark kmer计算的更多相关文章

随机推荐

热门专题