C语言计算fastq文件GC含量】的更多相关文章

C语言小练习:计算非压缩fastq格式的GC含量 1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <string.h> 4 #define buff 1024 5 6 typedef unsigned long long int u_llong; 7 8 static void usage(int num,const char *str) 9 { 10 if(num !=2) 11 { 12 fprintf(s…
改进了一下,利用zlib可以读取gz格式的压缩文件,也可以直接计算非压缩格式 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <zlib.h> #define buff 1024 typedef unsigned long long int u_llong; static void usage(int num,const char *str) { if(num !=2)…
二代测序的分析过程中,经常需要统计原始下机数据的数据量,看数据量是否符合要求:另外还需要统计q20,q30,GC含量等反应测序质量的指标: 在kseq.h 的基础上稍加改造,就可以实现从fastq 文件中统计这些指标的功能,而且速度非常的快 #include <zlib.h> #include <stdio.h> #include <string.h> #include "kseq.h" // STEP 1: declare the type of…
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAG…
R语言计算出一个N个属性的相关矩阵(),然后再将相关矩阵输出到CSV文件. 读入的数据文件格式如下图所示: R程序采用如下语句: data<-read.csv("I:\\SB\landuse1986\\copy-number-sb2074.landuse.1986.class.csv")//括号内为读入的csv数据文件的绝对地址,其中的斜杠采用向左的双斜杠 write.csv(cor(data,method="spearman"),file="I:\…
之前写的一个小工具,写的很简陋,名字取的也很随意就叫skr,哈哈.主要是fq转fa.合并多个染色体的vcf文件等,功能不多(主要是C写起来太操蛋了T_T),通常我也只用来统计fastq文件信息: 这里给出工具地址:https://github.com/sharkLoc/skrTools usage: Program: skr Usage: skr <command> [options] fq2fa translate fastq file to fasta fqstat summary sta…
下面的概述是参考的这篇文章:http://blog.csdn.net/bingxx11/article/details/7771437 c语言编程中也有,也需要头文件, 头文件不只是C++的类才需要! 比如: c中的string.h,  内存操作的头文件 #include <mem.h> 即是: c语言中, 函数/变量的声明和实现, 也可以像c++一样, 头文件中, 哪些函数/变量需要使用extern来说明? c语言有一个约定: 凡是在对应的.c文件中, 有那个函数的实现的, 就不加exter…
测序数据中经常会接触到fastq格式的文件,比如说拿到fastq格式的原始数据后希望查看测序碱基的质量并去除低质量碱基.一般而言大家都是用现有的工具,比如说fastqc这个Java写的小程序,确实很好用,运行速度快,检查的项目也多.有时候我们也需要对这些数据进行个性化的分析,那么这个时候这些小工具就不能胜任了,需要我们自己写程序(脚本)来处理.本人目前才疏学浅,因此只有一下三种方案: 1.完全自己写脚本,读取每一行,手动解析,然后实现个性化分析.(显然这个比较慢,相当于重造了一个转速很慢的轮子)…
最近php7的消息铺天盖地, 忍不住想尝试下.星期天看了下语法, 写个小脚本练下手: 这个脚本读取fasta 文件, 输出序列的长度和GC含量: <?php $fasta = "test.fasta"; $meta = array(); $meta = parse_fasta($fasta); write_res($meta); function parse_fasta($fasta) { $meta = array(); $file_handle = fopen($fasta,…
#!/usr/bin/perl -w use warnings; use strict; input_fastq trim_length}; ; my ($fastq, $trim_length) = @ARGV; open(FASTQ, $fastq) or die "Can't open $fastq\n"; while (my $readid = <FASTQ>) { chomp $readid; chomp (my $sequence = <FASTQ>…
一.打开和关闭文件 #include int main( void ) { FILE* pReadFile = fopen( "E:\\mytest.txt", "r" ); // 打开文件 if ( pReadFile == NULL ) ; fclose( pReadFile ); // 关闭文件 ; } 上面的这段代码,只是一个简单的打开文件,如果成功打开后直接关闭.这里打开的是一文本文件,是以只读的方式打开.使用fopen函数打开,第一个参数是文件路径,第二…
使用C语言样式的文件操作函数,需要包含stdio.h头文件. 1.打开文件的函数: //oflag的取值为“w”或“r”,分别表示以写或读的方式打开 FILE* fd = fopen(filename.c_str(), oflag); 2.写文件的函数原型: size_t fwrite(const void* buffer, size_t size, size_t count, FILE* stream ); 其中buffer是需要向文件中写入的内容在内存中的首地址指针,size是待写入内容的每…
//C库函数读取文件的代码 I/O缓冲机制 C语言库函数写文件都是写在内存中,然后一次写入磁盘.提高了效率. 读写文件,不对系统进行操作,一般采用C语言库函数.移植可以在任何可以对C支持的操作系统,而不用修改. FILE *fopen(const char *path, const char *mode); mode 参数: r    Open text file for reading. The stream is positioned at the beginning of the file…
 上一篇博客我们讲解了如何使用Linux提供的文件操作函数,本文主要讲解使用C语言提供的文件操作的库函数. 1.函数介绍 fopen(打开文件) 相关函数 open,fclose 表头文件 #include<stdio.h> 定义函数 FILE * fopen(const char * path,const char * mode); 函数说明 参数path字符串包含欲打开的文件路径及文件名,参数mode字符串则代表着流形态. mode有下列几种形态字符串: r 打开只读文件,该文件必须存…
什么是CSV文件 CSV是 Comma-separated values (逗号分隔值)的首字母缩写,它通常是以逗号且不仅限于逗号分隔各个值,我们都叫他CSV. 看下面的例子: China, Shanghai, Pudong, Zhang San, 200000, 1234567 BMW; GER; 300000; RMB; i530 从上面两个例子可以看出,可以用不同的分隔符来分隔数据:数据的类型可以不同:长度任意. 由多行这样的CSV记录组成的文件叫做CSV文件(逗号分隔值文件).当然,他们…
原文 C# 计算字符串的哈希值(MD5.SHA) 已做修改 一.关于本文 本文中是一个类库,包括下面几个函数: /// 1)计算32位MD5码(大小写):Hash_MD5_32 /// 2)计算16位MD5码(大小写):Hash_MD5_16 /// 3)计算32位2重MD5码(大小写):Hash_2_MD5_32 /// 4)计算16位2重MD5码(大小写):Hash_2_MD5_16 /// 5)计算SHA-1码(大小写):Hash_SHA_1 /// 6)计算SHA-256码(大小写):H…
 上一篇博客我们解说了怎样使用Linux提供的文件操作函数,本文主要解说使用C语言提供的文件操作的库函数. 1.函数介绍 fopen(打开文件) 相关函数 open,fclose 表头文件 #include<stdio.h> 定义函数 FILE * fopen(const char * path,const char * mode); 函数说明 參数path字符串包括欲打开的文件路径及文件名称,參数mode字符串则代表着流形态. mode有下列几种形态字符串: r 打开仅仅读文件,该文件必…
1.计算目录文件 #!/bin/bash mypath=`echo $PATH | sed 's/:/ /g'`#注意` ` 和 ‘ ’ count= for directory in $mypath do check=`ls $directory` for item in $check do count=$[ $count + ]#注意空格 done echo "$directory -$count" count= done 2.验证电话号码 显示电话号码有以下几种常用的方法: (1…
/// <summary> /// 计算指定文件的MD5值 /// </summary> /// <param name="fileName">指定文件的完全限定名称</param> /// <returns>返回值的字符串形式</returns> public static String ComputeMD5(String fileName) { var hashMD5 = String.Empty; //检查文…
内容之余,将做工程过程中比较常用的一些内容片段珍藏起来,下面资料是关于C语言检测指定文件是否存在的内容,希望能对小伙伴们有所用. #include <stdbool.h> #include <stdio.h> { if (!f) return false; fclose(f); return true; } 更好的版本 #include <unistd.h> return !access(filename, F_OK); } 或者还可以更短 #include <u…
编写了一个遍历一个目录下所有的文件及文件夹,然后计算每个文件的字符和line的小程序,先把程序贴出来. #coding=utf-8 ''' Created on 2014年7月14日 @author: Administrator ''' import os import os.path rootdir =r'c:\python27\jiaoben' filefullnames=[] def traverse(rootdir,filefullnames): for parent,dirnames,…
在进行计算一个文件夹内容大小的时候,我们要考虑文件夹内都有什么内容,可能都是一个一个的单文件,也有可能都是子文件夹,或者二者都有,既然要计算整个文件夹的大小,我们当然要计算每一个文件的大小以及每一个子文件夹下的每一个子文件.计算每一个文件的大小我们肯定都可以计算到,或者如果我们知道一个文件夹内有子文件夹的数量,一个个遍历子文件夹的内容进行计算,但是如果我们不知道这个文件夹内到底有多少子文件夹呢?所以,根据我的思路,可以使用递归的方式进行计算每一个文件及每一个字文件夹的大小,但有个弊端就是在pyt…
Python的hashlib提供了很多摘要算法,如MD5,SHA1等常用算法. 什么是摘要算法呢?摘要算法又称哈希算法.散列算法.它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(如MD5值共32位,且每位都是用16进制进行表示). 摘要算法就是通过摘要函数对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过. 摘要算法之所以能指出数据是否被篡改过,就是因为摘要函数是一个单向函数,计算digest很容易,但通过digest反推数据data却非常…
R语言计算moran‘I install.packages("maptools")#画地图的包 install.packages("spdep")#空间统计,moran'I install.packages("tripack") install.packages("RANN") library("maptools") library("spdep") library("trip…
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64; @FC12044_91407_8_200_406_24 NTTAGCTCCCACCTTAAGATGTTTA +FC12044_91407_8_200_406_24 SXXTXXXXXXXXXTTSUXSSXKTMQ @FC12044_91407_8_200_720_610 CTCTGTGGCACCCCATCCCTCACTT +FC12044_91407_8_200_720_610 OXXXXXXXXXXXX…
在分析中经常需要统计fasta/fastq文件的序列数和碱基数, 但是没有找到一些专门做这件事的小工具,可能是这个功能太简单了: 之前用自己写的perl的脚本统计这些信息, 当fastq文件非常大时,就变的很慢: 今天在网上搜到kseq.h可以parse fasta/fastq文件,用C写的, 速度很快: http://lh3lh3.users.sourceforge.net/parsefastq.shtml 自己试了一下, 在这个基础上添加个小功能, 命名为parse.c: #include…
  c语言头文件怎么写?我一直有这样的疑问,但是也一直没去问问到底咋回事:所以今天一定要把它弄明白! 其实学会写头文件之后可以为我们省去不少事情,可以避免书写大量的重复代码.有利于整理思路.使代码脉络更加清晰... 总之,好处多多学起来还不难就对了,还在等什么快来看看吧!   首先,我们要建一个头文件,命名为abc.h   然后就是内容了,其大致格式如下: #ifndef __ABC_H__ //ifndef 实际上就是“if not define”  如果没有定义  #define __ABC…
C 语言实例 - 从文件中读取一行 从文件中读取一行. 文件 runoob.txt 内容: $ cat runoob.txt runoob.com google.com 实例 #include <stdio.h> #include <stdlib.h> // exit() 函数 int main() { ]; FILE *fptr; if ((fptr = fopen("runoob.txt", "r")) == NULL) { printf…
更多大数据分析.建模等内容请关注公众号<bigdatamodeling> 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下: CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in c…
将fasta文件线性化处理 awk '/^>/ {printf("%s%s\t",(N>0?"\n":""),$0);N++;next;} {printf("%s",$0);} END {printf("\n");}' < input.fa cat Rmh.fasta | awk '{printf("%s%s",$0,((NR+1)%2==1?"\n"…