C++ 对TXT 的串并行读写

任务说明：有36篇文档，现在要读入，并统计词频，字典长度25，希望能够比较串并行读写操作的时间差距。

串行读入并统计词频

// LoadDocsInUbuntu.cpp

//

#include <iostream>

#include <stdio.h>

#include <vector>

using namespace std;

int main()

{

    char filename[100];

    size_t d;

    FILE *fileptr;

    int word;

    vector< vector<int> > corpus;

    printf("load data ...\n");

    for (d = 1; d < 37; d++){

        sprintf(filename, "..//data/doc_%d.txt", d);

        fileptr = fopen(filename, "r");

        vector<int> doc;

        int ff[25] = { 0 };

        while (fscanf(fileptr, "%d", &word) != EOF)

        {

            ff[word - 1] = ff[word - 1] + 1;

            doc.push_back(word);

        }

        corpus.push_back(doc);

        fclose(fileptr);

        sprintf(filename, "..//result/freqUbuntuSerial_%d.txt", d);

        fileptr = fopen(filename, "w");

        for (int f = 0; f < 25; f++)

        {    

            fprintf(fileptr, "%d ", ff[f]);

        }

        fclose(fileptr);

    }

    cout <<"corpus.size()="<< corpus.size() << endl;

    return 0;

}

这里讨论并行有三种思路：一，按照文档序号进行分组读入统计等操作；二，在文档内按单词数目分组进行统计；三，将统计与读写操作并行处理。

针对第一种思路，使用openmp做多线程处理：

// LoadDocsByOpenMP.cpp

//

#include <omp.h>

#include <iostream>

#include <stdio.h>

#include <vector>

#include <stdlib.h>

#include <time.h>

#include <string>

using namespace std;

int main()

{

	char filename[100],resultname[100];

	int d;

	FILE *fileptr[360];

	int word;

	int ff[360][25] = { 0 };

	//vector< vector<int> > corpus;

	clock_t start,finish;

	int f[360]={0};

	start=clock();

	printf("load data ...\n");

#pragma omp parallel for num_threads(4)

	for (d = 1; d < 361; d++){

		printf("Hello world, I am %d, docs index %d.\n",omp_get_thread_num(),d);

		sprintf(filename, "..//data/doc_%d.txt", d);

		fileptr[d-1] = fopen(filename, "r");

		//int ff[25]={0};

		////vector<int> doc;

		while (fscanf(fileptr[d-1], "%d", &word) != EOF)

		{

			ff[d-1][word - 1] = ff[d-1][word - 1] + 1;

			//ff[word-1]=ff[word-1]+1;

		//	//doc.push_back(word);

		}

		////corpus.push_back(doc);

		fclose(fileptr[d-1]);

		sprintf(resultname, "..//result/freqByOpenMP_%d.txt", d);//Be CAREFUL!For the name "filename" has been used before, we must name the string differently here.

		fileptr[d-1] = fopen(resultname, "w");

		for (f[d-1] = 0; f[d-1] < 25; f[d-1]++)

		{

			fprintf(fileptr[d-1], "%d ", ff[f[d-1]]);

		}

		fclose(fileptr[d-1]);

	}

	//cout <<"corpus.size()="<< corpus.size() << endl;

	finish=clock();

	cout<<"time cost : "<< (double)(finish-start)/ CLOCKS_PER_SEC<<endl;

	return 0;

}

但初步比较openmp对串行读取的速度并没有太多提升，反而是当进程数多于系统物理核数的时候，程序时间会加长。

另外两种实现思路在后续学习中继续实现。

C++ 对TXT 的串并行读写的更多相关文章

java指定编码的按行读写txt文件（几种读写方式的比较）
转: java指定编码的按行读写txt文件(几种读写方式的比较) 2018年10月16日 20:40:02 Handoking 阅读数:976 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Java初学者笔记四：按行读写文件和输入处理
一.我们来看python的很简单: 1.读文件: with open("/path/file","r") as fr: for line in fr.readl ...
txt文件按行处理工具类（可以截取小说、分析日志等）【我】
txt文件按行处理工具类(可以分析日志.截取小说等) package file; import java.io.BufferedReader; import java.io.BufferedWrite ...
iOS 9应用开发教程之多行读写文本ios9文本视图
iOS 9应用开发教程之多行读写文本ios9文本视图多行读写文本——ios9文本视图文本视图也是输入控件,与文本框不同的是,文本视图可以让用户输入多行,如图2.23所示.在此图中字符串“说点什么吧 ...
63.当当网txt数据按行切割与合并
获取文件有多少行 //获取文件有多少行 int getN(char *path) { FILE *pf = fopen(path, "r"); if (pf==NULL) { ; ...
cv.Mat 与 .txt 文件数据的读写操作
1.按OpenCV格式实现的 .txt 文件读写可以用 cvSave 和 cvLoad 实现,格式和 .xml/.yml 的差不多,不过如果专用与 OpenCV 的数据读写,还是用 .xml/.y ...
获取txt文件指定行内容
#!/usr/bin/python num=0; ni=open("C:\Python34\ceshi.txt") for line in ni: num=num+1; #表示行 ...
Linux平台下利用系统接口函数按照行读写文件
要求:支持大文件(1M)一次性读入源代码如下: #include<stdio.h> #include<fcntl.h> #include<stdlib.h> #i ...
如何把一个TXT文本文件按行数分割成多个文本文件
2011-04-27 12:00:24| 分类: 默认分类 |字号订阅网上有很多文本分割软件都是按字节大小来分割的,主要用于小说类的文本分割,对于比较有规则的内容按行数进行分割非常不方便 ...

随机推荐

20191121-2 Final发布
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/10062 操作视频:https://www.bilibili.com/vi ...
[**P2766** 最长不下降子序列问题](https://www.luogu.org/problemnew/show/P2766)
P2766 最长不下降子序列问题考虑我们是如何\(dp\)这个\(LIS\)的. 我们是倒着推,设置\(dp(i)\)代表以\(i\)为起点的\(LIS\)是多少.转移太显然了 \[ dp(i)=m ...
使用wordPress搭建个人博客
第一章:前期准备工作现在比较流行的博客社区有博客园.开源中国.思否.掘金.CSDN.简书等等,平时可以在自己喜欢的社区分享交流相关专业知识.如果你想拥有一个自己的博客,下面就跟我一起了解一下,我 ...
Markdown数学符号
上标语法: x^2 效果: \(x^2\) 下标语法: x_i 效果: \(x_i\) 整体语法: x^{2y} 效果: \(x^{2y}\) 大括号语法: \{\} 效果: \(\{\}\) ...
Django 单表查询
前言如何只单独测试django中的某一个py文件呢?或者说如何书写测试脚本? 我们可以在任意一个py文件(应用下的tests或者自己新建一个)中书写以下代码: 前期准备创建一个电影表 class ...
Linux下搭建C/C++编程环境
Linux下搭建C/C++编程环境 1.KDevelop下载 wget -O KDevelop.AppImage https://download.kde.org/stable/kdevelop/5. ...
Go Web 编程之程序结构
概述一个典型的 Go Web 程序结构如下,摘自<Go Web 编程>: 客户端发送请求: 服务器中的多路复用器收到请求: 多路复用器根据请求的 URL 找到注册的处理器,将请求交由处理 ...
js实现类选择器和name属性选择器
jQuery的出现,大大的提升了我们操作dom的效率,使得我们的开发更上一层楼,如jQuery的选择器就是一个很强大的功能,它包含了类选择器.id选择器.属性选择器.元素选择器.层级选择器.内容筛选选 ...
SpringBoot+Neo4j在社交电商中，讲述你是怎么被绑定为下线的
上两篇文章我们主要讲解了Neo4j的基本知识以及Neo4j的基本使用,这篇文章我们就以实例来深入的理解一下,我们以社交电商中的绑定关系为例,使用SpringBoot+Neo4j来实现. Neo4j文章 ...
eclipse maven工程错误总汇
1.问题: Target runtime Apache Tomcat v7.0 is not defined 解决方法: right click on your project & ...

C++ 对TXT 的串并行读写

C++ 对TXT 的串并行读写的更多相关文章

随机推荐

热门专题