如何给10^7个数据量的磁盘文件排序--bitset

题目：

输入：给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数），且其中每个数都小于等于n，n=10^7。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。

分析：

1、归并排序。你可能会想到把磁盘文件进行归并排序，但题目要求你只有1MB的内存空间可用，所以，归并排序这个方法不行。
2、位图方案。熟悉位图的朋友可能会想到用位图来表示这个文件集合。例如正如编程珠玑一书上所述，用一个20位长的字符串来表示一个所有元素都小于20的简单的非负整数集合，边框用如下字符串来表示集合{1,2,3,5,8,13}：

0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0

上述集合中各数对应的位置则置1，没有对应的数的位置则置0。

说明：使用bitset方法必须满足的条件是：不能有重复的数字

#include <assert.h>

#include <bitset>

#include <iostream>

using namespace std;

const int maxEachScan = ;

const int maxSortNumber = ;

void SortBigNumber()

{

    FILE *fp_unSortFile = fopen("d:\\unSort_data.txt","r+");

    FILE *fp_SortFile = fopen("d:\\sort_data.txt", "w+");

    assert(fp_unSortFile);

    bitset<maxEachScan> bit_map;        //因为数据比较大，分成两次执行,这里相当于定义了一个数组来保存所有结果

    bit_map.reset();                                   //置0

    int num;

    /*第一遍遍历*/

    while (fscanf(fp_unSortFile,"%d",&num)!=EOF)

    {

        if (num < maxEachScan)

            bit_map.set(num, );                //bitset内部机制,保存在bit_map中

    }

    for (int i = ; i < maxEachScan; i++)   //遍历bit_map

    {

        if (bit_map[i] == )

            fprintf(fp_SortFile, "%d", i);      //这里就是将数据用bit保存（放在bitmap中），再输出的时候输出其对应的数字

    }

    /*第二遍遍历*/

    bit_map.reset();

    fseek(fp_unSortFile,,SEEK_SET);  //移到文本的开头

    while (fscanf(fp_unSortFile,"%d",&num)!=EOF)

    {

        if (num >= maxEachScan&&num < maxSortNumber)

            bit_map.set(num-maxEachScan, );

    }

    for (int i = ; i < maxEachScan; i++)

    {

        if (bit_map[i] == )

            fscanf(fp_SortFile,"%d",i+maxEachScan);

    }

    fclose(fp_unSortFile);

    fclose(fp_SortFile);

}

需要用到的函数：

1.fseek：用来将指针移到指定位置，本代码主要是移动到文本开头，进行第二次扫描

2.bitset 容器

bitset:: reset 用来将bit位全部置0

bitset:: set 给bit位置设置0或者1 来表示这个bit有没有元素

// bitset::set

#include<iostream>// std::cout

#include<bitset>// std::bitset

int main ()

{

std::bitset<> foo;

std::cout << foo.set()<<'\n';//

std::cout << foo.set(,)<<'\n';//

std::cout << foo.set()<<'\n';//

return0;

}

Edit&Run

Output:

3.文件的读取

fscanf(fp_unSortFile,"%d",&num)!=EOF %d可以限定我们读取的是int类型EOF判断文件尾部

参考：http://blog.csdn.net/v_JULY_v/article/details/6451990

来自为知笔记(Wiz)

如何给10^7个数据量的磁盘文件排序--bitset的更多相关文章

Mysql大数据量查询优化
一般MYSQL最基本的分页方式: select * from content order by id desc limit 0, 10 在中小数据量的情况下,这样的SQL足够用了,唯一需要注意的问题就 ...
Mysql优化-大数据量下的分页策略
一.前言通常,我们分页时怎么实现呢? 1 SELECT * FROM table ORDER BY id LIMIT 1000, 10; 但是,数据量猛增以后呢? 1 SELECT * FROM t ...
mysql/oracle jdbc大数据量插入优化
10.10.6 大数据量插入优化在很多涉及支付和金融相关的系统中,夜间会进行批处理,在批处理的一开始或最后一般需要将数据回库,因为应用和数据库通常部署在不同的服务器,而且应用所在的服务器一般也不会 ...
这么设计，Redis 10亿数据量只需要100MB内存
本文主要和大家分享一下redis的高级特性:bit位操作. 本文redis试验代码基于如下环境: 操作系统:Mac OS 64位版本:Redis 5.0.7 64 bit 运行模式:standalo ...
大数据量冲击下Windows网卡异常分析定位
背景 mqtt的服务端ActiveMQ在windows上,多台PC机客户端不停地向MQ发送消息. 现象观察MQ自己的日志data/activemq.log里显示,TCP链接皆异常断开.此时尝试从服务 ...
POI3.8解决导出大数据量excel文件时内存溢出的问题
POI3.8的SXSSF包是XSSF的一个扩展版本,支持流处理,在生成大数据量的电子表格且堆空间有限时使用.SXSSF通过限制内存中可访问的记录行数来实现其低内存利用,当达到限定值时,新一行数据的加入 ...
Oracle普通表->分区表转换(9亿数据量)
背景介绍: 环境:Linux 5.5 + Oracle 10.2.0.4 某普通表T,由于前期设计不当没有分区,如今几年来的数据量已达9亿+, 空间占用大约350G,在线重定义为分区表不现实,故采取申 ...
jquery.datatable.js与CI整合异步加载（大数据量处理）
http://blog.csdn.net/kingsix7/article/details/38928685 1.CI 控制器添加方法 $this->show_fields_array=arra ...
MySQL随机获取数据的方法，支持大数据量
最近做项目,需要做一个从mysql数据库中随机取几条数据出来. 总所周知,order by rand 会死人的..因为本人对大数据量方面的只是了解的很少,无解,去找百度老师..搜索结果千篇一律.特发到 ...

随机推荐

对象的类型转换P109
类作为一种应用数据类型,和基本数据类型的变量一样.不同类中存在对象与对象之间的类型转问题,对象的类型转换只能在具有继承关系的父类对象-----子类对象之间进行子类通常比父类拥有更多的域和 ...
Btrace入门到熟练小工完全指南
BTrace是神器,每一个需要每天解决线上问题,但完全不用BTrace的Java工程师,都是可疑的. BTrace的最大好处,是可以通过自己编写的脚本,获取应用的一切调用信息.而不需要不断地修改代码, ...
【C#设计模式——创建型模式】工场方法模式
工场方法模式对简单工场模式进行了乔庙的扩展,不是用一个专门的类来决定实例化哪一个子类.相反,超类把这种决定延迟到每个子类.这种模式实际上没有决策点,就是没有直接选择一个子类实例化的决策. 看书上的例子 ...
UserAccountInfo时间倒计时
界面如下: 代码如下: using System;using System.Collections.Generic;using System.ComponentModel;using System.D ...
自己动手实现STL 02：构造析构的基本工具construct()和destroy()(stl_construct.h)
一.前言上一篇,我先完成了对内存配置器的实现.然而后面在内存上的算法还依赖于两个全局函数,construct()和destroy(),前者负责在指定的内存上调用对象的构造函数,在内存上构造出对象.后 ...
Codeforces Round #206 (Div. 1)B(记忆化）
这题刚开始理解错题意了以为只能往右和下走这题挺好的看题解看了N久啊二维的DP 第一维表示走到第几步可以画一个正方形以左上角斜着划线第i步走的点只能是第i条线上的点而dp的第二维就表示 ...
UVa 11997 (优先队列多路归并) K Smallest Sums
考虑一个简单的问题,两个长度为n的有序数组A和B,从每个数组中各选出一个数相加,共n2中情况,求最小的n个数. 将这n2个数拆成n个有序表: A1+B1≤A1+B2≤... A2+B1≤A2+B2≤. ...
BZOJ_1028_[JSOI2007]_麻将_(模拟+贪心)
描述 http://www.lydsy.com/JudgeOnline/problem.php?id=1028 同一种花色的牌,序数为$1,2,...,n$.定义"和了"为手上 ...
Dapper使用在WCF上总是说Service找不到
原因是用Console Application 做宿主的时候,创建的时候默认是Client Profile 4 ,坑爹啊.改成Net framework 4 即可.
UVa 524 Prime Ring Problem【回溯】
题意:给出n,把从1到n排成一个环,输出相邻两个数的和为素数的序列照着紫书敲的, 大概就是这个地方需要注意下,初始化的时候a[0]=1,然后dfs(1),从第1个位置开始搜 #include< ...

如何给10^7个数据量的磁盘文件排序--bitset

如何给10^7个数据量的磁盘文件排序--bitset的更多相关文章

随机推荐

热门专题