用位图排序无重复数据集实例代码(C++版)
《Programming Pearls》(编程珠玑下载)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下。
一、主要思想
位图排序的思想就是在内存中申请一块连续的空间作为位图,初始时将位图的每一位都置为0,然后依次读取待排序文件的整数,将整数所在的位设置为1,最后扫描位图,如果某一位为1,则说明这个数存在,输出到已排序文件。比如待排序的数据S={3,0,4,1,7,2,5},max(S)=7,我们可以设置一个八位的位图B,将位图的每一位初始为0,即B=[0,0,0,0,0,0,0,0],对S中的每一个整数d,设置B[d]=1,即B=[1,1,1,1,1,1,0,1],最后扫描位图,对位图的每一位i,如果B[i]==1,则输出i到已排序文件,排序后的S={0,1,2,3,4,5,7}。
整个过程只需要遍历一遍待排序文件和位图,时间复杂度O(n),需要的辅助空间为(max(S)/8)B。虽然这个排序算法只能在无重复的整数集上运行,但对于有些需求,确实做到高效实现,比如说给手机号码排序,手机号码11位,第一位始终为1,理论上可以有10^10个号码,但一些号码未发放,即有些号码在系统中不存在,假设系统中有50%的合法号码,每个号码用long int表示,这么多号码所需要的空间为50%*(10^10)*4B=20GB,不能放在内存中进行快速排序。一个可选的方案是分多趟进行归并排序,但需要较长的时间。我们申请一个10^10位的位图,需要的内存是10^10/8B=1.25GB,完全可以在当代的PC机上运行,在扫描位图时,假设某一位i为1,输出文件时,在前面添加一个1,例如i=3885201314,输出为13885201314。
二、算法实现
用c语言实现的话,需要自己封装位图操作,这里需要用到三个操作:设置位图的所有位为0(setAllZero);设定指定的位为1(setOne);查看指定的位是否为1(find);代码如下:
#include <malloc.h>
#include <stdlib.h>
#include <stdio.h>
#include <time.h>
#include <math.h>
#define MAX_NUM 16777216//最大的数,也就是需要的位
#define BYTE_NUM (1+MAX_NUM/8)//字节数
#define MASK 0x07
void setAllZero(unsigned char *p,long size);
void setOne(unsigned char *p,long loc);
int find(unsigned char *p,long loc);
bool getSorted(unsigned char *bitmap,char *fileName);
bool setBitmap(unsigned char *bitmap,char *fileName);
int bitmapSort();
int main(){
return bitmapSort();
}
int bitmapSort(){
unsigned char *bitmap; //位图指针
bitmap = (unsigned char *)malloc(BYTE_NUM*sizeof(unsigned char));
if(bitmap == NULL){
printf("Malloc failed\n");
return -1;
}
setAllZero(bitmap,BYTE_NUM);//将位图所有位设置为0
setBitmap(bitmap,"phoneNumber.txt");//扫描待排文件,将位图对应位设置为1
getSorted(bitmap,"bitmapSort.txt"); //扫描位图,将位图为1的位号输出到文件
free(bitmap);//释放位图
return 0;
}
/***********设置待排序数据的位图**************/
bool setBitmap(unsigned char *bitmap,char *fileName){
FILE *readFp;
printf("Setting bitmap...\n");
readFp = fopen(fileName,"r");
if(readFp == NULL)
return false;
long phoneNum=0;
while(fscanf(readFp,"%ld\n",&phoneNum) != EOF){
setOne(bitmap,phoneNum);//将 phoneNum位设置为1
}
fclose(readFp);
return true;
}
/*****顺序遍历位图输出记录,从而实现排序****************/
bool getSorted(unsigned char *bitmap,char *fileName){
printf("Search bitmap...\n");
FILE *writeFp;
writeFp = fopen(fileName,"w");
if(writeFp == NULL)
return false;
long phoneNum=0;
for(phoneNum = 0; phoneNum < MAX_NUM; phoneNum += 1){
if(find(bitmap,phoneNum)){
fprintf(writeFp,"%ld\n",phoneNum);
}
}
fclose(writeFp);
return true;
}
/******先将位图清零********/
void setAllZero(unsigned char *bitmap,long size){
for(long i=0;i<size;i++)
*(bitmap+i) &= 0;
}
/*************************************************
将指定的位置为1
(loc>>3)相当于整除2^3=8,即定位到字节数,MASK=0x07,loc&MASK相当于loc%8
***************************************************/
void setOne(unsigned char *bitmap,long loc){
*(bitmap+(loc>>3)) |= (1<<(loc&MASK));//
}
/******查找指定的位是否为1********/
int find(unsigned char *bitmap,long loc){
return ((*(bitmap+(loc>>3))) & (1<<(loc&MASK))) == (1<<(loc&MASK));
}
C++的STL中有一个数据结构bitset,操作位图很方便。
#include <bitset>
#define MAX_NUM 4000000//最多的数,即需要的位数
using namespace std;
int main(){
FILE *readFp,*writeFp;
readFp = fopen("phoneNumber1.txt","r");
writeFp = fopen("bitsetSorted.txt","w");
bitset<MAX_NUM> bitmap;
for(long i=0;i<MAX_NUM;i++){//先将位图初试化为0
bitmap.set(i,0);
}
printf("Begin set bitmap...\n");
long number = 0;
while(fscanf(readFp,"%ld\n",&number) != EOF){
bitmap.set(number,1);//将number所在位设置为1
}
printf("Begin search bitmap...\n");
for(long i=0;i<MAX_NUM;i++){
if(bitmap[i] == 1)//将位1的位输出到已排序文件
fprintf(writeFp,"%ld\n",number);
}
fclose(writeFp);
fclose(readFp);
}
排序算法很快就写好了,就开始生成测试数据,想生成0—2^31的乱序数据集还真不容易,首先要保证不重复,第二要丢掉40%的数(无效手机号码),第三要尽可能的乱序,捣了很久,最终还是找到了实现办法,生成了12GB的数据集,关于生成这个数据集的办法,欢迎一起讨论,我将会在下一篇中总结一下我的方法。
完整的代码可以参考github。
上一篇:C连接Mysql数据库代码
栏 目:C语言
下一篇:C语言解3元1次方程组 用初中学的最基本的联合消元法
本文地址:https://www.xiuzhanwang.com/a1/Cyuyan/3914.html
您可能感兴趣的文章
- 04-02c语言函数调用后清空内存 c语言调用函数删除字符
- 04-02func函数+在C语言 func函数在c语言中
- 04-02c语言用函数写分段 用c语言表示分段函数
- 04-02c语言编写函数冒泡排序 c语言冒泡排序法函数
- 04-02c语言分段函数怎么求 用c语言求分段函数
- 04-02c语言调用函数求fibo C语言调用函数求阶乘
- 01-10数据结构课程设计-用栈实现表达式求值的方法详解
- 01-10使用OpenGL实现3D立体显示的程序代码
- 01-10HDOJ 1443 约瑟夫环的最新应用分析详解
- 01-10用贪心法求解背包问题的解决方法
阅读排行
本栏相关
- 04-02c语言函数调用后清空内存 c语言调用
- 04-02func函数+在C语言 func函数在c语言中
- 04-02c语言的正则匹配函数 c语言正则表达
- 04-02c语言用函数写分段 用c语言表示分段
- 04-02c语言中对数函数的表达式 c语言中对
- 04-02c语言编写函数冒泡排序 c语言冒泡排
- 04-02c语言没有round函数 round c语言
- 04-02c语言分段函数怎么求 用c语言求分段
- 04-02C语言中怎么打出三角函数 c语言中怎
- 04-02c语言调用函数求fibo C语言调用函数求
随机阅读
- 08-05dedecms(织梦)副栏目数量限制代码修改
- 08-05DEDE织梦data目录下的sessions文件夹有什
- 01-10SublimeText编译C开发环境设置
- 01-10使用C语言求解扑克牌的顺子及n个骰子
- 08-05织梦dedecms什么时候用栏目交叉功能?
- 01-11Mac OSX 打开原生自带读写NTFS功能(图文
- 04-02jquery与jsp,用jquery
- 01-11ajax实现页面的局部加载
- 01-10C#中split用法实例总结
- 01-10delphi制作wav文件的方法