/*========================================*/
/* 课题[3]哈夫曼编码实现文件的压缩功能 */
/* */
/* */
/*========================================*/
#include<stdio.h> //包含头文件
#include<stdlib.h>
#include<string.h>
#include<conio.h>
#include<iostream.h>
#define MAX_SINGLECODE 10 //单个字符最大码长
#define MAX_STRING 10000 //要编码的字符串的最大长度
#define MAX_CODESTRING 50000 //产生的二进制码的最大长度
#define MAX_WORDS 1000 //要编码的字符串中字符种数最大值
#define END_TREE 30000 //树部分存储的结束符
#define PATH 50 //路径的最大字符
/*======数据结构定义部分======*/
/*哈夫曼树结构定义,其中的next域用于链表的操作*/
typedef struct Huffmantree
{
char ch; //字符部分
int weight; //结点权值
int mark; //标记是否加入树中
struct Huffmantree *parent,*lchild,*rchild,*next;
}HTNode,*LinkTree;
/*****编码字典结构定义*****/
typedef struct //ch为字符值,code[]为该字符的哈夫曼编码
{
char ch; //字符部分
char code[MAX_SINGLECODE]; //编码部分
}CodeDictionary;
/*======子函数======*/
/*===================压缩功能实现部分=====================*/
/*功能:读取.TXT文件并将其中的字符中保存到string[]中*/
void readFile(char *string)
{
FILE *fp;
int i;
char ch; //记录读入的字符
char path[PATH]; //文本文件的读路径
cout<<"请输入要压缩的.txt文件地址:(无需扩展名)"<<endl;
gets(path);
if((fp=fopen(strcat(path,".txt"),"r"))==NULL) //只读方式打开一个文件
{
cout<<"\n路径不正确!\n"<<endl;
getch();
return;
}
ch=fgetc(fp); //循环将文件内的字符输入到数组string[]中
for(i=0;ch!=EOF;i++)
{
string[i]=ch;
ch=fgetc(fp);
}
string[i]='\0'; //数组末尾加上结束标志'\o'
fclose(fp);
}
/*功能对string[]中的字符处理,将相同的舍去,并增加权值*/
LinkTree setWeight(char *string)
{
int i=0; //文件字符串下标
LinkTree tree; //头指针
LinkTree ptr,beforeptr; //创建指针与其前驱
HTNode *node;
if((tree=(LinkTree)malloc(sizeof(HTNode)))==NULL)//创建链表的头结点
return NULL; //内存不足
tree->next=NULL;
for(i=0;string[i]!='\0';i++)
{
ptr=tree;
beforeptr=tree;
if((node=(HTNode *)malloc(sizeof(HTNode)))==NULL)
return NULL; //建立新的结点
node->next=NULL;
node->parent=NULL;
node->lchild=NULL;
node->rchild=NULL;
node->mark=0;
node->ch=string[i];
node->weight=1;
if(tree->next==NULL) //如果是第一个非头结点
tree->next=node;
else
{
ptr=tree->next;
while(ptr&&ptr->ch!=node->ch) //查找相同字符
{
ptr=ptr->next;
beforeptr=beforeptr->next;
}
if(ptr&&ptr->ch==node->ch) //如果链表中某结点的字符与新结点的字符相同
{
ptr->weight++; //将该结点的权加一
free(node);
}
else //将新结点插入链表后
{
node->next=beforeptr->next;
beforeptr->next=node;
}
}
}
return tree; //返回头指针
}
/*功能:将链表中的含权字符按权的从小到大排列并输入到一链表*/
LinkTree sortNode(LinkTree tree)
{
LinkTree head; //头指针
LinkTree ph,beforeph; //创建指针及其前驱
LinkTree pt;
if((head=(LinkTree)malloc(sizeof(HTNode)))==NULL)//创建新链表的头结点
return NULL;
head->next=NULL;
ph=head;
beforeph=head;
while(tree->next)
{
pt=tree->next; //取被操作链表的头结点
tree->next=pt->next;
pt->next=NULL;
ph=head->next;
beforeph=head;
if(head->next==NULL)
head->next=pt; //创建当前操作链表头结点
else
{
while(ph&&ph->weight<pt->weight) //将被操作结点插入相应位置
{
ph=ph->next;
beforeph=beforeph->next;
}
pt->next=beforeph->next;
beforeph->next=pt;
}
}
free(tree); //释放含权树
return head; //返回排序后的头指针
}
/*用排序后的链表建立哈夫曼树*/
LinkTree createHTree(LinkTree tree)
{
LinkTree pt,q,beforept;
HTNode *newnode;
for(pt=tree->next,q=pt->next;pt!=NULL&&q!=NULL;pt=tree->next,q=pt->next)
//pt、q初值为头结点后的两个结点,即最小权结点
{
tree->next=q->next; //取出将最小的两个结点
q->next=NULL;
pt->next=NULL;
if((newnode=(HTNode *)malloc(sizeof(HTNode)))==NULL)
//申请新结点作为哈夫曼树的中间结点
return NULL;
newnode->next=NULL;
newnode->mark=0; //标记
newnode->lchild=pt; //取链表头结点后的两个结点作为新结点的左、右孩子
newnode->rchild=q;
pt->parent=newnode;
q->parent=newnode;
newnode->weight=pt->weight+q->weight; //权值等于孩子权值相加
pt=tree->next;
beforept=tree;
if(pt!=NULL&&pt->weight>=newnode->weight)
{
newnode->next=beforept->next; //将新结点插入原链表的相应位置
beforept->next=newnode;
}
else
{
while(pt!=NULL&&pt->weight<newnode->weight)//循环找出newnode结点的插入位置
{
pt=pt->next;
beforept=beforept->next;
}
newnode->next=beforept->next;
beforept->next=newnode;
}
}
return (tree->next);
}
/*对哈夫曼树进行编码,并将关键字保存如数组codedictionary[]中*/
void codeHTree(LinkTree tree,CodeDictionary *codedictionary)
{
int index=0,k=0;
char code[MAX_SINGLECODE]; //用于统计每个字符的哈夫曼编码
LinkTree ptr=tree; //从树的根结点开始
if(ptr==NULL)
{
cout<<"要压缩的文件是空的!\n"<<endl;
exit(0);
}
else
{
while(ptr->lchild&&ptr->rchild&&ptr->mark==0)
{
while(ptr->lchild&&ptr->lchild->mark==0)
{
code[index++]='0'; //左支路编码为0
ptr=ptr->lchild;
if(!ptr->lchild&&!ptr->rchild) //如果没有左右孩子,即叶子结点
{
ptr->mark=1; //作标记,表明该字符已被编码
code[index]='\0'; //编码0-1字符串结束
codedictionary[k].ch=ptr->ch;//给字典赋字符值
for(index=0;code[index]!='\0';index++)
codedictionary[k].code[index]=code[index];//给字典赋码值
codedictionary[k].code[index]='\0';
k++;
ptr=tree; //指针复位
index=0;
}
}
if(ptr->rchild&&ptr->rchild->mark==0)
{
ptr=ptr->rchild;
code[index++]='1'; //右支路编码为1
}
if(!ptr->lchild&&!ptr->rchild) //如果没有左右孩子,即叶子结点
{
ptr->mark=1;
code[index++]='\0';
codedictionary[k].ch=ptr->ch; //给字典赋字符值
for(index=0;code[index]!='\0';index++)
codedictionary[k].code[index]=code[index];//给字典赋码值
codedictionary[k].code[index]='\0';
k++;
ptr=tree;
index=0;
}
if(ptr->lchild->mark==1&&ptr->rchild->mark==1)//如果左右孩子都已标记
{
ptr->mark=1;
ptr=tree;
index=0;
}
}
}
cout<<"\n"<<endl;
}
/*将整个字符串转化为0-1的字符串*/
void compressString(char *string,CodeDictionary *codedictionary,char *codestring)
{
int i=0,j=0,k=0,m;
while(string[i]) //整个文件字符串没结束时
{
while(string[i]!=codedictionary[j].ch&&j<MAX_WORDS)
//找与对应字符相同的字符
j++;
if(string[i]==codedictionary[j].ch) //如果找到与对应字符相同的字符
for(m=0;codedictionary[j].code[m];m++,k++)
codestring[k]=codedictionary[j].code[m];
j=0; //字典复位
i++;
}
codestring[k]='\0'; //标记结束
}
/*保存按权排列的链表和编码后的字符串*/
void writeCode(LinkTree tree,char *string)
{
FILE *fp;
int i;
int weight; //记录写入的权值
char ch; //记录写入的字符
LinkTree p;
char path[PATH]; //0-1码文件的写路径
cout<<"请输入压缩后的保存路径及文件名:(无需扩展名)"<<endl;
gets(path);
if((fp=fopen(strcat(path,".wp"),"w+"))==NULL)
{
cout<<"\n文件路径出错!\n"<<endl;
getch();
return;
}
p=tree->next;
/*按权排列部分写入文件前部分*/
do
{
ch=p->ch;
weight=p->weight;
fprintf(fp,"%c%d",ch,weight);
p=p->next;
}while(p);
fprintf(fp,"%c%d",'^',END_TREE);
fseek(fp,sizeof(char),1); //空出区分位,用于解码时区分链表和编码
/*0-1码写入文件后部分*/
for(i=1;string[i-1];i++)
{
if(string[i-1]=='1')
{
ch<<=1;
ch+=1;
}
if(string[i-1]=='0')
{
ch<<=1;
ch+=0;
}
if(i%8==0)
fputc(ch,fp);
}
cout<<"\n压缩成功!\n"<<endl;
getch();
fclose(fp);
}
/*释放哈夫曼树所占用的空间*/
void deleteTree(LinkTree tree)
{
LinkTree ptr=tree;
if(ptr)
{
deleteTree(ptr->lchild); //第归处理左子树
deleteTree(ptr->rchild); //第归处理右子树
free(ptr); //释放结点
}
}