关于压缩文件的一个题
压缩文本文件 背景
压缩是一种有效的减小数据量的方法,目前已经被广泛应用于各种类型的信息系统之中。一种压缩文本文件的方法如下:
原始文本文件中的非字母的字符,直接拷贝到压缩文件中;
原始文件中的词(全部由字母组成),如果是第一次出现,则将该词加入到一个词的列表中,并拷贝到压缩文件中;否则该词不拷贝到压缩文件中,而是将该词在词的列表中的位置拷贝到压缩文件中。
词的列表的起始位置为 1 。
词的定义为文本中由大小写字母组成的最大序列。(单词不跨行)大写字母和小写字母认为是不同的字母,即 abc 和 Abc 是不同的词。词的例子如下:
x-ray 包括两个词 x 和 ray
mary's 包括两个词 mary 和 s
a c-Dec 包括三个词 a 和 c 和 Dec
编写一个程序,输入为一组字符串,输出为压缩后的文本。
输入
输入为一段文本,你可以假设输入中不会出现数字、每行的长度不会超过 80 个字符,并且输入文本的大小不会超过 10M。
输出
压缩后的文本。
测试输入以文本方式显示
1 Please, please do it--it would please Mary very,
2 very much.
3
4 Thanks
期待的输出以文本方式显示
1 Please, please do it--4 would 2 Mary very,
2 7 much.
3
4 Thanks