[求助]如何加速大容量文本文件自我比较,高手请进
已知一个100万行文本文件,每行固定有m个字符,文本文件中任意两个文本行内容都不重复,现要找出符合如下条件的结果:
1、m>n,n不为0,如果某文本行与另一文本行有且只有n个字符不同,则称此两文本行n互异。
2、若某文本行在文件中有且只有i个n互异文本行,则保留此文本行。
3、找出所有存在i个n互异文本行的文本行。
我的做法是:
1、把100万行文本文件复制一份,设为B,源文件为A;
2、读入A的第k行,与B中逐行比较,比较100万次后看是否n互异文本行数为i,是则保留。
3、k从1到100万循环。
这样要作100万*100万次计算,时间耗费很久,我2.8G的机子要30分钟左右,可是我看网络上有的人实现同样的功能只要1分钟,甚至10几秒。
请高手指点下如何能实现10几秒的速度,是要多线程吗?
懂得话给个算法思路,要不给个相关链接,多谢了!!!!