| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 839 人关注过本帖
标题:请教处理大量数据查重的思路和方法
只看楼主 加入收藏
ictest
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:333
专家分:114
注 册:2010-2-17
结帖率:70%
收藏
已结贴  问题点数:20 回复次数:3 
请教处理大量数据查重的思路和方法
情况说明:
1、一个文件,内有1亿N千万行数据,每行数据为24个字符,这24个字符的字符串组成无规则,1亿N千万行数据无规则排列,需要在这1亿N千万行数据中查找是否有重复的字符串;
2、这单个文件查重完毕后,如果没有重复,与历史N个文件(文件内容格式与条目数同第一条的单个文件)再进行查重,如果没有重复条目,将这个单个文件归于历史文件,等待用于下一个单个文件进行查重。

目前我是这样做的:
1、将这1亿N千万行数据导入空白数据库,进行查重;
2、如果没有重复条目,再将这1亿N千万行数据写入已有历史数据的数据库(先将已有历史数据的数据库另存为新文件),然后进行查重;如果有重复,Msgbox提醒,删除新写入数据的历史数据库,将另存为新文件的历史数据库,改回原文件名;如果没有重复,删除另存为新文件的历史数据库,保留新写入数据的历史数据库。

目前我用的是MDB数据库,单个文件查重不是太慢,但是导入数据库需要不少时间,而且历史数据库每次都导入1亿N千万条数据,很快就会几亿甚至数十亿条、百亿数据的规模,再进行查重,我没试过,估计不会太快,而且运行软件的计算机硬件估计也要很高配置吧?

除去我现在用的这个方法,还有更快并且要求配置不高的方法么,求各位前辈高人赐教。
搜索更多相关主题的帖子: 数据库 数据 文件 历史 行数 
2023-05-17 00:50
cwa9958
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:76
帖 子:279
专家分:1367
注 册:2006-6-25
收藏
得分:0 
恩恩,你原始的文件是什么格式的文件?
2023-05-17 07:53
ictest
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:333
专家分:114
注 册:2010-2-17
收藏
得分:0 
以下是引用cwa9958在2023-5-17 07:53:54的发言:

恩恩,你原始的文件是什么格式的文件?

TXT格式
2023-05-17 08:11
风吹过b
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:364
帖 子:4947
专家分:30084
注 册:2008-10-15
收藏
得分:20 
不要转 mdb ,你可以查一下 mdb 的限制。另外有一个建议是 mdb 保持性能情况下,不建议超过100万记录。你这个数据库,有点超了。
1、上 sql ,如 mssql,mysql。
2、直接用数据引擎打开TXT试试。



授人于鱼,不如授人于渔
早已停用QQ了
2023-05-18 15:32
快速回复:请教处理大量数据查重的思路和方法
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.028819 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved