| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1933 人关注过本帖, 1 人收藏
标题:千万级数据查询问题
只看楼主 加入收藏
blackjack076
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2015-7-16
结帖率:0
收藏(1)
已结贴  问题点数:20 回复次数:24 
千万级数据查询问题
各位好,小弟有个对比用的程序,但是运行时间偏长,要5分钟。 是关于数据对比,打上删除标记的。
A表,两个字段,num和time (数据量是一千3百多万)
B表,一个字段,num       (数据量是十五万)
所有字段均为字符型。
程序如下:
--------------------------------------------------
close all
set talk off
set safe off
? time()    &&运程开始时间

sele 1
use A
reca all
index on num to a
set index to a

sele 2
use B
recall all
index on num to b
set index to b

go top
do whil not eof()
p1=alltr(num)
  sele 1
  seek p1
 if found()
  dele
  sele 2
  dele
 endif
 
  sele 2
  skip
  enddo
close all
  set talk on
  set safe on
  ? time()    &&运行结束时间
------------------------------------------------------------

小弟想问,现在程序是不是最优化了? 最快速了? 还可以优化和提速吗? 万分感谢,盼回复。谢谢。

搜索更多相关主题的帖子: close 
2015-07-16 14:39
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
收藏
得分:3 
效率视实际数据而定,没有实际数据,空口评论你的代码是否高效及如何更高效,那叫清谈。数据库问题,凡是不肯提供数据的,都不值得花力气解答,当然,这只是我的个人态度。

[ 本帖最后由 TonyDeng 于 2015-7-16 14:50 编辑 ]

授人以渔,不授人以鱼。
2015-07-16 14:49
blackjack076
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2015-7-16
收藏
得分:0 
表A中,num字段全是手机号码共11位如“13812345678”,time字段是年月日组成的8位数字如“20150101”
表B中,num字段全是手机号码共11位如“13812345678”
2015-07-16 14:57
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
收藏
得分:0 
算法的实效,与数据的规模和分布有关,这是程序员必须知道的基本道理。某个算法,在开始时是高效的,随着数据量的变化,可能从量变到质变,高效变低效。也有一些算法,针对某种数据分布形式是高效的,但也会遇到现实的数据分布恰好是其克星的情形,最高效会变最低效,这种情况,在算法书上都有讲到。所以,脱离实际数据谈如何这般高效,除了纸上谈兵,没别的意义。

[ 本帖最后由 TonyDeng 于 2015-7-16 15:53 编辑 ]

授人以渔,不授人以鱼。
2015-07-16 15:00
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
收藏
得分:0 
实际上,这是程序设计的问题。需求分析的时候,本来已经可以明确处理办法:既然数据规模可预期是这个数量级,那么在后期再这样批量处理必然是低效的,无论什么算法,都不及在用户界面做删除动作的时候,程序立即把所有牵连的数据一并删掉,此时只是查找一笔记录的消耗而已,还不至于留下不同步数据误导应用的隐患。用户界面做动作,CPU空闲时间多的是,到一百个表中各删一笔记录,也比到现在去删十多万高效得多,也不影响用户响应,那个时候即使停顿半秒也比现在坐数分钟可接受得多。

处理的办法当然还有许多,化整为零等都可以,一切都应围绕系统整体需求来定,割裂一两个功能模块来做,合併起来就未必是那么回事了。

授人以渔,不授人以鱼。
2015-07-16 15:29
TonyDeng
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:贵宾
威 望:304
帖 子:25859
专家分:48889
注 册:2011-6-22
收藏
得分:0 
很多问题,是设计可以解决的,不是非要钻技术牛角尖不可,可惜不少人都是一头扎进技术中乐此不彼,那只是玩头脑风暴,不是实用。

授人以渔,不授人以鱼。
2015-07-16 15:32
blackjack076
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2015-7-16
收藏
得分:0 
这样子, 但是我这个基本上每天用到两次,都是简单对比,打上删除标记, 其实目的,就是剔除 B表中与A表相同的记录。
因为VFP都是初学,所以只能做到写这个简单程序, 路还是很长啊。
2015-07-16 15:50
taifu945
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:80
帖 子:1545
专家分:3298
注 册:2012-7-6
收藏
得分:3 
我看楼主的代码,需求好像是在两表中删除两表NUM字段完全相同的记录?
如果是VFP9.0的话,试试:
SET DELETED OFF
DELETE FROM A WHERE ALLTRIM(NUM) IN (SELECT ALLTRIM(NUM) FROM B)
DELETE FROM B WHERE ALLTRIM(NUM) IN (SELECT ALLTRIM(NUM) FROM A)
不知我理解得对不对。

后面两条命令还可以简化成:
DELETE A FROM B WHERE ALLTRIM(A.NUM) IN (ALLTRIM(B.NUM))
DELETE B FROM A WHERE ALLTRIM(B.NUM) IN (ALLTRIM(A.NUM))


[ 本帖最后由 taifu945 于 2015-7-16 16:05 编辑 ]
2015-07-16 15:56
吹水佬
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:451
帖 子:10607
专家分:43182
注 册:2014-5-20
收藏
得分:3 
回复 楼主 blackjack076
看代码遍历B查找A相同num的记录并找上删除标记。
这样B无需建索引,同时要注意 SET DELETED ON/OFF 的影响。

[ 本帖最后由 吹水佬 于 2015-7-16 16:06 编辑 ]
2015-07-16 16:03
blackjack076
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2015-7-16
收藏
得分:0 
对的,确实是这样,我也试过用这语句运行,但是运行时间过去十几分钟,进度条未动呢,所以放弃了。
2015-07-16 16:09
快速回复:千万级数据查询问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.032307 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved