网页采集规则的保存类型和使用方式
各位前辈,网页采集软件中采集规则使用那种方式保存以及怎样使用更好?比如,sina博文的采集规则(比如:从源码中抽取博文标题、内容和博文时间三项,其他内容不要)。采集1000篇sina博文。可以将这个规则使用一个数据表来保存,名字叫做“sina博文规则表”。网易博文的采集规则(比如:从源码中抽取博文标题、内容和作者三项,其他内容不要)。采集2000篇网易博文。可以将这个规则使用一个数据表来保存,名字叫做“网易博文规则表”。
那么当采集的时候,每一篇文章都要读数据表来获取采集规则,要读3000次(sina博文规则表要读1000次;网易博文规则表要读2000次)。这样频繁访问数据表的操作显然不是做好的,请问有什么好的方式呢?
谢谢各位!
[ 本帖最后由 bccnsir 于 2012-9-4 12:37 编辑 ]