迅雷也可以?其实现原理是什么?肯定不是整站爬一遍,有没有相关资料?
如果我要用搜索的方法获得站点的静态文件目录树,我就不用问这么多了,我看flashget 站点资源探测器获得目录树的速度很快,是不是有其它方法?
把他们都爬下来,爬的时候匹配一下就行了uri类有提供base地址的,匹配那个http://aaa.aaa.aaa//bbb的爬下来我没试过flashget生成的树,不过如果是目录树,那估计是根据不断采集到的新url的斜杠来动态判断而已
你的意思还是需要整站爬,才能得到目录树。而我的意思是:是不是有简单快捷的方法先得到目录树,然后根据目录树决定爬什么
难道你让我与客户说有个叫wget,你先用wget下完整站,然后删去不要的部分,然后再来运行我的程序?!!!