spider啊spider!2007-03-06 14:132005, August 21, 2:27 AM.
突然有个想法,做一个小程序来分析各个搜索引擎Spider的抓取规律,现有的日志分析程序仅能提供一点点网站访量的基本信息,根本无法提供针对搜索引擎spider的详细分析。
这个小程序最好能提供网站每日被各个spider抓取网页的数量、抓取时间段分布、抓取间隔、抓取时网页状态代码分布等细节信息。然后还有针对每个页面的各个spider的访问情况统计:抓取次数、检查更新频率、状态代码等等。呵呵,如果可能的话,针对网站上的新网页抓取速度研究也是很不错的方向。
研究spider抓取网页的数量、抓取间隔、更新频率你可以明白你的网站被搜索引擎重视的程度,spider是搜索引擎的脸,最能体现搜索引擎对你网站的看法,更新速度越快,那证明你的网站就越受搜索引擎欢迎:一方面新网页总是受到搜索引擎的特殊照顾,排的会比较靠前,更新越快,就越有优势;另一方面谁会花大把的力气在一堆垃圾上呢,它天天抓你网页,当然是把你当宝贝了:)。(谬论哈,谬论)
针对单页面的spider抓取研究也很重要,如果spider总是以比整站平均更新频率高许多的频率抓取某些页面,那就证明搜索引擎十分的重视这些页面,这些页面应该包括两类:索引页和重要内容页面。索引页是spider发现新内容的主要来源,是spider的庄稼地,它要不停的从这里收口粮(比如首页,googlebot差不多每天都要抓一、两次甚至更多);重要的内容页搜索引擎也会很重视,怕错过了重要内容的更新或者这个页面的消失:)。
状态代码也很重要,如果spider总是来爬呀爬,但有更新过网页却总是304,那就要好好研究一下为什么了。404一定要尽量避免,一个满是死链的站点恐怕谁都不喜欢看。200才是我最喜欢看的。
如果真能研究出规律,就可以针对搜索引擎做网站的整体优化、设计,spider喜欢的就多做,spider不喜欢的扔掉也无所谓吧,搜索引擎搜不到,做它有啥用?
每天在看我网站的日志,越来越感到靠偶的脑袋分析是个不可能完成的任务,最早的时候日志只有几M大,很容易就可以分析完,现在的日志有将近200M了,用ultraedit打开需要一分多钟的时间,从日志中抽取spider部分都是很大的麻烦,分析感觉成了不可能完成的任务。尝试用access分析,但是access只能支持几万条数据,好象让猫拉驴车的感觉,机器死掉了也做不完一个查询,其它的数据库没有接触过,看来得从头学习了。
分享一点经验:
msnbot属于细水长流型,每天抓取1500-2000页,不会多也不会少。
baiduspider属于老虎型,一口就会把你的网站整个吃下去,以后也会天天来舔一舔剩下的骨头渣。
googlebot属于高深莫测型,高兴了就十几个IP一起爬,不高兴了爬个首页就走了。除了首页更新频繁、新出网页收录较快以外,暂时分析不出太多的规律,sitemaps也会天天抓几次,但是好象没有效果。
Yahoo! Slurp属于尝鲜型,至少我的网站如此:它只抓取并在搜索结果中更新网站中最新的网页,并且排的十分靠前,旧网页也会抓许多,但是却需要很长时间才能在搜索结果中出现,并且排的都比较靠后。
msn、yahoo、google有个共同的特点就是他会用不同的IP抓取你的网站,baidu等国内的搜索引擎会习惯于始终使用同一个spider抓取你的网站。