为何要学分布式?
一般要做爬虫的话,需要进行站点页面的代码采集,以及图片文字的分析,存储,索引等工作。如果要求高一些的话,还要有页面的去噪声,权值优化等处理。这需要结合java的网络请求,
搜索引擎的相关算法,中文分词以及倒排索引之类等等,还要考虑是否结合数据库使用。另外,
为了跨过网站的一些拦截与屏蔽的功能,你还要做相关的代理处理,伪造爬虫头部信息等。所以
,三个月的时间,结合实践与代码,感觉基本做不到太多的。
像资源的分类存储,字符集的识别,扫描频率啊之类的,太多问题了。
这还是单机的情况下,分布式你更是难上加难了,可以研究一下elasticsearch,也许对你有一些
帮助。想要当好搜索引擎工程师,大师的爬虫设计经验是必需的。‘
我们跟腾讯课堂合同开设了java分布式的技术分享: