为何要学分布式？ - JAVA论坛

问题点数：0 回复次数：0

为何要学分布式？

一般要做爬虫的话，需要进行站点页面的代码采集，以及图片文字的分析，存储，索引等工作
。如果要求高一些的话，还要有页面的去噪声，权值优化等处理。这需要结合java的网络请求，
搜索引擎的相关算法，中文分词以及倒排索引之类等等，还要考虑是否结合数据库使用。另外，
为了跨过网站的一些拦截与屏蔽的功能，你还要做相关的代理处理，伪造爬虫头部信息等。所以
，三个月的时间，结合实践与代码，感觉基本做不到太多的。
像资源的分类存储，字符集的识别，扫描频率啊之类的，太多问题了。

这还是单机的情况下，分布式你更是难上加难了，可以研究一下elasticsearch,也许对你有一些
帮助。想要当好搜索引擎工程师，大师的爬虫设计经验是必需的。‘
我们跟腾讯课堂合同开设了java分布式的技术分享：

图片附件: 游客没有浏览图片的权限，请登录或注册

搜索更多相关主题的帖子: 分布　索引　处理　结合　搜索引擎