| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1378 人关注过本帖
标题:为何要学分布式?
只看楼主 加入收藏
zq3332043931
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2017-8-15
收藏
 问题点数:0 回复次数:0 
为何要学分布式?
一般要做爬虫的话,需要进行站点页面的代码采集,以及图片文字的分析,存储,索引等工作
。如果要求高一些的话,还要有页面的去噪声,权值优化等处理。这需要结合java的网络请求,
搜索引擎的相关算法,中文分词以及倒排索引之类等等,还要考虑是否结合数据库使用。另外,
为了跨过网站的一些拦截与屏蔽的功能,你还要做相关的代理处理,伪造爬虫头部信息等。所以
,三个月的时间,结合实践与代码,感觉基本做不到太多的。
像资源的分类存储,字符集的识别,扫描频率啊之类的,太多问题了。

这还是单机的情况下,分布式你更是难上加难了,可以研究一下elasticsearch,也许对你有一些
帮助。想要当好搜索引擎工程师,大师的爬虫设计经验是必需的。‘
我们跟腾讯课堂合同开设了java分布式的技术分享:
图片附件: 游客没有浏览图片的权限,请 登录注册
搜索更多相关主题的帖子: 分布 索引 处理 结合 搜索引擎 
2017-08-15 17:46
快速回复:为何要学分布式?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016268 second(s), 9 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved