| 网站首页 | 业界新闻 | 群组 | 交易 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
共有 197 人关注过本帖
标题:写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
只看楼主 加入收藏
本帖由 静夜思 于 2018-12-28 16:31 审核通过
萌萌01
Rank: 1
等 级:新手上路
帖 子:5
专家分:7
注 册:2018-11-15
结帖率:0
  已结贴   问题点数:10  回复次数:1   
写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
我最近实习,领导让我爬取阿里巴巴供应商数据,刚开始目标是 爬取阿里巴巴1688.com 电脑端的数据,发现模拟登陆很麻烦,需要短信验证,而且即使登录也需要不断输入验证码,就换成爬取 阿里巴巴1688.com 移动端的数据,不需要登录,但是访问频繁就会返回重定向的页面 404-阿里巴巴 ,即使换代理ip也不行,这是为什么呢?有没有成功爬取阿里巴巴的项目可以借鉴一下?
2018-12-28 15:57
guanyaohao
Rank: 2
等 级:论坛游民
帖 子:4
专家分:15
注 册:2019-1-2
  得分:5 
回复 楼主 萌萌01
我之前有过类似的情况, 使用代理代码写得不规范;  在一个有可能是代理网站跟爬取网站有合作关系(一爬虫大牛给我的答案) ; 代理不是高密代理,哪怕20个里面有1个不是高密代理,数量多了也能被检测出来, 所以监测之前先监测一下是不是高密代理。
总的来说,有一个高质量的代理ip池很重要
2019-01-02 18:04







关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.037111 second(s), 9 queries.
Copyright©2004-2019, BCCN.NET, All Rights Reserved