写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
我最近实习,领导让我爬取阿里巴巴供应商数据,刚开始目标是 爬取阿里巴巴 电脑端的数据,发现模拟登陆很麻烦,需要短信验证,而且即使登录也需要不断输入验证码,就换成爬取 阿里巴巴 移动端的数据,不需要登录,但是访问频繁就会返回重定向的页面 404-阿里巴巴 ,即使换代理ip也不行,这是为什么呢?有没有成功爬取阿里巴巴的项目可以借鉴一下?
回复 楼主 萌萌01
我之前有过类似的情况, 使用代理代码写得不规范; 在一个有可能是代理网站跟爬取网站有合作关系(一爬虫大牛给我的答案) ; 代理不是高密代理,哪怕20个里面有1个不是高密代理,数量多了也能被检测出来, 所以监测之前先监测一下是不是高密代理。总的来说,有一个高质量的代理ip池很重要