| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2120 人关注过本帖
标题:写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
只看楼主 加入收藏
萌萌01
Rank: 1
等 级:新手上路
帖 子:5
专家分:7
注 册:2018-11-15
结帖率:0
收藏
已结贴  问题点数:10 回复次数:1 
写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
我最近实习,领导让我爬取阿里巴巴供应商数据,刚开始目标是 爬取阿里巴巴 电脑端的数据,发现模拟登陆很麻烦,需要短信验证,而且即使登录也需要不断输入验证码,就换成爬取 阿里巴巴 移动端的数据,不需要登录,但是访问频繁就会返回重定向的页面 404-阿里巴巴 ,即使换代理ip也不行,这是为什么呢?有没有成功爬取阿里巴巴的项目可以借鉴一下?
搜索更多相关主题的帖子: 数据 代理 ip 识别 登录 
2018-12-28 15:57
guanyaohao
Rank: 2
等 级:论坛游民
威 望:1
帖 子:4
专家分:15
注 册:2019-1-2
收藏
得分:5 
回复 楼主 萌萌01
我之前有过类似的情况, 使用代理代码写得不规范;  在一个有可能是代理网站跟爬取网站有合作关系(一爬虫大牛给我的答案) ; 代理不是高密代理,哪怕20个里面有1个不是高密代理,数量多了也能被检测出来, 所以监测之前先监测一下是不是高密代理。
总的来说,有一个高质量的代理ip池很重要
2019-01-02 18:04
快速回复:写爬虫爬取阿里巴巴数据,为什么使用高匿代理ip仍然会被识别出来呢?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.017242 second(s), 9 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved