| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 7623 人关注过本帖
标题:爬虫被屏蔽,如何添加一个请求头部,模拟浏览器登录
只看楼主 加入收藏
廉价的咖啡
Rank: 2
来 自:湖北 荆门
等 级:论坛游民
威 望:2
帖 子:53
专家分:17
注 册:2014-10-9
结帖率:72.73%
收藏
已结贴  问题点数:20 回复次数:2 
爬虫被屏蔽,如何添加一个请求头部,模拟浏览器登录
各位朋友你们好!    嘻嘻,我是一名自学python的小白,如觉得问题对于您来说简单,还请您谅解小白
我在联练习scrapy安装与真的快速上手——爬取豆瓣9分榜单,在这里在settings.py文件夹下添加了USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'
这样一句代码,我就是不明白了,这个是怎么来的,我在网站界面 “查看页面源代码”中并没有法相与此相同的代码,想问这个是怎么来的,并且要是在http://book.网址中如何编写这样的代码?

还请各位朋友,帮帮我的忙!
搜索更多相关主题的帖子: Windows 浏览器 Firefox 源代码 python 
2016-10-12 21:48
cpxuvs
Rank: 3Rank: 3
等 级:论坛游侠
威 望:3
帖 子:45
专家分:142
注 册:2015-12-22
收藏
得分:20 
建议你先去学习一下Python的cookie,http这些模块,弄清楚浏览器访问的过程。
然后再来弄这个。

User Agent用户代理,就是指浏览器,它包括了一些客户端硬件平台,软件信息,个人设置等信息。
User Agent都以 “Mozilla”开头,表明自己是Mozilla兼容的。
2016-10-12 23:18
飞奔的大蟒
Rank: 3Rank: 3
等 级:论坛游侠
威 望:1
帖 子:13
专家分:100
注 册:2015-11-26
收藏
得分:0 
这是把你的爬虫模拟成firefox浏览器,这样豆瓣服务器那边就以为你的爬虫是用户的浏览器访问,不然被豆瓣服务器检测出来你的是爬虫,他会封你的IP的,让你访问不了他们的服务器
2016-10-18 13:46
快速回复:爬虫被屏蔽,如何添加一个请求头部,模拟浏览器登录
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.022486 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved