注册 登录
编程论坛 Python论坛

爬虫被屏蔽,如何添加一个请求头部,模拟浏览器登录

廉价的咖啡 发布于 2016-10-12 21:48, 7700 次点击
各位朋友你们好!    嘻嘻,我是一名自学python的小白,如觉得问题对于您来说简单,还请您谅解小白
我在联练习scrapy安装与真的快速上手——爬取豆瓣9分榜单,在这里在settings.py文件夹下添加了USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'
这样一句代码,我就是不明白了,这个是怎么来的,我在网站界面 “查看页面源代码”中并没有法相与此相同的代码,想问这个是怎么来的,并且要是在http://book.网址中如何编写这样的代码?

还请各位朋友,帮帮我的忙!
2 回复
#2
cpxuvs2016-10-12 23:18
建议你先去学习一下Python的cookie,http这些模块,弄清楚浏览器访问的过程。
然后再来弄这个。

User Agent用户代理,就是指浏览器,它包括了一些客户端硬件平台,软件信息,个人设置等信息。
User Agent都以 “Mozilla”开头,表明自己是Mozilla兼容的。
#3
飞奔的大蟒2016-10-18 13:46
这是把你的爬虫模拟成firefox浏览器,这样豆瓣服务器那边就以为你的爬虫是用户的浏览器访问,不然被豆瓣服务器检测出来你的是爬虫,他会封你的IP的,让你访问不了他们的服务器
1