Python 爬取网页网址的问题 - Python论坛

| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛 |

编程论坛 → 开发语言 → 『 Python论坛』 → Python 爬取网页网址的问题

我的收件箱(0)

欢迎加入我们，一同切磋技术

共有 1504 人关注过本帖

标题：Python 爬取网页网址的问题

只看楼主加入收藏

wang12zhe

等　级：新手上路
帖　子：6
专家分：0
注　册：2015-1-15
结帖率：0

楼主

问题点数：0 回复次数：1

Python 爬取网页网址的问题

在爬取网址的时候，我查看网址源码，发现网址都是<a href="/item/%E6%95%B0%E6%8D%AE%E6%BA%90" target="_blank">数据源</a> 这种形式的，
这应该是个相对地址，实际的网址应该是https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90 吧。为什么爬虫爬取出来的是http://baike.baidu.com/view/286828.htm呢？
而且我试过，http://baike.baidu.com/view/286828.htm和https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90都能打开相同的网页，那么二者有什么却别呢？怎么实现相互转换的？