注册 登录
编程论坛 Python论坛

Python 爬取网页网址的问题

wang12zhe 发布于 2018-03-17 21:33, 1585 次点击
在爬取网址的时候,我查看网址源码,发现网址都是<a href="/item/%E6%95%B0%E6%8D%AE%E6%BA%90" target="_blank">数据源</a>     这种形式的,
这应该是个相对地址,实际的网址应该是https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90  吧。为什么爬虫爬取出来的是http://baike.baidu.com/view/286828.htm呢?
而且我试过,http://baike.baidu.com/view/286828.htm和https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90都能打开相同的网页, 那么二者有什么却别呢?怎么实现相互转换的 ?
1 回复
#2
carbine19852018-04-10 22:57
解码不一样,换个coding,基本就是utf-8 gb2312 GBK
总有一个能正确解析
1