| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1534 人关注过本帖
标题:Python 爬取网页网址的问题
只看楼主 加入收藏
wang12zhe
Rank: 1
等 级:新手上路
帖 子:6
专家分:0
注 册:2015-1-15
结帖率:0
收藏
 问题点数:0 回复次数:1 
Python 爬取网页网址的问题
在爬取网址的时候,我查看网址源码,发现网址都是<a href="/item/%E6%95%B0%E6%8D%AE%E6%BA%90" target="_blank">数据源</a>     这种形式的,
这应该是个相对地址,实际的网址应该是https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90  吧。为什么爬虫爬取出来的是http://baike.baidu.com/view/286828.htm呢?
而且我试过,http://baike.baidu.com/view/286828.htm和https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%BA%90都能打开相同的网页, 那么二者有什么却别呢?怎么实现相互转换的 ?
搜索更多相关主题的帖子: 网页 网址 item baidu com 
2018-03-17 21:33
carbine1985
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2018-4-10
收藏
得分:0 
解码不一样,换个coding,基本就是utf-8 gb2312 GBK
总有一个能正确解析
2018-04-10 22:57
快速回复:Python 爬取网页网址的问题
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.047964 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved