| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1476 人关注过本帖
标题:如何用Python爬虫爬取中文编码格式出错的网页数据
只看楼主 加入收藏
flyingba
Rank: 1
等 级:新手上路
帖 子:4
专家分:0
注 册:2006-8-16
收藏
 问题点数:0 回复次数:0 
如何用Python爬虫爬取中文编码格式出错的网页数据
打算在深圳交易所网站爬取“终止上市公司”名单,在这个网址:
    http://www.
这个页面上有个“下载”按钮,直接点击这个“下载”按钮,则能够下载1份EXCEL文件。

右击“下载”按钮,点“复制链接地址”,
    http://www.

用Python的request功能,爬取时出现如下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xad in position 47: invalid start byte
换了编码格式也不行:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xc4 in position 51: illegal multibyte sequence
UnicodeDecodeError: 'gb2312' codec can't decode byte 0xad in position 47: illegal multibyte sequence
UnicodeDecodeError: 'gb18030' codec can't decode byte 0xc3 in position 51: illegal multibyte sequence
UnicodeDecodeError: 'big5' codec can't decode byte 0xad in position 47: illegal multibyte sequence
UnicodeDecodeError: 'big5hkscs' codec can't decode byte 0xad in position 47: illegal multibyte sequence

加了'ignore',读是读出来了,但是打印出来,全是乱码。

请教各位大师,如何解决。

谢谢。
搜索更多相关主题的帖子: Python byte position illegal sequence 
2019-08-27 09:47
快速回复:如何用Python爬虫爬取中文编码格式出错的网页数据
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.016940 second(s), 10 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved