如何用Python爬虫爬取中文编码格式出错的网页数据
打算在深圳交易所网站爬取“终止上市公司”名单,在这个网址:http://www.
这个页面上有个“下载”按钮,直接点击这个“下载”按钮,则能够下载1份EXCEL文件。
右击“下载”按钮,点“复制链接地址”,
http://www.
用Python的request功能,爬取时出现如下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xad in position 47: invalid start byte
换了编码格式也不行:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xc4 in position 51: illegal multibyte sequence
UnicodeDecodeError: 'gb2312' codec can't decode byte 0xad in position 47: illegal multibyte sequence
UnicodeDecodeError: 'gb18030' codec can't decode byte 0xc3 in position 51: illegal multibyte sequence
UnicodeDecodeError: 'big5' codec can't decode byte 0xad in position 47: illegal multibyte sequence
UnicodeDecodeError: 'big5hkscs' codec can't decode byte 0xad in position 47: illegal multibyte sequence
加了'ignore',读是读出来了,但是打印出来,全是乱码。
请教各位大师,如何解决。
谢谢。