注册 登录
编程论坛 Python论坛

百度爬虫问题

往生 发布于 2023-01-21 12:12, 574 次点击
import requests
url='http://www.baidu.com'
context=requests.get(url)
filename='百度爬虫.html'
file=open(filename,'w')
file.write(context.text)
file.close()
结果出现traceback
Traceback (most recent call last):
  File "C:\Users\86177\Desktop\didi\编程\爬虫\text.py", line 6, in <module>
    file.write(context.text)
UnicodeEncodeError: 'gbk' codec can't encode character '\xe7' in position 295: illegal multibyte sequence
[Finished in 670ms]
将‘w’改为‘wb’
会出现
typeError: a bytes-like object is required, not 'str
但这个代码把网址改为‘http://www.’又没错误
求大佬帮助
1 回复
#2
dengligsh2023-02-03 15:02
问题出在于文件编码的不同导致的。在你的代码中,当打开文件时,你使用了‘w’模式,这意味着写入的内容将以默认的文件编码(通常是GBK)写入文件。但是,requests模块返回的内容是网页的原始字符串,其编码通常是UTF-8。

为了解决这个问题,你需要明确指定文件编码为UTF-8,例如:

file = open(filename, 'w', encoding='utf-8')

同样,更改为'wb'模式也不能解决问题,因为它是二进制模式,不支持字符串写入。

希望这能帮到你!
1