一个关于网页抓取乱码的猜想
平时我们抓取的网页编码主要是utf-8 或者gbk型的处理不当经常会出现乱码的状况
大家现行的办法就是从网页源代码中提取出编码 事实上有些时候有些网页里并没有写编码格式
我最近有点想法
utf-8 和 gbk真正的区别是对字符编码的字节数
我们是否可以在读取流后直接读出字节数
默认utf-8存入后 再读一遍字节数
如果字节变化了 说明是gbk格式的
再转存就可以了
这样不提取编码照样可以找出网页的编码格式 而且适用于所有网页
不知道可行不 请各位大神指点