一个关于网页抓取乱码的猜想 - JAVA论坛 - 编程论坛

| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛 |

编程论坛 → 开发语言 → 『 JAVA论坛』 → 一个关于网页抓取乱码的猜想

我的收件箱(0)

共有 680 人关注过本帖

标题：一个关于网页抓取乱码的猜想

只看楼主加入收藏

奈落迷离

帅哥哟，离线，有人找我吗？

Rank: 1

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26
结帖率：100%

收藏

已结贴√ 问题点数：20 回复次数：4

一个关于网页抓取乱码的猜想

    平时我们抓取的网页编码主要是utf-8 或者gbk型的
    处理不当经常会出现乱码的状况
    大家现行的办法就是从网页源代码中提取出编码  事实上有些时候有些网页里并没有写编码格式
    我最近有点想法
    utf-8 和 gbk真正的区别是对字符编码的字节数
    我们是否可以在读取流后直接读出字节数
    默认utf-8存入后再读一遍字节数
     如果字节变化了说明是gbk格式的
    再转存就可以了
    这样不提取编码照样可以找出网页的编码格式而且适用于所有网页
    不知道可行不请各位大神指点

搜索更多相关主题的帖子: 源代码　网页　而且　

发帖时间

2013-08-30 00:56

hsjjgm

帅哥哟，离线，有人找我吗？

Rank: 3

Rank: 3

等　级：论坛游侠
帖　子：106
专家分：189
注　册：2013-4-27

收藏

得分:7

听起来不错

发帖时间

2013-08-31 01:13

奈落迷离

帅哥哟，离线，有人找我吗？

Rank: 1

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

收藏

得分:0

回复 2楼 hsjjgm

只是设想不知道可行不可行
看来我只好自己去验证了

发帖时间

2013-08-31 07:05

ren829

帅哥哟，离线，有人找我吗？

Rank: 9

Rank: 9

Rank: 9

等　级：贵宾
威　望：15
帖　子：255
专家分：1174
注　册：2006-3-11

收藏

得分:7

完全不用那么折腾,你只要用字节流读取,然后在用字节流输出就行了,乱码是因为从字节到字符的过程中产生的,那你输出的时候不要转换成String那就能规避这个问题.

发帖时间

2013-08-31 09:54

奈落迷离

帅哥哟，离线，有人找我吗？

Rank: 1

等　级：新手上路
帖　子：13
专家分：0
注　册：2013-8-26

收藏

得分:0

回复 4楼 ren829

用字节流存成TXT在电脑上也不会乱码吗

发帖时间

2013-08-31 22:06

快速回复：一个关于网页抓取乱码的猜想

关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有，并保留所有权利。

Powered by Discuz, Processed in 0.023440 second(s), 7 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved