| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2449 人关注过本帖
标题:[求助]做个HTML解析器,20000个论坛币!!急!!
只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
将段html代码弄成全局的,在弄个全局的位置变量

int m_idx

然后就开始扫描,不断m_idx++,遇到空白符号\r\n\t之类就跳过

遇到“<”开始压盏,遇到“>”停止压盏,并将读取到的东西弹出,最好压盏的时候一并处理标签名字和值


正如老千说的,java提供了方便的接口,不用自己写

另外用正则解析html是不可行的,遇到大页面的时候会处理很久很久很久……

[此贴子已经被作者于2007-3-8 14:45:03编辑过]

2007-03-08 14:43
千里冰封
Rank: 16Rank: 16Rank: 16Rank: 16
来 自:灌水之王
等 级:版主
威 望:155
帖 子:28477
专家分:59
注 册:2006-2-26
收藏
得分:0 
LIVE41说的有道理

可惜不是你,陪我到最后
2007-03-08 14:48
tianykun
Rank: 4
等 级:禁止访问
威 望:11
帖 子:3727
专家分:0
注 册:2005-11-13
收藏
得分:0 
41超强。。。。。。

离开这里,离开你的视野,归隐到属于我的地方,无论何处
2007-03-08 16:24
tianykun
Rank: 4
等 级:禁止访问
威 望:11
帖 子:3727
专家分:0
注 册:2005-11-13
收藏
得分:0 
以下是引用live41在2007-3-8 14:38:29的发言:

什么叫软编码?

你就写给他咯,又不难

逐字符读取,判断,编译原理有介绍


小弟没学过编译原理啊。。。学校没开这个哦。。。。


离开这里,离开你的视野,归隐到属于我的地方,无论何处
2007-03-08 16:25
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
不用编译原理,那是我说说而已,真用到就太麻烦

你自己想一下就知道,html里面<>肯定是配对的

然后<tr>肯定跟</tr>,然后标签里面可以有其它内容例如<span class='td1'>

这样的,就另外起一个开始的符号“'”,与其匹配的离它最近的另一个“'”

反正就是配对游戏,先写好配对,然后在里面插写标签和值的处理,\r\n\t和空格之类的跳过
2007-03-08 16:30
Kyo
Rank: 6Rank: 6
等 级:贵宾
威 望:23
帖 子:4536
专家分:1
注 册:2004-12-27
收藏
得分:0 
以下是引用live41在2007-3-8 16:30:19的发言:
不用编译原理,那是我说说而已,真用到就太麻烦

你自己想一下就知道,html里面<>肯定是配对的

然后<tr>肯定跟</tr>,然后标签里面可以有其它内容例如<span class='td1'>

这样的,就另外起一个开始的符号“'”,与其匹配的离它最近的另一个“'”

反正就是配对游戏,先写好配对,然后在里面插写标签和值的处理,\r\n\t和空格之类的跳过

初级教程


2007-03-08 16:31
tianykun
Rank: 4
等 级:禁止访问
威 望:11
帖 子:3727
专家分:0
注 册:2005-11-13
收藏
得分:0 
将段html代码弄成全局的
他说弄个哈希表就行咯。。。。就扫描啊。。。

离开这里,离开你的视野,归隐到属于我的地方,无论何处
2007-03-08 16:35
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
? 哈希表? 有几种的,你们老师指哪种?

他是不是想叫你解析成一个查询表之类的?
2007-03-08 16:58
tianykun
Rank: 4
等 级:禁止访问
威 望:11
帖 子:3727
专家分:0
注 册:2005-11-13
收藏
得分:0 
以下是引用live41在2007-3-8 16:58:12的发言:
? 哈希表? 有几种的,你们老师指哪种?

他是不是想叫你解析成一个查询表之类的?

就是拉。。。。。不怕,下星期才交。。。慢慢搞。。。。。
还说尝试用到放到数据库中去呢。。。。


离开这里,离开你的视野,归隐到属于我的地方,无论何处
2007-03-08 18:07
tianykun
Rank: 4
等 级:禁止访问
威 望:11
帖 子:3727
专家分:0
注 册:2005-11-13
收藏
得分:0 

给你个最简单的
你老师既然指定了<html><title><body><td><tr>这几个

那直接配对算就行
----------------------------------------------------
他真的这么说哦。。。如果你不做全部的,就把这几个解析出来把。。。。写有这几个标签的例子,放进去,再运行。。。。
只是作业,你以为做个浏览器啊。。。。。


离开这里,离开你的视野,归隐到属于我的地方,无论何处
2007-03-08 18:08
快速回复:[求助]做个HTML解析器,20000个论坛币!!急!!
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.026378 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved