|
网站首页
|
业界新闻
|
小组
|
威客
|
人才
|
下载频道
|
博客
|
代码贴
|
在线编程
|
编程论坛
|
登录
注册
短消息
我发表的主题
我参与的主题
我收藏的贴子
我上传的附件
我下过的附件
编辑个人资料
我的博客
用户控制面板
搜索
道具
恢复默认风格
碧海青天
秋意盎然
棕红预览
粉色回忆
蓝雅绿
紫色淡雅
青青河草
e点小镇
橘子红了
红红夜思
水晶紫色
雪花飘飘
新年快乐
风格
短消息
论坛展区
帮助
编程论坛
→
非技术区
→
『 闲聊灌水 』
→ 谁可以提供些资料啊?
我的收件箱(0)
欢迎加入我们,一同切磋技术
用户名:
密 码:
共有
2153
人关注过本帖
标题:
谁可以提供些资料啊?
只看楼主
加入收藏
live41
等 级:
贵宾
威 望:
67
帖 子:12442
专家分:0
注 册:2004-7-22
第
31
楼
收藏
得分:0
不要啊,~~~~~~~~~help~~~~~~~~~~~
2006-10-18 11:08
举报帖子
使用道具
赠送鲜花
islet
等 级:
贵宾
威 望:
89
帖 子:6548
专家分:0
注 册:2005-1-28
第
32
楼
收藏
得分:0
对了 你是怎么找到新闻页url?
是通过新闻列表页 还是?
">
东搞一下 西搞一下
2006-10-18 11:08
举报帖子
使用道具
赠送鲜花
islet
等 级:
贵宾
威 望:
89
帖 子:6548
专家分:0
注 册:2005-1-28
第
33
楼
收藏
得分:0
必须要 识别所有网站的新闻? 还是指定网站
">
东搞一下 西搞一下
2006-10-18 11:09
举报帖子
使用道具
赠送鲜花
kai
等 级:
版主
威 望:
52
帖 子:3450
专家分:59
注 册:2004-4-25
第
34
楼
收藏
得分:0
live41,
这其实并不是什么难事。 你需要很好的html 知识而已。
简单来讲就是你需要写个boolean match(Element element); 函数。 html 文件都是 tag 欠套的。 对于tag 中的内容作出判断就是了。 需要说一下的, 你需要知道哪些可以忽略。
你如果完成了这个match 函数, 那么通读这个DOM, 便可得到你的新的DOM 了。
技术上再说的具体些吧, 你现在的任务只是繁琐一些而已, 难度上并没有多少。 我给你提供下面的思路,(我假定你的java 水平还不错) :
1) 写一个 interface, 就命名其为 Tag. 在这个 interface 里面申明一个match 函数, 这个函数我上面提到了。
2) 你需要了解所有的 html tag, 并为他们各自建立class. 每个class 都 implements Tag 这个 interface. 这也意味着你需要在所有的这些class 里面 implement match(...) 这个函数。
3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。 由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。 在通读DOM 的时候, 删除不必要的Element, 以及删除Element 中不必要的 part information.
你最终就得到你要的东西了。
自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 11:15
举报帖子
使用道具
赠送鲜花
live41
等 级:
贵宾
威 望:
67
帖 子:12442
专家分:0
注 册:2004-7-22
第
35
楼
收藏
得分:0
不是啦,只不过关键在新闻网站,我们公司的战略目标跟百度不同,
那个是随便测试的,关于找什么url,以后再说
2006-10-18 11:15
举报帖子
使用道具
赠送鲜花
live41
等 级:
贵宾
威 望:
67
帖 子:12442
专家分:0
注 册:2004-7-22
第
36
楼
收藏
得分:0
以下是引用
kai
在2006-10-18 11:15:18的发言:
3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。 由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。 在通读DOM 的时候, 删除不必要的Element, 以及删除Element 中不必要的 part information.
你最终就得到你要的东西了。
最后这条的最后一句,说起来容易,做起来没几万行代码是不行的
2006-10-18 11:19
举报帖子
使用道具
赠送鲜花
kai
等 级:
版主
威 望:
52
帖 子:3450
专家分:59
注 册:2004-4-25
第
37
楼
收藏
得分:0
live41,
我对你的信心不是很大, 如果让你独自开发, 完成的可能性不大。 你们公司把这样的任务交给你而没有技术支持, 可以看出你们现在的这个公司是一塌糊涂, 没有好的技术主管的公司是没有出路的。
自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 11:21
举报帖子
使用道具
赠送鲜花
islet
等 级:
贵宾
威 望:
89
帖 子:6548
专家分:0
注 册:2005-1-28
第
38
楼
收藏
得分:0
技术需要时间
不是拍脑门的事儿
baidu不是一天就出来的 这种老板太危险了
">
东搞一下 西搞一下
2006-10-18 11:23
举报帖子
使用道具
赠送鲜花
islet
等 级:
贵宾
威 望:
89
帖 子:6548
专家分:0
注 册:2005-1-28
第
39
楼
收藏
得分:0
读新闻应该先从列表页 不然怎么找? 尤其是静态页的
有列表页 就有标题了 内容应该离标题不会太远吧
">
东搞一下 西搞一下
2006-10-18 11:25
举报帖子
使用道具
赠送鲜花
live41
等 级:
贵宾
威 望:
67
帖 子:12442
专家分:0
注 册:2004-7-22
第
40
楼
收藏
得分:0
以下是引用
islet
在2006-10-18 11:23:20的发言:
技术需要时间
不是拍脑门的事儿
baidu不是一天就出来的 这种老板太危险了
。。。 客户是广州zf 。。。所以才会这么紧迫
2006-10-18 11:25
举报帖子
使用道具
赠送鲜花
80
4/8页
1
2
3
4
5
6
7
8
快速回复:
谁可以提供些资料啊?
数据加载中...
关于我们
|
广告合作
|
编程中国
|
清除Cookies
|
TOP
|
手机版
编程中国
版权所有,并保留所有权利。
Powered by
Discuz
, Processed in 0.017822 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved