| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2153 人关注过本帖
标题:谁可以提供些资料啊?
只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
不要啊,~~~~~~~~~help~~~~~~~~~~~
2006-10-18 11:08
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
对了 你是怎么找到新闻页url?
是通过新闻列表页 还是?
2006-10-18 11:08
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 

必须要 识别所有网站的新闻? 还是指定网站

2006-10-18 11:09
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
live41,
这其实并不是什么难事。 你需要很好的html 知识而已。

简单来讲就是你需要写个boolean match(Element element); 函数。 html 文件都是 tag 欠套的。 对于tag 中的内容作出判断就是了。 需要说一下的, 你需要知道哪些可以忽略。

你如果完成了这个match 函数, 那么通读这个DOM, 便可得到你的新的DOM 了。

技术上再说的具体些吧, 你现在的任务只是繁琐一些而已, 难度上并没有多少。 我给你提供下面的思路,(我假定你的java 水平还不错) :
1) 写一个 interface, 就命名其为 Tag. 在这个 interface 里面申明一个match 函数, 这个函数我上面提到了。
2) 你需要了解所有的 html tag, 并为他们各自建立class. 每个class 都 implements Tag 这个 interface. 这也意味着你需要在所有的这些class 里面 implement match(...) 这个函数。
3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。 由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。 在通读DOM 的时候, 删除不必要的Element, 以及删除Element 中不必要的 part information.

你最终就得到你要的东西了。

自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 11:15
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
不是啦,只不过关键在新闻网站,我们公司的战略目标跟百度不同,

那个是随便测试的,关于找什么url,以后再说
2006-10-18 11:15
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用kai在2006-10-18 11:15:18的发言:

3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。 由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。 在通读DOM 的时候, 删除不必要的Element, 以及删除Element 中不必要的 part information.

你最终就得到你要的东西了。

最后这条的最后一句,说起来容易,做起来没几万行代码是不行的

2006-10-18 11:19
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
live41,

我对你的信心不是很大, 如果让你独自开发, 完成的可能性不大。 你们公司把这样的任务交给你而没有技术支持, 可以看出你们现在的这个公司是一塌糊涂, 没有好的技术主管的公司是没有出路的。

自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 11:21
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
技术需要时间

不是拍脑门的事儿

baidu不是一天就出来的 这种老板太危险了
2006-10-18 11:23
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
读新闻应该先从列表页 不然怎么找? 尤其是静态页的

有列表页 就有标题了 内容应该离标题不会太远吧
2006-10-18 11:25
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 11:23:20的发言:
技术需要时间

不是拍脑门的事儿

baidu不是一天就出来的 这种老板太危险了

。。。 客户是广州zf 。。。所以才会这么紧迫

2006-10-18 11:25
快速回复:谁可以提供些资料啊?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.012823 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved