| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2153 人关注过本帖
标题:谁可以提供些资料啊?
取消只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用kai在2006-10-18 10:49:30的发言:
html 和 xml 在本质上是一样的。 前者是写个浏览器看的, 而后者是写给特定的程序看的, 也就是说xml 充当了一个信息存储的角色, 由于程序员开发的软件具有对其自身制定的xml 阅读的能力, 那么xml 就成了 Software Component 之间的信息交流的桥梁, xml 会比 二进制文件来的大一些, 但是当今的时代, 我们不需要将目光集中到那一点点空间的浪费。 重要的是软件的通用性, 可维护性, 和可扩展性 以及代码的可读性。 在这样一个背景下, xml 成为了很好的信息媒体。 在 xml 中的 tag 都是可以人为制定的, 这样便卸除了书写的约束性。 而html 的tag 必须是约定俗成的, 因为html 是写给 浏览器的。

大师,你到底有没有在听我说话啊?你的idea不错,但是那个是蜘蛛算法的一部分,我已经搞定了

蜘蛛算法网上好多例子,我已经看过并理解了C#版的了


现在难题在于怎么去搞VIPS,使得我得到我想要的,VIPS得到核心标题及内容的成功达到90%,其实那就够了

2006-10-18 10:51
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 10:54:55的发言:
太有难度了。。。

要不你就开发 就是周期是未知数 看看公司什么态度 能不能退一步

————————————————————————
我怕你头发白了~!

公司逼我星期五前搞定~~~ 哪止头发白,想死了

2006-10-18 10:56
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 10:59:29的发言:
那你就差不多来一个 准确率到5%就行了 星期五也就只能5%

这么简单的话用正则把所有tag和js还有vbs搞掉就行了,我昨晚都没睡好啊

2006-10-18 11:01
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
神的意志!(修炼中,未完成..)
2006-10-18 11:07
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
不要啊,~~~~~~~~~help~~~~~~~~~~~
2006-10-18 11:08
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
不是啦,只不过关键在新闻网站,我们公司的战略目标跟百度不同,

那个是随便测试的,关于找什么url,以后再说
2006-10-18 11:15
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用kai在2006-10-18 11:15:18的发言:

3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。 由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。 在通读DOM 的时候, 删除不必要的Element, 以及删除Element 中不必要的 part information.

你最终就得到你要的东西了。

最后这条的最后一句,说起来容易,做起来没几万行代码是不行的

2006-10-18 11:19
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 11:23:20的发言:
技术需要时间

不是拍脑门的事儿

baidu不是一天就出来的 这种老板太危险了

。。。 客户是广州zf 。。。所以才会这么紧迫

2006-10-18 11:25
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 11:25:00的发言:
读新闻应该先从列表页 不然怎么找? 尤其是静态页的

有列表页 就有标题了 内容应该离标题不会太远吧

例如新浪的,广告嵌套在文字中间,那就已经有够难找的了~~~~~~

现在不是这个问题,上司现在是要实现,它传一个页面给我,就是要我提取那些内容

2006-10-18 11:27
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
2006-10-18 11:34
快速回复:谁可以提供些资料啊?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.018159 second(s), 8 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved