谁可以提供些资料啊？ - 闲聊灌水

| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛 |

编程论坛 → 非技术区 → 『闲聊灌水』 → 谁可以提供些资料啊？

我的收件箱(0)

欢迎加入我们，一同切磋技术

共有 2153 人关注过本帖

标题：谁可以提供些资料啊？

取消只看楼主加入收藏

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 11 楼

得分:0

以下是引用kai在2006-10-18 10:49:30的发言：
html 和 xml 在本质上是一样的。前者是写个浏览器看的，而后者是写给特定的程序看的，也就是说xml 充当了一个信息存储的角色，由于程序员开发的软件具有对其自身制定的xml 阅读的能力，那么xml 就成了 Software Component 之间的信息交流的桥梁， xml 会比二进制文件来的大一些，但是当今的时代，我们不需要将目光集中到那一点点空间的浪费。重要的是软件的通用性，可维护性，和可扩展性以及代码的可读性。在这样一个背景下， xml 成为了很好的信息媒体。在 xml 中的 tag 都是可以人为制定的，这样便卸除了书写的约束性。而html 的tag 必须是约定俗成的，因为html 是写给浏览器的。

大师，你到底有没有在听我说话啊？你的idea不错，但是那个是蜘蛛算法的一部分，我已经搞定了

蜘蛛算法网上好多例子，我已经看过并理解了C#版的了

现在难题在于怎么去搞VIPS，使得我得到我想要的，VIPS得到核心标题及内容的成功达到90%，其实那就够了

2006-10-18 10:51

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 12 楼

得分:0

以下是引用islet在2006-10-18 10:54:55的发言：
太有难度了。。。

要不你就开发就是周期是未知数看看公司什么态度能不能退一步

————————————————————————
我怕你头发白了~！

公司逼我星期五前搞定~~~ 哪止头发白，想死了

2006-10-18 10:56

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 13 楼

得分:0

以下是引用islet在2006-10-18 10:59:29的发言：
那你就差不多来一个准确率到5%就行了星期五也就只能5%

这么简单的话用正则把所有tag和js还有vbs搞掉就行了，我昨晚都没睡好啊

2006-10-18 11:01

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 14 楼

得分:0

神的意志!(修炼中,未完成..)

2006-10-18 11:07

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 15 楼

得分:0

不要啊，~~~~~~~~~help~~~~~~~~~~~

2006-10-18 11:08

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 16 楼

得分:0

不是啦，只不过关键在新闻网站，我们公司的战略目标跟百度不同，

那个是随便测试的，关于找什么url，以后再说

2006-10-18 11:15

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 17 楼

得分:0

以下是引用kai在2006-10-18 11:15:18的发言：

3) 建立DOM Tree. 这样每个节点就是你的class 的对象个体了。由于你的每个class 都implements Tag interface. 那么你现在就是通读整个DOM 了。在通读DOM 的时候，删除不必要的Element, 以及删除Element 中不必要的 part information.

你最终就得到你要的东西了。

最后这条的最后一句，说起来容易，做起来没几万行代码是不行的

2006-10-18 11:19