| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2153 人关注过本帖
标题:谁可以提供些资料啊?
只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 

不是我想做,我公司是做这个的,郁闷死了~~~没有高手指点,要我一个人研究

客户就是要实现这样的功能,就是只提取标题和内容,而且标题还不是指title标签,不要想得太简单,是要真正的文章里面的标题

而的确是一个叫VIPS的算法去干这个事,只是不公开源代码而已,唯一公开代码的又没做好的

http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx

2006-10-18 10:36
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
就是我所说的, 你需要一个 html parser. 这样的软件已经有了, 你不必再从头开发了。 下面给你一个连接:
http://htmlparser.sourceforge.net/

你自己去看看吧。 如果你的java 水平还可以的话, 那么可以拿人家的代码直接用了。



自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 10:37
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
基于视觉的语义分割从来都不是!00%有效的,事实上它的有效率也不过90%左右。100%正确的分割目前是不可能有的。不过VIPS算法目前是效果最好的。
如果你有好的论文和想法,那么实验出来,把实验结果拿出来,跟VIPS算法比较一下,这样才能让人信服。研究只相信最后的数据
2006-10-18 10:38
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用kai在2006-10-18 10:37:41的发言:
就是我所说的, 你需要一个 html parser. 这样的软件已经有了, 你不必再从头开发了。 下面给你一个连接:
http://htmlparser.sourceforge.net/

你自己去看看吧。 如果你的java 水平还可以的话, 那么可以拿人家的代码直接用了。



首先感谢kai提供,不过这个多用在蜘蛛算法上,我已经看过C#的了,而且我目前来说已经能解析出所有dom并构建一棵DOM树

我都说了关键问题是怎么知道哪一片叶子里包含了我想要的文章标题和内容,哪些是废的叶子

这个才是我目前解决不了,我郁闷死了~~~公司没有人讨论,上司在百度做过一段时间,但是没有了解过这个,他在百度是做蜘蛛的

2006-10-18 10:41
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
那是不能的 因为一个新闻页面一个样 提sina 就要针对sina做一个程序 提sohu 再做一个……百度的新闻搜索 也就在100家左右

要想实现 只能找xml、rss文件 但是你不能让所有做网页的都按这个标准
2006-10-18 10:42
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
那当然不是所有了,不要说不能,其实是可以的。 你先看看这个

http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx



其实这样的原理已经能解决80%,但是就是没有提供源代码,所以我才郁闷,
2006-10-18 10:44
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
那你只能找现成的研究,不可能自己开发 那不是正常人干的事儿 就算你不是正常人 公司也没给你相应的报酬

累死一个 乐死一个
2006-10-18 10:47
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
html 和 xml 在本质上是一样的。 前者是写个浏览器看的, 而后者是写给特定的程序看的, 也就是说xml 充当了一个信息存储的角色, 由于程序员开发的软件具有对其自身制定的xml 阅读的能力, 那么xml 就成了 Software Component 之间的信息交流的桥梁, xml 会比 二进制文件来的大一些, 但是当今的时代, 我们不需要将目光集中到那一点点空间的浪费。 重要的是软件的通用性, 可维护性, 和可扩展性 以及代码的可读性。 在这样一个背景下, xml 成为了很好的信息媒体。 在 xml 中的 tag 都是可以人为制定的, 这样便卸除了书写的约束性。 而html 的tag 必须是约定俗成的, 因为html 是写给 浏览器的。

自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 10:49
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
以下是引用islet在2006-10-18 10:47:50的发言:
那你只能找现成的研究,不可能自己开发 那不是正常人干的事儿 就算你不是正常人 公司也没给你相应的报酬

累死一个 乐死一个

我也正有此意,所以才叫同志们帮忙找找,严重感谢!

2006-10-18 10:49
google
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:22
帖 子:3419
专家分:23
注 册:2005-11-1
收藏
得分:0 
哪家搜索公司只有一个工程师?不会让楼主自己负责吧?

祝天下所有母亲幸福安康!~
2006-10-18 10:50
快速回复:谁可以提供些资料啊?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.013056 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved