谁可以提供些资料啊?
百度的搜索页面的内容是怎么实现的?不是要讨论技术,是想大家帮忙找些资料, 算作灌水吧
例如一个页面,它怎么识别出哪一块是标题,哪一块是主要内容,哪些是广告要跳过之类的
vips算法没有例子啊~~晕死
[此贴子已经被作者于2006-10-18 9:27:02编辑过]
我在写网页关键内容提取程序
例如:
http://tech.sina.com.cn/t/2006-10-17/13151187980.shtml
给这样一个网页,要里面的标题《手机用户将可以不改号选择运营商所有资费套餐》及里面内容“新浪科技讯 10月17日,……”之类的整篇文章
而其他的都需要,怎么从众多标签中提取出关键内容啊?
不是我想做,我公司是做这个的,郁闷死了~~~没有高手指点,要我一个人研究
客户就是要实现这样的功能,就是只提取标题和内容,而且标题还不是指title标签,不要想得太简单,是要真正的文章里面的标题
而的确是一个叫VIPS的算法去干这个事,只是不公开源代码而已,唯一公开代码的又没做好的
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
首先感谢kai提供,不过这个多用在蜘蛛算法上,我已经看过C#的了,而且我目前来说已经能解析出所有dom并构建一棵DOM树
我都说了关键问题是怎么知道哪一片叶子里包含了我想要的文章标题和内容,哪些是废的叶子
这个才是我目前解决不了,我郁闷死了~~~公司没有人讨论,上司在百度做过一段时间,但是没有了解过这个,他在百度是做蜘蛛的