不是我想做,我公司是做这个的,郁闷死了~~~没有高手指点,要我一个人研究
客户就是要实现这样的功能,就是只提取标题和内容,而且标题还不是指title标签,不要想得太简单,是要真正的文章里面的标题
而的确是一个叫VIPS的算法去干这个事,只是不公开源代码而已,唯一公开代码的又没做好的
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
不是我想做,我公司是做这个的,郁闷死了~~~没有高手指点,要我一个人研究
客户就是要实现这样的功能,就是只提取标题和内容,而且标题还不是指title标签,不要想得太简单,是要真正的文章里面的标题
而的确是一个叫VIPS的算法去干这个事,只是不公开源代码而已,唯一公开代码的又没做好的
http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
首先感谢kai提供,不过这个多用在蜘蛛算法上,我已经看过C#的了,而且我目前来说已经能解析出所有dom并构建一棵DOM树
我都说了关键问题是怎么知道哪一片叶子里包含了我想要的文章标题和内容,哪些是废的叶子
这个才是我目前解决不了,我郁闷死了~~~公司没有人讨论,上司在百度做过一段时间,但是没有了解过这个,他在百度是做蜘蛛的