谁可以提供些资料啊？ - 闲聊灌水

| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛 |

编程论坛 → 非技术区 → 『闲聊灌水』 → 谁可以提供些资料啊？

我的收件箱(0)

欢迎加入我们，一同切磋技术

共有 2153 人关注过本帖

标题：谁可以提供些资料啊？

取消只看楼主加入收藏

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22
结帖率：66.67%

楼主

问题点数：0 回复次数：33

谁可以提供些资料啊？

百度的搜索页面的内容是怎么实现的？

不是要讨论技术，是想大家帮忙找些资料，算作灌水吧

例如一个页面，它怎么识别出哪一块是标题，哪一块是主要内容，哪些是广告要跳过之类的

vips算法没有例子啊~~晕死

搜索更多相关主题的帖子: 广告　搜索　百度　资料　技术　

2006-10-17 23:13

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 2 楼

得分:0

是的，但是整个页面那么多标签，你怎么知道关键的主题和内容在哪个标签里面？

你可否把google内部资料拿来分享一下~~~

2006-10-17 23:29

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 3 楼

得分:0

数据采集我已经知道怎么实现，只是不知道怎么提取关键的，

例如一个新闻网页，有很多其他，例如导航栏和广告之类的，

我只想提取其中的新闻文章题目和内容，看了微软是用vips，我听上司说百度也是用vips

但是它们写的vips根本不公开，晕死~~~ 谁提供一份就好了，什么语言都无所谓

2006-10-17 23:31

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 4 楼

得分:0

technik 德文technic?

your idea is most likely with the VIPS, but there is a important difficulty that how can I location the title and content of a paragragh?

I do build a DOM tree, but I have no idea to auto location which tag containing the core thing...

英文还是难描述，用中文说吧，例如163的一篇时事新闻，如果我要摘录其标题及文章详细内容，而要跳过导航栏和广告，是十分困难的事情

ps：版主可将此帖扔到职场交流或其它，不过之前请先行通知，谢谢！

[此贴子已经被作者于2006-10-18 9:27:02编辑过]

2006-10-18 09:24

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 5 楼

得分:0

我在写网页关键内容提取程序

例如：
http://tech.sina.com.cn/t/2006-10-17/13151187980.shtml

给这样一个网页，要里面的标题《手机用户将可以不改号选择运营商所有资费套餐》及里面内容“新浪科技讯 10月17日，……”之类的整篇文章

而其他的都需要，怎么从众多标签中提取出关键内容啊？

2006-10-18 10:12

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 6 楼

得分:0

不是我想做，我公司是做这个的，郁闷死了~~~没有高手指点，要我一个人研究

客户就是要实现这样的功能，就是只提取标题和内容，而且标题还不是指title标签，不要想得太简单，是要真正的文章里面的标题

而的确是一个叫VIPS的算法去干这个事，只是不公开源代码而已，唯一公开代码的又没做好的

http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx

2006-10-18 10:36

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 7 楼

得分:0

基于视觉的语义分割从来都不是!00%有效的，事实上它的有效率也不过90%左右。100%正确的分割目前是不可能有的。不过VIPS算法目前是效果最好的。
如果你有好的论文和想法，那么实验出来，把实验结果拿出来，跟VIPS算法比较一下，这样才能让人信服。研究只相信最后的数据

2006-10-18 10:38

live41

等　级：贵宾
威　望：67
帖　子：12442
专家分：0
注　册：2004-7-22

第 8 楼

得分:0

以下是引用kai在2006-10-18 10:37:41的发言：
就是我所说的，你需要一个 html parser. 这样的软件已经有了，你不必再从头开发了。下面给你一个连接：
http://htmlparser.sourceforge.net/

你自己去看看吧。如果你的java 水平还可以的话，那么可以拿人家的代码直接用了。

首先感谢kai提供，不过这个多用在蜘蛛算法上，我已经看过C#的了，而且我目前来说已经能解析出所有dom并构建一棵DOM树

我都说了关键问题是怎么知道哪一片叶子里包含了我想要的文章标题和内容，哪些是废的叶子

这个才是我目前解决不了，我郁闷死了~~~公司没有人讨论，上司在百度做过一段时间，但是没有了解过这个，他在百度是做蜘蛛的