| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 2153 人关注过本帖
标题:谁可以提供些资料啊?
只看楼主 加入收藏
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
结帖率:66.67%
收藏
 问题点数:0 回复次数:79 
谁可以提供些资料啊?
百度的搜索页面的内容是怎么实现的?

不是要讨论技术,是想大家帮忙找些资料, 算作灌水吧

例如一个页面,它怎么识别出哪一块是标题,哪一块是主要内容,哪些是广告要跳过之类的

vips算法没有例子啊~~晕死
搜索更多相关主题的帖子: 广告 搜索 百度 资料 技术 
2006-10-17 23:13
google
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:22
帖 子:3419
专家分:23
注 册:2005-11-1
收藏
得分:0 

查看一下数据采集也许会对楼主有帮助,应该是通过查询HTML或者XML标签来实现的


祝天下所有母亲幸福安康!~
2006-10-17 23:18
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
是的,但是整个页面那么多标签,你怎么知道关键的主题和内容在哪个标签里面?

你可否把google内部资料拿来分享一下~~~
2006-10-17 23:29
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
数据采集我已经知道怎么实现,只是不知道怎么提取关键的,

例如一个新闻网页,有很多其他,例如导航栏和广告之类的,

我只想提取其中的新闻文章题目和内容,看了微软是用vips,我听上司说百度也是用vips

但是它们写的vips根本不公开,晕死~~~ 谁提供一份就好了,什么语言都无所谓
2006-10-17 23:31
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
Now I think it is necessary to create a technik discussion stage.
like such topic is not normal chat topic but more technik in it.

live41,

I don't know, what do you really want. When you want just find solution with some software, then I can say nothing. But when you want explore some technik realise, I want then say something. I think, I will write a parser, such technik using in xml reader, using such parser you can create a DOM (object tree), then you can work with this DOM. Or you can also use parser to find something what you want without creating a DOM just read file line after line.




自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 06:41
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 
technik 德文technic?

your idea is most likely with the VIPS, but there is a important difficulty that how can I location the title and content of a paragragh?

I do build a DOM tree, but I have no idea to auto location which tag containing the core thing...



英文还是难描述,用中文说吧,例如163的一篇时事新闻,如果我要摘录 其标题及文章详细内容,而要跳过导航栏和广告,是十分困难的事情


ps:版主可将此帖扔到职场交流或其它,不过之前请先行通知,谢谢!

[此贴子已经被作者于2006-10-18 9:27:02编辑过]

2006-10-18 09:24
kai
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:52
帖 子:3450
专家分:59
注 册:2004-4-25
收藏
得分:0 
看了你的描述,感觉没有理解你的意思。 如果你要写浏览器这样的软件,那么你会遇到解释 html 文件的问题。 你现在到底在写什么样的程序? 如果在制作网站, 那么上面这些问题是你不需要关心的。

希望你解释的详细些。

自由,民主,平等,博爱,进步.
中华民国,我的祖国,中华民国万岁!中华民国加油!
本人自愿加入中国国民党,为人的自由性,独立性和平等性而奋斗!
2006-10-18 09:54
live41
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:12442
专家分:0
注 册:2004-7-22
收藏
得分:0 

我在写网页关键内容提取程序

例如:
http://tech.sina.com.cn/t/2006-10-17/13151187980.shtml

给这样一个网页,要里面的标题《手机用户将可以不改号选择运营商所有资费套餐》及里面内容“新浪科技讯 10月17日,……”之类的整篇文章

而其他的都需要,怎么从众多标签中提取出关键内容啊?

2006-10-18 10:12
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
它根本识别不了主要内容 除非去识别标签 google还保留搜索摘要标签 baidu已经取消了,因为容易作弊

搜索引擎就是把网页内容读出来存入数据库 再copy一份去掉html和脚本 只留文本 再copy一份只留图片……
你搜索的时候 按你搜的关键字操作 拆词-->词库措作(入新词、记词被搜索次数……)-->按规则查网页-->排序-->显示

网页内容介绍是动态生成的,根据你搜索的关键词 把含有关键词的部分尽量展现出来,分几段 凑够字数 显示出来
标题就容易了 title标记大家都知道 而且是一个排序很关键的凭据
2006-10-18 10:29
islet
Rank: 12Rank: 12Rank: 12
等 级:贵宾
威 望:89
帖 子:6548
专家分:0
注 册:2005-1-28
收藏
得分:0 
他想做搜索引擎

谁都会做 做好就不容易了 搜狐新郎……许多家都提供 但是能赶上baidu的没有 只有google yahoo还行 但是由于做全世界搜索他们中文部分相比百度稍差一点
2006-10-18 10:32
快速回复:谁可以提供些资料啊?
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.027480 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved