| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 490 人关注过本帖
标题:求助:对于文本单词的相关搜索程序
只看楼主 加入收藏
gj122512597
Rank: 1
来 自:河南开封
等 级:新手上路
帖 子:1
专家分:0
注 册:2011-1-9
收藏
 问题点数:0 回复次数:0 
求助:对于文本单词的相关搜索程序
现在有一个英文字典(每个单词都是由小写的'a'-'z'组成),单词量很大,达到120 多万
的单词,而且还有很多重复的单词。
此外,我们现在还有一些 Document,每个Document 包含一些英语单词。
针对这个问题,请你选择合适的数据结构,组织这些数据,使时间复杂度和空间复杂度
尽可能低,并且解决下面的问题和分析自己算法的时间复杂度。
1)基本型问题
(1) 选择合适的数据结构,将所有的英文单词生成一个字典 Dictionary。
(2) 给定一个单词,判断这个单词是否在字典 Dictionary 中。如果在单词库中,输出
这个单词总共出现的次数。否则输出NO
2)扩展型问题
(3) 给定一个单词,按字典序输出字典 Dictionary 中所有以这个单词为前缀的单词。
例如,如果字典T={a,aa, aaa, b, ba}, 如果你输入a,那么输出应该为{a, aa, aaa}。
(4) 给定一个单词,输出在 Dictionary 中以这个单词为前缀的单词的出现频率最高的
10 个单词,对于具有相同出现次数的情况,按照最近(即最后)插入的单词优先级比较高
的原则输出。
(5) 输出 Dictionary 中出现次数最高的10 个单词。
3)高级型问题
(6) 现在我们有一些 Document,每个Document 由一些单词组成,现在的问题就是给
你一个word,检索出哪些Document 包含这个word,输出这些Document 的DocumentID(就
如同搜索引擎一样,即输入一些关键字,然后检索出和这些关键字相关的文档)。
(7) 在第(6)问中,我们只考虑了一个word 在哪些Document 中的情况,我们进一
步考虑2 个相邻word 的情况,检索出同时包含这两个相邻word 的DocumentID。
4)挑战型问题
(8) 现在我们再对(7)的问题进行扩展,把(7)中的只检索相邻2 个word 推广到
可以检索多个word(即连续的k 个word,其中k>=2),检索出同时包含k 个连续word 的
DocumentID。
搜索更多相关主题的帖子: 英语单词 英文单词 英文字典 空间 时间 
2011-01-09 22:04
快速回复:求助:对于文本单词的相关搜索程序
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.020338 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved