用二叉判定树存储关键字对文章分类的问题如何编码
考虑以下文本分类问题:常见的新闻报刊中文章分类,如体育,娱乐,科技,文化,军事等。每个类别可以用一组关键字(如10个)来标识,不同类别的关键字有较大差别。 有时对于某个热点话题,也可以选取一组关键字来定义一个新类别。若要检验一个文本是否属于该类别, 就查看该文本中是否包含该类别的多数(如60%以上)关键字。
为了达到较高的分类效率,采用二叉判定树存放标识类别的关键字。对于文本中每个单词搜索该二叉树,判断其是否为关键字,并统计搜索到的不同关键字。最终计算关键字的匹配率。
设计算法并实现(英文文本):
1,(先序,中序或后序)创建二叉树存储选定的一组关键字(结点数目不少于10个),关键字按次序排列,每个结点的左子树上的关键字小于该结点,右子树上的关键字大于该结点;
2, (先序遍历,二叉查找法)对于文本中每个单词搜索该二叉树,并统计找到的不同关键字。比较两种搜索方法的效率;
3,程序的输入:一个英文文本(text格式); 输出:关键字的匹配率。