文本相似度,余弦,BM25,TF-IDF ,DF - VC++/MFC - C++论坛

已结贴√ 问题点数：40 回复次数：1

文本相似度,余弦,BM25,TF-IDF ,DF

我做的毕设题是文本相似度的计算，其中一个模块是文件的预处理
我理解的文件预处理包括对文件分词等统计功能.能够随意的统计一个字、词或者符号在文件中出现的次数。
去停用词就是两个文件，其中一个是想要进行停用词处理的文件，另一个是停用词所在的文件。需要做的是将要被处理的文件进行停用词处理。这个功能我做的差不多了。如果有需要的可以留言。
DF特征选择我不太明白，好像就是在去除停用词之后进行词频的统计，以DF词频为标准，对大于或者小于DF词频的进行删除。
TF-IDF加权希望高手重点解答
我希望得倒一些代码,部分的也行。我还有问题就是相似度的比较了用余弦和BM25方法解决大家能不能说具体些.
不要说些什么公式之类的,我会公式,但是无法用代码表示.
我QQ414107863
如果有代码 ,麻烦发下好吗,直接发进QQ邮箱就行

搜索更多相关主题的帖子: 符号　统计