文本相似度,余弦,BM25,TF-IDF ,DF
我做的毕设题是文本相似度的计算,其中一个模块是文件的预处理我理解的文件预处理包括对文件分词等统计功能.能够随意的统计一个字、词或者符号在文件中出现的次数。
去停用词就是两个文件,其中一个是想要进行停用词处理的文件,另一个是停用词所在的文件。需要做的是将要被处理的文件进行停用词处理。这个功能我做的差不多了。如果有需要的可以留言。
DF特征选择我不太明白,好像就是在去除停用词之后进行词频的统计,以DF词频为标准,对大于或者小于DF词频的进行删除。
TF-IDF加权希望高手重点解答
我希望得倒一些代码,部分的也行。我还有问题就是相似度的比较了 用余弦和BM25方法解决 大家能不能说具体些.
不要说些什么公式之类的,我会公式,但是无法用代码表示.
我QQ414107863
如果有代码 ,麻烦发下好吗,直接发进QQ邮箱就行