| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
欢迎加入我们,一同切磋技术
用户名:   
 
密 码:  
共有 1876 人关注过本帖
标题:文本相似度,余弦,BM25,TF-IDF ,DF
只看楼主 加入收藏
baisongasd
Rank: 2
等 级:论坛游民
帖 子:14
专家分:40
注 册:2011-1-12
结帖率:0
收藏
已结贴  问题点数:40 回复次数:1 
文本相似度,余弦,BM25,TF-IDF ,DF
我做的毕设题是文本相似度的计算,其中一个模块是文件的预处理
我理解的文件预处理包括对文件分词等统计功能.能够随意的统计一个字、词或者符号在文件中出现的次数。
去停用词就是两个文件,其中一个是想要进行停用词处理的文件,另一个是停用词所在的文件。需要做的是将要被处理的文件进行停用词处理。这个功能我做的差不多了。如果有需要的可以留言。
DF特征选择我不太明白,好像就是在去除停用词之后进行词频的统计,以DF词频为标准,对大于或者小于DF词频的进行删除。
TF-IDF加权希望高手重点解答
我希望得倒一些代码,部分的也行。我还有问题就是相似度的比较了 用余弦和BM25方法解决 大家能不能说具体些.
不要说些什么公式之类的,我会公式,但是无法用代码表示.
我QQ414107863
如果有代码 ,麻烦发下好吗,直接发进QQ邮箱就行
搜索更多相关主题的帖子: 符号 统计 
2011-02-25 09:18
dkzy56
Rank: 2
等 级:论坛游民
帖 子:6
专家分:43
注 册:2011-1-4
收藏
得分:40 
这个不大懂,做好的话可以分享一下!
2011-02-25 09:37
快速回复:文本相似度,余弦,BM25,TF-IDF ,DF
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.089150 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved