求各位帮忙分析下这个怎么实现找句子中心句的算法
【课题5】假定每一段都有段落中心,段落中心句是与本段中所有其它语句相关度最高的语句,找段落的中心句。每个句子看成为一个文档,其相关度的计算思想如下:
设 为第i个文档, 为第i个文档对应的第m个短语,
为第i个文档中第m个短语的特征,则文档 与 的相关度为:
其中:
i= 1, 2 ,3 ,4
包含关系计算:
L为包含关系存在的层次。
概念主类计算:
α=1
为两个概念主类。
义原在Taxonomy树上的距离节点相似计算如下:
同层相同节点的计算 :
为同层相同节点数
为同层最大节点数
是层次数
动态角色domain处理(两个det中都存在domain): =
a为相同domain节点个数
为两个det的最深层
两个det相同节点数与总节点数的计算: =
a:相同节点个数
:第1个det的节点数
:第2个det的节点数
主类义原相的计算 ,计算方法同 。
惩罚因子: 1;否定关系 0.3;其它指定关系 0.35
短语特征值(tim)
短语 的平均权重
标题短语权重最高, 次标题短语权重次之,内容短语权重最低,专业短语权重比普通短语高。
t:不重复短语数
为短语平均频率
文档中短语 出现的次数
文档中短语总数
短语平均深度
短语 第一次出现原短语数
文档中短语总数
文档 (包含 短语)的文档频率
包含 短语的文档数
所有文档 总数