1, 目的决策树分级fi呃是分类情况价值观为基础的普通属性和阶级标签 属性. 传统上,数据集是单值和单标记.
这个数据集, 每个记录有许多单值属性与某个单一标记属性(即标签的阶级属性) , 和阶级标签,可以有两种或两种以上的排他性对方或一 另.
在先决策树fi分级培训等的ID3 ( Quinlan先生1979年, 1986年) ,距离法( mantaras年, 1991年) ,集成电路(
Agrawal先生,会Ghosh , imielinski ,艾耶, &斯瓦米, 1992 )算法C4.5 ( Quinlan先生1993 )
,模糊ID3 ( umano】. , 1994 ) ,车(斯坦伯格& Colla人, 1995年) ,基于SLIQ (梅达 Agrawal先生,
& Rissanen-这个, 1996年) ,斯普林特(菲, Agrawal先生, &梅达1996 ) ,热带雨林(赫尔克,
Ramakrishnan预计, &坞, 1998 ) ,公众(评述&垫片, 1998年) ,全部集中在这个单值和单标记的数据集.
不过,有多重价值和多种标记的数据,在现实世界中如表1所示. 多值数据意味着一个记录可以有多重价值,一个普通属性. 多标签数据意味着一个记录可以属于多类标签
和阶级标签不排斥对方的一个或另一个. 读者可能有家庭综合ficulties区分多标记的数据,由双游或多排名资料中提到了一些相关的工程.
为澄清这种混乱,我们就排在班级, 若干阶层和代表的阶级属性标签,在相关的工程如下:
. 排他性:每个数据只能属于一个阶层. 班排在一起的. 实例表明,基于距离的方法,集成电路,算法C4.5 ,模糊ID3 ,车,
SLIQ的,短跑,雨林和市民都是这样的例子. 2 . 数字类:数据与班级分级fi署为两种类型的阶级属性标签被称为双排名数据. 的ID3算法C4.5
,都是这样的例子. 数据分级班fi署成两种以上的阶级属性标签被称为多类数据. 集成电路,车和模糊ID3都是这样的例子. 3 .
标签代表性:数据与单一价值的阶级属性标签被称为单标记数据. 实例表明,基于距离的方法,集成电路,算法C4.5 ,模糊ID3 ,车,
SLIQ的,短跑,雨林和市民都是这样的例子. 根据以上的讨论,多值和多标记的数据,作为我们德fi相中这里可以锤击作为一个非排他性的, 多类多标签数据.
在我们以往的工作(陈,许, &周, 2003 ) 我们已经解释了为什么传统的分级fi再没有能力处理这多值和多标签数据.
解决这一多值和多标记分级fi型阳离子交换问题, 我们设计了一个决策树分级fi呃命名的MMC (匡丽红 , 2003年)之前.
MMC技术不同于传统的,在一些主要功能包括日益增长决策树 标签指派代表一片叶子,而作出预测一个新的数据. 在这个过程中越来越多一棵树,
MMC技术提出了新的举措命名加权相似选择多属性划分的一个节点进入儿童节点 办法完美组合. 转让标签,丝裂霉素复苏中的数量大到足以代表一片叶子.
作一个预测一个新的数据,丝裂霉素沿途树上如常 以及导线数达到叶子节点的纪录多值属性 丝裂霉素会联盟所有标签的叶节点作为预测结果. 实验结果表明,
MMC可以得到平均预测准确性62.56% . 具有决定分级fi呃发达的多值和多标记的数据,本研究的步骤,进一步改进分级fi耳的准确性.
考虑到以下这些超额fi下面的问题(汉与羊驼, 2001年; 罗素& norving年, 1995年)的MMC ,
改善了predictingaccuracy看来是可能的. 首先, MMC可以忽略,以避免这种情况的数据集,实在太少. 因此,可以选择一些属性无关的阶级标签.
第二,丝裂霉素似乎宁愿属性,分成儿童节点较大的相似性多标签. 因此, MMC可以归纳存在偏见(戈登& Desjardins举行, 1995年) .
试图减少过度fi高温上述问题,本文提出了解决的办法如下: ( 1 )设置约束大小的数据集,在每个节点,以避免数据集过于 小. ( 2
)不仅考虑平均相似度标签每个孩子节点,而且平均适宜标签 每个孩子节点,以减少偏见问题mmc.based对上述命题,
我们已经设计了一种新的决策树分级fi呃精度的提高兴决策树分级fi呃 命名mmdt (多值和多标记决策树) ,可以构建一个多值和多标记决策树为无花果. 1所示.
其余的文件是安排如下. 在第2 ,符号将推出fi踏. 在第3 ,树木和建筑数据预测算法描述. 在第4节的实验结果. ,fi牧,第5总结和结论.
这个还可以吧借鉴下,共同研究!