隐私保护中的K-匿名算法实现 - SQL Server论坛

问题点数：0 回复次数：1

隐私保护中的K-匿名算法实现

年龄  性别    邮编    疾病
25    男    610041    感冒
22    男    610043    发烧
23     女    610046    艾滋病
27    男    610212    感冒
28    男    610213    感冒
27    男    610216    胃病
33    男    610222    前列腺炎
35    女    610225    乳腺癌

如上表，K-匿名的思想就是将他的前三个属性（准标示符属性）泛化，使其形成等价组。每个等价组中的准标示符属性都是一样的。如下E1、E2、E3分别是三个等价组，他们每条元组的准标示符属性是一样的，这样别人就不能轻易推出个人隐私信息。

年龄    性别    邮编    疾病       记录
20-25     *    61004*    感冒      ｔ1    E1
20-25     *    61004*    发烧      ｔ2
20-25     *    61004*    艾滋病    ｔ3
25-30    男    61021*    感冒      ｔ4    E2
25-30    男    61021*    感冒      ｔ5
25-30    男    61021*    胃病      ｔ6
30-35     *    61022*    前列腺炎  ｔ7    E3
30-35     *    61022*    乳腺癌    ｔ8

   现在只有是想，不知道怎么实现。在SQL中通过存储过程能不能实现？我是想先通过比较邮编，当每条记录出现的频数大于K，就比较年龄，在之前的基础上对年龄泛化，最后泛化性别。
   希望大虾能解答一下，说一下思路，或要用到的语句也行，不甚感激！

搜索更多相关主题的帖子: 艾滋病　乳腺癌