隐私保护中的K-匿名算法实现
年龄 性别 邮编 疾病25 男 610041 感冒
22 男 610043 发烧
23 女 610046 艾滋病
27 男 610212 感冒
28 男 610213 感冒
27 男 610216 胃病
33 男 610222 前列腺炎
35 女 610225 乳腺癌
如上表,K-匿名的思想就是将他的前三个属性(准标示符属性)泛化,使其形成等价组。每个等价组中的准标示符属性都是一样的。如下E1、E2、E3分别是三个等价组,他们每条元组的准标示符属性是一样的,这样别人就不能轻易推出个人隐私信息。
年龄 性别 邮编 疾病 记录
20-25 * 61004* 感冒 t1 E1
20-25 * 61004* 发烧 t2
20-25 * 61004* 艾滋病 t3
25-30 男 61021* 感冒 t4 E2
25-30 男 61021* 感冒 t5
25-30 男 61021* 胃病 t6
30-35 * 61022* 前列腺炎 t7 E3
30-35 * 61022* 乳腺癌 t8
现在只有是想 ,不知道怎么实现。在SQL中通过存储过程能不能实现?我是想先通过比较邮编,当每条记录出现的频数大于K,就比较年龄,在之前的基础上对年龄泛化,最后泛化性别。
希望大虾能解答一下,说一下思路,或要用到的语句也行,不甚感激!