T-다양성

From IT Wiki
Revision as of 23:21, 6 May 2020 by 김창수 (talk | contribs)
t-closeness
l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델

l-다양성의 취약점

쏠림 공격 (skewness attack)
  • 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
  • 쏠림 공격의 예: 특정 대상이 속한 데이터의 99%가 '위암'이라면 공격 대상이 99%의 확률로 위암
유사성 공격 (similarity attack)
  • 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

예시

  • l-다양성 모델에 의해 비식별된 데이터
구분 속성자 민감한 정보 비고
지역 코드 연령 급여(백만원) 질병
1 476** 2* 30 위궤양 모두가 ‘위’와 관련한

유사 질병으로 취약

2 476** 2* 40 급성 위염
3 476** 2* 50 만성 위염
4 4790* ≥ 40 60 급성 위염 다양한 질병이

혼재되어 안전

5 4790* ≥ 40 110 감기
6 4790* ≥ 40 80 기관지염
7 476** 3* 70 기관지염 다양한 질병이

혼재되어 안전

8 476** 3* 90 폐렴
9 476** 3* 100 만성 위염
  • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
  • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
  • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(30 ~ 50백만원)
  • t-근접성 적용
구분 속성자 민감한 정보 비고
지역 코드 연령 급여(백만원) 질병
1 4767* ≤ 40 30 위궤양 급여와 질병의

다양한 분포로 안전

3 4767* ≤ 40 50 만성 위염
8 4767* ≤ 40 90 폐렴
4 4790* ≥ 40 60 급성 위염 급여와 질병의

다양한 분포로 안전

5 4790* ≥ 40 110 감기
6 4790* ≥ 40 80 기관지염
2 4760* 3* 40 급성 위염 급여와 질병의

다양한 분포로 안전

7 4760* 3* 70 기관지염
9 4760* 3* 100 만성 위염

같이 보기