T-다양성
From IT Wiki
Revision as of 16:22, 8 March 2020 by Itwiki (talk | contribs) (문자열 찾아 바꾸기 - "분류:데이터 분석" 문자열을 "분류:데이터/통계학" 문자열로)
- t-closeness
- l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
l-다양성의 취약점
- 쏠림 공격 (skewness attack)
- 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
- 쏠림 공격의 예: 특정 대상이 속한 데이터의 99%가 '위암'이라면 공격 대상이 99%의 확률로 위암
- 유사성 공격 (similarity attack)
- 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
예시
- l-다양성 모델에 의해 비식별된 데이터
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역 코드 | 연령 | 급여(백만원) | 질병 | ||
1 | 476** | 2* | 30 | 위궤양 | 모두가 ‘위’와 관련한
유사 질병으로 취약 |
2 | 476** | 2* | 40 | 급성 위염 | |
3 | 476** | 2* | 50 | 만성 위염 | |
4 | 4790* | ≥ 40 | 60 | 급성 위염 | 다양한 질병이
혼재되어 안전 |
5 | 4790* | ≥ 40 | 110 | 감기 | |
6 | 4790* | ≥ 40 | 80 | 기관지염 | |
7 | 476** | 3* | 70 | 기관지염 | 다양한 질병이
혼재되어 안전 |
8 | 476** | 3* | 90 | 폐렴 | |
9 | 476** | 3* | 100 | 만성 위염 |
- 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
- 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
- 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(30 ~ 50백만원)
- t-근접성 적용
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역 코드 | 연령 | 급여(백만원) | 질병 | ||
1 | 4767* | ≤ 40 | 30 | 위궤양 | 급여와 질병의
다양한 분포로 안전 |
3 | 4767* | ≤ 40 | 50 | 만성 위염 | |
8 | 4767* | ≤ 40 | 90 | 폐렴 | |
4 | 4790* | ≥ 40 | 60 | 급성 위염 | 급여와 질병의
다양한 분포로 안전 |
5 | 4790* | ≥ 40 | 110 | 감기 | |
6 | 4790* | ≥ 40 | 80 | 기관지염 | |
2 | 4760* | 3* | 40 | 급성 위염 | 급여와 질병의
다양한 분포로 안전 |
7 | 4760* | 3* | 70 | 기관지염 | |
9 | 4760* | 3* | 100 | 만성 위염 |