T-근접성 편집하기
IT위키
편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.
최신판 | 당신의 편집 | ||
5번째 줄: | 5번째 줄: | ||
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질 | ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질 | ||
*[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델 | * [[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델 | ||
==[[l-다양성]]의 취약점== | ==[[l-다양성]]의 취약점== | ||
;쏠림 공격 (skewness attack) | ; 쏠림 공격 (skewness attack) | ||
* 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 | |||
*정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 | |||
;유사성 공격 (similarity attack) | ;유사성 공격 (similarity attack) | ||
* 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음 | |||
==적용 예시== | |||
== | === 조치 전 === | ||
* 선거인 명부 | |||
{| class="wikitable" | {| class="wikitable" | ||
! | !구분 | ||
! | !이름 | ||
!지역코드 | |||
!연령 | |||
!성별 | |||
|- | |||
|1 | |||
|김민준 | |||
|13053 | |||
|28 | |||
|남 | |||
|- | |||
|2 | |||
|박지훈 | |||
|13068 | |||
|21 | |||
|남 | |||
|- | |||
|3 | |||
|이지민 | |||
|13068 | |||
|29 | |||
|여 | |||
|- | |||
|4 | |||
|최현우 | |||
|13053 | |||
|23 | |||
|남 | |||
|- | |||
|5 | |||
|정서연 | |||
|14853 | |||
|50 | |||
|여 | |||
|- | |||
|6 | |||
|송현준 | |||
|14850 | |||
|47 | |||
|남 | |||
|- | |||
|7 | |||
|남예은 | |||
|14853 | |||
|55 | |||
|여 | |||
|- | |||
|8 | |||
|성민재 | |||
|14850 | |||
|49 | |||
|남 | |||
|- | |||
|9 | |||
|윤건우 | |||
|13053 | |||
|31 | |||
|남 | |||
|- | |||
|10 | |||
|손윤서 | |||
|13053 | |||
|37 | |||
|여 | |||
|- | |||
|11 | |||
|민우진 | |||
|13068 | |||
|36 | |||
|남 | |||
|- | |- | ||
|12 | |||
|허수빈 | |||
|13068 | |||
|35 | |||
|여 | |||
|} | |||
* 비식별화된 의료 데이터 | |||
{| class="wikitable" | |||
!구분 | |||
!지역코드 | !지역코드 | ||
!연령 | !연령 | ||
! | !성별 | ||
!질병 | !질병 | ||
!비고 | |||
|- | |- | ||
|1 | |1 | ||
| | |130** | ||
| | |< 30 | ||
| | |* | ||
| | |전립선염 | ||
| rowspan=" | | rowspan="4" |다양한 질병이 | ||
혼재되어 안전 | |||
|- | |- | ||
|2 | |2 | ||
| | |130** | ||
| | |< 30 | ||
| | |* | ||
| | |전립선염 | ||
|- | |- | ||
|3 | |3 | ||
| | |130** | ||
| | |< 30 | ||
| | |* | ||
| | |고혈압 | ||
|- | |- | ||
|4 | |4 | ||
| | |130** | ||
| | |< 30 | ||
| | |* | ||
|고혈압 | |||
| | |||
|- | |- | ||
|5 | |5 | ||
| | |1485* | ||
|> 40 | |> 40 | ||
| | |* | ||
| | |위암 | ||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |- | ||
|6 | |6 | ||
| | |1485* | ||
|> 40 | |> 40 | ||
| | |* | ||
| | |전립선염 | ||
|- | |- | ||
|7 | |7 | ||
| | |1485* | ||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|8 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|9 | |||
|130** | |||
|3* | |||
|* | |||
|위암 | |||
| rowspan="4" |모두가 동일 | |||
질병으로 취약 | |||
*([[l-다양성]] 등 적용 필요) | |||
|- | |||
|10 | |||
|130** | |||
|3* | |3* | ||
| | |* | ||
| | |위암 | ||
|- | |- | ||
| | |11 | ||
| | |130** | ||
|3* | |3* | ||
| | |* | ||
| | |위암 | ||
|- | |- | ||
| | |12 | ||
| | |130** | ||
|3* | |3* | ||
| | |* | ||
| | |위암 | ||
|} | |} | ||
*[[k-익명성]] | * [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족 | ||
* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격) | |||
* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격) | |||
=== 조치 === | |||
* ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터 | |||
* | |||
{| class="wikitable" | {| class="wikitable" | ||
! | !구분 | ||
!지역코드 | !지역코드 | ||
! | !나이 | ||
! | !성별 | ||
!질병 | !질병 | ||
!비고 | |||
|- | |- | ||
|1 | |1 | ||
| | |1305* | ||
| | |≤ 40 | ||
| | |* | ||
| | |전립선염 | ||
| rowspan=" | | rowspan="4" |다양한 질병이 | ||
다양한 | 혼재되어 안전 | ||
|- | |- | ||
| | |4 | ||
| | |1305* | ||
| | |≤ 40 | ||
| | |* | ||
| | |고혈압 | ||
|- | |- | ||
| | |9 | ||
| | |1305* | ||
| | |≤ 40 | ||
| | |* | ||
| | |위암 | ||
|- | |- | ||
| | |10 | ||
| | |1305* | ||
| | |≤ 40 | ||
| | |* | ||
|위암 | |||
| | |||
|- | |- | ||
|5 | |5 | ||
| | |1485* | ||
|> 40 | |> 40 | ||
| | |* | ||
| | |위암 | ||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |- | ||
|6 | |6 | ||
| | |1485* | ||
|> 40 | |||
|* | |||
|전립선염 | |||
|- | |||
|7 | |||
|1485* | |||
|> 40 | |> 40 | ||
| | |* | ||
| | |고혈압 | ||
|- | |||
|8 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|2 | |||
|1306* | |||
|≤ 40 | |||
|* | |||
|전립선염 | |||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |- | ||
| | |3 | ||
|1306* | |||
| | |≤ 40 | ||
| | |* | ||
| | |고혈압 | ||
| | |||
|- | |- | ||
| | |11 | ||
| | |1306* | ||
| | |≤ 40 | ||
| | |* | ||
| | |위암 | ||
|- | |- | ||
| | |12 | ||
| | |1306* | ||
| | |≤ 40 | ||
| | |* | ||
| | |위암 | ||
|} | |} | ||
* | * 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨 | ||
==조치 | == 추가 조치 == | ||
* | * ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요 | ||
==같이 보기== | ==같이 보기== | ||
*[[k-익명성]] | *[[k-익명성]] | ||
*[[ | *[[t-다양성]] |