T-근접성: Difference between revisions
From IT Wiki
No edit summary |
|||
Line 5: | Line 5: | ||
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질 | ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질 | ||
* [[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델 | *[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델 | ||
*각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함 | |||
==[[l-다양성]]의 취약점== | ==[[l-다양성]]의 취약점== | ||
; 쏠림 공격 (skewness attack) | ;쏠림 공격 (skewness attack) | ||
* 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 | |||
*정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 | |||
;유사성 공격 (similarity attack) | ;유사성 공격 (similarity attack) | ||
* 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음 | |||
*비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음 | |||
==적용 예시== | ==적용 예시== | ||
=== 조치 전 === | ===조치 전=== | ||
{| class="wikitable" | {| class="wikitable" | ||
!구분 | ! rowspan="2" |구분 | ||
! | ! colspan="2" |속성자 | ||
! | ! colspan="2" |민감한 정보 | ||
! rowspan="2" |비고 | |||
! | |||
| | |||
|- | |- | ||
!지역코드 | !지역코드 | ||
!연령 | !연령 | ||
! | !원급 | ||
!질병 | !질병 | ||
|- | |- | ||
|1 | |1 | ||
| | |476** | ||
| | |2* | ||
| | |300 | ||
| | |위궤양 | ||
| rowspan=" | | rowspan="3" |모두가 '위'와 | ||
관련한 유사 | |||
질병으로 취약 | |||
|- | |- | ||
|2 | |2 | ||
| | |476** | ||
| | |2* | ||
| | |400 | ||
| | |급성 위염 | ||
|- | |- | ||
|3 | |3 | ||
| | |476** | ||
| | |2* | ||
| | |500 | ||
| | |만성 위염 | ||
|- | |- | ||
|4 | |4 | ||
| | |4790* | ||
| | |> 40 | ||
| | |600 | ||
| | |급성 위염 | ||
| rowspan="3" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |- | ||
|5 | |5 | ||
| | |4790* | ||
|> 40 | |> 40 | ||
| | |1100 | ||
| | |감기 | ||
|- | |- | ||
|6 | |6 | ||
| | |4790* | ||
|> 40 | |> 40 | ||
| | |800 | ||
| | |기관지염 | ||
|- | |- | ||
|7 | |7 | ||
| | |476** | ||
| | |3* | ||
| | |00 | ||
| | |기관지염 | ||
| rowspan="3" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |- | ||
|8 | |8 | ||
| | |476** | ||
| | |3* | ||
| | |900 | ||
| | |폐렴 | ||
|- | |- | ||
|9 | |9 | ||
| | |476** | ||
|3* | |3* | ||
| | |1000 | ||
| | |만성 위염 | ||
| | |} | ||
* | *[[k-익명성]] 및 [[l-다양성]] 모델에 의해 비식별화된 의료 데이터 | ||
* | *레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염) | ||
* | *공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음 | ||
* | *또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원) | ||
=== 조치 === | ===조치=== | ||
* | *t-근접성 모델을 적용하여 정보의 분포를 조절한 예 | ||
{| class="wikitable" | {| class="wikitable" | ||
!구분 | ! rowspan="2" |구분 | ||
! colspan="2" |속성자 | |||
! colspan="2" |민감한 정보 | |||
! rowspan="2" |비고 | |||
|- | |||
!지역코드 | !지역코드 | ||
! | !연령 | ||
! | !원급 | ||
!질병 | !질병 | ||
|- | |- | ||
|1 | |1 | ||
| | |4767* | ||
| | |< 40 | ||
| | |300 | ||
| | |위궤양 | ||
| rowspan=" | | rowspan="3" |급여의 분포와 | ||
다양한 질병 | |||
으로 안전 | |||
|- | |- | ||
| | |3 | ||
| | |4767* | ||
| | |< 40 | ||
| | |500 | ||
| | |만성 위염 | ||
|- | |- | ||
| | |8 | ||
| | |4767* | ||
| | |< 40 | ||
| | |900 | ||
| | |폐렴 | ||
|- | |- | ||
| | |4 | ||
| | |4790* | ||
| | |> 40 | ||
| | |600 | ||
| | |급성 위염 | ||
| rowspan="3" |급여의 분포와 | |||
다양한 질병 | |||
으로 안전 | |||
|- | |- | ||
|5 | |5 | ||
| | |4790* | ||
|> 40 | |> 40 | ||
| | |1100 | ||
| | |감기 | ||
|- | |- | ||
|6 | |6 | ||
| | |4790* | ||
|> 40 | |> 40 | ||
|* | |800 | ||
| | |기관지염 | ||
|- | |||
|4 | |||
|4760* | |||
|3* | |||
|400 | |||
|급성 위염 | |||
| rowspan="3" |급여의 분포와 | |||
다양한 질병 | |||
으로 안전 | |||
|- | |- | ||
|7 | |7 | ||
| | |4760* | ||
| | |3* | ||
| | |700 | ||
| | |기관지염 | ||
|- | |- | ||
| | |9 | ||
| | |4760* | ||
|3* | |||
|1000 | |||
|만성 위염 | |||
|3 | |||
| | |||
| | |||
|} | |} | ||
* | *레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음 | ||
*레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움 | |||
*조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐 | |||
== | ==조치 방법== | ||
* | *t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향 | ||
*익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음 | |||
==같이 보기== | ==같이 보기== |
Revision as of 21:57, 13 May 2020
- t-closeness
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
- l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
- 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
l-다양성의 취약점
- 쏠림 공격 (skewness attack)
- 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
- 유사성 공격 (similarity attack)
- 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
적용 예시
조치 전
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역코드 | 연령 | 원급 | 질병 | ||
1 | 476** | 2* | 300 | 위궤양 | 모두가 '위'와
관련한 유사 질병으로 취약 |
2 | 476** | 2* | 400 | 급성 위염 | |
3 | 476** | 2* | 500 | 만성 위염 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 다양한 질병이
혼재되어 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
7 | 476** | 3* | 00 | 기관지염 | 다양한 질병이
혼재되어 안전 |
8 | 476** | 3* | 900 | 폐렴 | |
9 | 476** | 3* | 1000 | 만성 위염 |
- 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
- 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
- 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)
조치
- t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 | 속성자 | 민감한 정보 | 비고 | ||
---|---|---|---|---|---|
지역코드 | 연령 | 원급 | 질병 | ||
1 | 4767* | < 40 | 300 | 위궤양 | 급여의 분포와
다양한 질병 으로 안전 |
3 | 4767* | < 40 | 500 | 만성 위염 | |
8 | 4767* | < 40 | 900 | 폐렴 | |
4 | 4790* | > 40 | 600 | 급성 위염 | 급여의 분포와
다양한 질병 으로 안전 |
5 | 4790* | > 40 | 1100 | 감기 | |
6 | 4790* | > 40 | 800 | 기관지염 | |
4 | 4760* | 3* | 400 | 급성 위염 | 급여의 분포와
다양한 질병 으로 안전 |
7 | 4760* | 3* | 700 | 기관지염 | |
9 | 4760* | 3* | 1000 | 만성 위염 |
- 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
- 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
- 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
조치 방법
- t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
- 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음