T-근접성: 두 판 사이의 차이

IT위키
(새 문서: 분류:개인정보보호 분류:데이터 과학 ;t-closeness ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의...)
 
편집 요약 없음
5번째 줄: 5번째 줄:
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질


* [[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
*[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
*각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함


==[[l-다양성]]의 취약점==
==[[l-다양성]]의 취약점==


; 쏠림 공격 (skewness attack)
;쏠림 공격 (skewness attack)
* 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
 
*정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함


;유사성 공격 (similarity attack)
;유사성 공격 (similarity attack)
* 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
 
*비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음


==적용 예시==
==적용 예시==


=== 조치 전 ===
===조치 전===
 
* 선거인 명부


{| class="wikitable"
{| class="wikitable"
!구분
! rowspan="2" |구분
!이름
! colspan="2" |속성자
!지역코드
! colspan="2" |민감한 정보
!연령
! rowspan="2" |비고
!성별
|-
|1
|김민준
|13053
|28
|남
|-
|2
|박지훈
|13068
|21
|남
|-
|3
|이지민
|13068
|29
|여
|-
|4
|최현우
|13053
|23
|남
|-
|5
|정서연
|14853
|50
|여
|-
|6
|송현준
|14850
|47
|남
|-
|7
|남예은
|14853
|55
|여
|-
|8
|성민재
|14850
|49
|남
|-
|9
|윤건우
|13053
|31
|남
|-
|10
|손윤서
|13053
|37
|여
|-
|11
|민우진
|13068
|36
|
|-
|-
|12
|허수빈
|13068
|35
|여
|}
* 비식별화된 의료 데이터
{| class="wikitable"
!구분
!지역코드
!지역코드
!연령
!연령
!성별
!원급
!질병
!질병
!비고
|-
|-
|1
|1
|130**
|476**
|< 30
|2*
|*
|300
|전립선염
|위궤양
| rowspan="4" |다양한 질병이
| rowspan="3" |모두가 '위'와
혼재되어 안전
관련한 유사
 
질병으로 취약
|-
|-
|2
|2
|130**
|476**
|< 30
|2*
|*
|400
|전립선염
|급성 위염
|-
|-
|3
|3
|130**
|476**
|< 30
|2*
|*
|500
|고혈압
|만성 위염
|-
|-
|4
|4
|130**
|4790*
|< 30
|> 40
|*
|600
|고혈압
|급성 위염
| rowspan="3" |다양한 질병이
혼재되어 안전
|-
|-
|5
|5
|1485*
|4790*
|> 40
|> 40
|*
|1100
|위암
|감기
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|-
|6
|6
|1485*
|4790*
|> 40
|> 40
|*
|800
|전립선염
|기관지염
|-
|-
|7
|7
|1485*
|476**
|> 40
|3*
|*
|00
|고혈압
|기관지염
| rowspan="3" |다양한 질병이
혼재되어 안전
|-
|-
|8
|8
|1485*
|476**
|> 40
|3*
|*
|900
|고혈압
|폐렴
|-
|-
|9
|9
|130**
|476**
|3*
|3*
|*
|1000
|위암
|만성 위염
| rowspan="4" |모두가 동일
|}
질병으로 취약


*([[l-다양성]] 등 적용 필요)
*[[k-익명성]] 및 [[l-다양성]] 모델에 의해 비식별화된 의료 데이터
|-
|10
|130**
|3*
|*
|위암
|-
|11
|130**
|3*
|*
|위암
|-
|12
|130**
|3*
|*
|위암
|}


* [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
*레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
*공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음  
* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)
*또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)


=== 조치 ===
===조치===


* -다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
*t-근접성 모델을 적용하여 정보의 분포를 조절한 예


{| class="wikitable"
{| class="wikitable"
!구분
! rowspan="2" |구분
! colspan="2" |속성자
! colspan="2" |민감한 정보
! rowspan="2" |비고
|-
!지역코드
!지역코드
!나이
!연령
!성별
!원급
!질병
!질병
!비고
|-
|-
|1
|1
|1305*
|4767*
|40
|< 40
|*
|300
|전립선염
|위궤양
| rowspan="4" |다양한 질병이
| rowspan="3" |급여의 분포와
혼재되어 안전
다양한 질병
 
으로 안전
|-
|-
|4
|3
|1305*
|4767*
|40
|< 40
|*
|500
|고혈압
|만성 위염
|-
|-
|9
|8
|1305*
|4767*
|40
|< 40
|*
|900
|위암
|폐렴
|-
|-
|10
|4
|1305*
|4790*
|40
|40
|*
|600
|위암
|급성 위염
| rowspan="3" |급여의 분포와
 
다양한 질병
 
으로 안전
|-
|-
|5
|5
|1485*
|4790*
|> 40
|> 40
|*
|1100
|위암
|감기
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|-
|6
|6
|1485*
|4790*
|> 40
|> 40
|*
|800
|전립선염
|기관지염
|-
|4
|4760*
|3*
|400
|급성 위염
| rowspan="3" |급여의 분포와
 
다양한 질병
 
으로 안전
|-
|-
|7
|7
|1485*
|4760*
|> 40
|3*
|*
|700
|고혈압
|기관지염
|-
|-
|8
|9
|1485*
|4760*
|> 40
|3*
|*
|1000
|고혈압
|만성 위염
|-
|2
|1306*
|≤ 40
|*
|전립선염
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|3
|1306*
|≤ 40
|*
|고혈압
|-
|11
|1306*
|≤ 40
|*
|위암
|-
|12
|1306*
|≤ 40
|*
|위암
|}
|}


* 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
*레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
*레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
*조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐


== 추가 조치 ==
==조치 방법==


* ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요
*t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
*익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음


==같이 보기==
==같이 보기==

2020년 5월 13일 (수) 21:57 판


t-closeness
동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
  • l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
  • 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함

l-다양성의 취약점

쏠림 공격 (skewness attack)
  • 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
유사성 공격 (similarity attack)
  • 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

적용 예시

조치 전

구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 476** 2* 300 위궤양 모두가 '위'와

관련한 유사

질병으로 취약

2 476** 2* 400 급성 위염
3 476** 2* 500 만성 위염
4 4790* > 40 600 급성 위염 다양한 질병이

혼재되어 안전

5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
7 476** 3* 00 기관지염 다양한 질병이

혼재되어 안전

8 476** 3* 900 폐렴
9 476** 3* 1000 만성 위염
  • 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
  • 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
  • 또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)

조치

  • t-근접성 모델을 적용하여 정보의 분포를 조절한 예
구분 속성자 민감한 정보 비고
지역코드 연령 원급 질병
1 4767* < 40 300 위궤양 급여의 분포와

다양한 질병

으로 안전

3 4767* < 40 500 만성 위염
8 4767* < 40 900 폐렴
4 4790* > 40 600 급성 위염 급여의 분포와

다양한 질병

으로 안전

5 4790* > 40 1100 감기
6 4790* > 40 800 기관지염
4 4760* 3* 400 급성 위염 급여의 분포와

다양한 질병

으로 안전

7 4760* 3* 700 기관지염
9 4760* 3* 1000 만성 위염
  • 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
  • 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
  • 조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

조치 방법

  • t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
  • 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음

같이 보기