T-근접성 편집하기

IT위키

경고: 로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다. 로그인하거나 계정을 생성하면 편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.

편집을 취소할 수 있습니다. 이 편집을 되돌리려면 아래의 바뀐 내용을 확인한 후 게시해주세요.

최신판 당신의 편집
5번째 줄: 5번째 줄:
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질


*[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
* [[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
*각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함


==[[l-다양성]]의 취약점==
==[[l-다양성]]의 취약점==


;쏠림 공격 (skewness attack)
; 쏠림 공격 (skewness attack)
 
* 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
*정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함


;유사성 공격 (similarity attack)
;유사성 공격 (similarity attack)
* 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음


*비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
==적용 예시==


==적용 예시==
=== 조치 전 ===


===조치 전===
* 선거인 명부


{| class="wikitable"
{| class="wikitable"
! rowspan="2" |구분
!구분
! colspan="2" |속성자
!이름
! colspan="2" |민감한 정보
!지역코드
! rowspan="2" |비고
!연령
!성별
|-
|1
|김민준
|13053
|28
|남
|-
|2
|박지훈
|13068
|21
|남
|-
|3
|이지민
|13068
|29
|여
|-
|4
|최현우
|13053
|23
|남
|-
|5
|정서연
|14853
|50
|여
|-
|6
|송현준
|14850
|47
|남
|-
|7
|남예은
|14853
|55
|여
|-
|8
|성민재
|14850
|49
|남
|-
|9
|윤건우
|13053
|31
|남
|-
|10
|손윤서
|13053
|37
|여
|-
|11
|민우진
|13068
|36
|
|-
|-
|12
|허수빈
|13068
|35
|여
|}
* 비식별화된 의료 데이터
{| class="wikitable"
!구분
!지역코드
!지역코드
!연령
!연령
!원급
!성별
!질병
!질병
!비고
|-
|-
|1
|1
|476**
|130**
|2*
|< 30
|300
|*
|위궤양
|전립선염
| rowspan="3" |모두가 '위'와
| rowspan="4" |다양한 질병이
관련한 유사
혼재되어 안전
 
질병으로 취약
|-
|-
|2
|2
|476**
|130**
|2*
|< 30
|400
|*
|급성 위염
|전립선염
|-
|-
|3
|3
|476**
|130**
|2*
|< 30
|500
|*
|만성 위염
|고혈압
|-
|-
|4
|4
|4790*
|130**
|> 40
|< 30
|600
|*
|급성 위염
|고혈압
| rowspan="3" |다양한 질병이
혼재되어 안전
|-
|-
|5
|5
|4790*
|1485*
|> 40
|> 40
|1100
|*
|감기
|위암
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|-
|6
|6
|4790*
|1485*
|> 40
|> 40
|800
|*
|기관지염
|전립선염
|-
|-
|7
|7
|476**
|1485*
|> 40
|*
|고혈압
|-
|8
|1485*
|> 40
|*
|고혈압
|-
|9
|130**
|3*
|*
|위암
| rowspan="4" |모두가 동일
질병으로 취약
 
*([[l-다양성]] 등 적용 필요)
|-
|10
|130**
|3*
|3*
|700
|*
|기관지염
|위암
| rowspan="3" |다양한 질병이
혼재되어 안전
|-
|-
|8
|11
|476**
|130**
|3*
|3*
|900
|*
|폐렴
|위암
|-
|-
|9
|12
|476**
|130**
|3*
|3*
|1000
|*
|만성 위염
|위암
|}
|}


*[[k-익명성]] 및 [[l-다양성]] 모델에 의해 비식별화된 의료 데이터
* [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)


*레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
=== 조치 ===
*공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
*또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)


===조치===
* -다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
 
*t-근접성 모델을 적용하여 정보의 분포를 조절한 예


{| class="wikitable"
{| class="wikitable"
! rowspan="2" |구분
!구분
! colspan="2" |속성자
! colspan="2" |민감한 정보
! rowspan="2" |비고
|-
!지역코드
!지역코드
!연령
!나이
!원급
!성별
!질병
!질병
!비고
|-
|-
|1
|1
|4767*
|1305*
|< 40
|40
|300
|*
|위궤양
|전립선염
| rowspan="3" |급여의 분포와
| rowspan="4" |다양한 질병이
다양한 질병
혼재되어 안전
 
으로 안전
|-
|-
|3
|4
|4767*
|1305*
|< 40
|40
|500
|*
|만성 위염
|고혈압
|-
|-
|8
|9
|4767*
|1305*
|< 40
|40
|900
|*
|폐렴
|위암
|-
|-
|4
|10
|4790*
|1305*
|40
|40
|600
|*
|급성 위염
|위암
| rowspan="3" |급여의 분포와
 
다양한 질병
 
으로 안전
|-
|-
|5
|5
|4790*
|1485*
|> 40
|> 40
|1100
|*
|감기
|위암
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|-
|6
|6
|4790*
|1485*
|> 40
|*
|전립선염
|-
|7
|1485*
|> 40
|> 40
|800
|*
|기관지염
|고혈압
|-
|8
|1485*
|> 40
|*
|고혈압
|-
|2
|1306*
|≤ 40
|*
|전립선염
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|-
|4
|3
|4760*
|1306*
|3*
|≤ 40
|400
|*
|급성 위염
|고혈압
| rowspan="3" |급여의 분포와
 
다양한 질병
 
으로 안전
|-
|-
|7
|11
|4760*
|1306*
|3*
|≤ 40
|700
|*
|기관지염
|위암
|-
|-
|9
|12
|4760*
|1306*
|3*
|≤ 40
|1000
|*
|만성 위염
|위암
|}
|}


*레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
* 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
*레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
*조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐


==조치 방법==
== 추가 조치 ==


*t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
* ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요
*익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
*t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산


==같이 보기==
==같이 보기==


*[[k-익명성]]
*[[k-익명성]]
*[[l-다양성]]
*[[t-다양성]]
IT위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 IT위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소 편집 도움말 (새 창에서 열림)