T-근접성: 두 판 사이의 차이

2020년 5월 13일 (수) 21:57 판

t-closeness
동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질

l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함

l-다양성의 취약점

쏠림 공격 (skewness attack)

정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함

유사성 공격 (similarity attack)

비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

적용 예시

조치 전

구분	속성자		민감한 정보		비고
구분	지역코드	연령	원급	질병	비고
1	476**	2*	300	위궤양	모두가 '위'와 관련한 유사 질병으로 취약
2	476**	2*	400	급성 위염
3	476**	2*	500	만성 위염
4	4790*	＞ 40	600	급성 위염	다양한 질병이 혼재되어 안전
5	4790*	＞ 40	1100	감기
6	4790*	＞ 40	800	기관지염
7	476**	3*	00	기관지염	다양한 질병이 혼재되어 안전
8	476**	3*	900	폐렴
9	476**	3*	1000	만성 위염

k-익명성 및 l-다양성 모델에 의해 비식별화된 의료 데이터

레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)

조치

t-근접성 모델을 적용하여 정보의 분포를 조절한 예

구분	속성자		민감한 정보		비고
구분	지역코드	연령	원급	질병	비고
1	4767*	< 40	300	위궤양	급여의 분포와 다양한 질병 으로 안전
3	4767*	< 40	500	만성 위염
8	4767*	< 40	900	폐렴
4	4790*	＞ 40	600	급성 위염	급여의 분포와 다양한 질병 으로 안전
5	4790*	＞ 40	1100	감기
6	4790*	＞ 40	800	기관지염
4	4760*	3*	400	급성 위염	급여의 분포와 다양한 질병 으로 안전
7	4760*	3*	700	기관지염
9	4760*	3*	1000	만성 위염

레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

조치 방법

t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음

같이 보기

익명 사용자

검색

T-근접성: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2020년 5월 13일 (수) 21:57 판

목차

l-다양성의 취약점

적용 예시

조치 전

조치

조치 방법

같이 보기

둘러보기

둘러보기

분류별 보기

광고

위키 도구

위키 도구

@@ 5번째 줄: / 5번째 줄: @@
 ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질
-* [[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
+*[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
+*각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
 ==[[l-다양성]]의 취약점==
-; 쏠림 공격 (skewness attack)
+;쏠림 공격 (skewness attack)
-* 정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
+*정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함
 ;유사성 공격 (similarity attack)
-* 비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
+*비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음
 ==적용 예시==
-=== 조치 전 ===
+===조치 전===
-* 선거인 명부
 {| class="wikitable"
-!구분
+! rowspan="2" |구분
-!이름
+! colspan="2" |속성자
-!지역코드
+! colspan="2" |민감한 정보
-!연령
+! rowspan="2" |비고
-!성별
-|-
-|1
-|김민준
-|13053
-|28
-|남
-|-
-|2
-|박지훈
-|13068
-|21
-|남
-|-
-|3
-|이지민
-|13068
-|29
-|여
-|-
-|4
-|최현우
-|13053
-|23
-|남
-|-
-|5
-|정서연
-|14853
-|50
-|여
-|-
-|6
-|송현준
-|14850
-|47
-|남
-|-
-|7
-|남예은
-|14853
-|55
-|여
-|-
-|8
-|성민재
-|14850
-|49
-|남
-|-
-|9
-|윤건우
-|13053
-|31
-|남
-|-
-|10
-|손윤서
-|13053
-|37
-|여
-|-
-|11
-|민우진
-|13068
-|36
-|남
 |-
-|12
-|허수빈
-|13068
-|35
-|여
-|}
-* 비식별화된 의료 데이터
-{| class="wikitable"
-!구분
 !지역코드
 !연령
-!성별
+!원급
 !질병
-!비고
 |-
 |1
-|130**
+|476**
-|＜ 30
+|2*
-|*
+|300
-|전립선염
+|위궤양
-| rowspan="4" |다양한 질병이
+| rowspan="3" |모두가 '위'와
-혼재되어 안전
+관련한 유사
+질병으로 취약
 |-
 |2
-|130**
+|476**
-|＜ 30
+|2*
-|*
+|400
-|전립선염
+|급성 위염
 |-
 |3
-|130**
+|476**
-|＜ 30
+|2*
-|*
+|500
-|고혈압
+|만성 위염
 |-
 |4
-|130**
+|4790*
-|＜ 30
+|＞ 40
-|*
+|600
-|고혈압
+|급성 위염
+| rowspan="3" |다양한 질병이
+혼재되어 안전
 |-
 |5
-|1485*
+|4790*
 |＞ 40
-|*
+|1100
-|위암
+|감기
-| rowspan="4" |다양한 질병이
-혼재되어 안전
 |-
 |6
-|1485*
+|4790*
 |＞ 40
-|*
+|800
-|전립선염
+|기관지염
 |-
 |7
-|1485*
+|476**
-|＞ 40
+|3*
-|*
+|00
-|고혈압
+|기관지염
+| rowspan="3" |다양한 질병이
+혼재되어 안전
 |-
 |8
-|1485*
+|476**
-|＞ 40
+|3*
-|*
+|900
-|고혈압
+|폐렴
 |-
 |9
-|130**
+|476**
 |3*
-|*
+|1000
-|위암
+|만성 위염
-| rowspan="4" |모두가 동일
+|}
-질병으로 취약
-*([[l-다양성]] 등 적용 필요)
+*[[k-익명성]] 및 [[l-다양성]] 모델에 의해 비식별화된 의료 데이터
-|-
-|10
-|130**
-|3*
-|*
-|위암
-|-
-|11
-|130**
-|3*
-|*
-|위암
-|-
-|12
-|130**
-|3*
-|*
-|위암
-|}
-* [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
+*레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
-* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
+*공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
-* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)
+*또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)
-=== 조치 ===
+===조치===
-* ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
+*t-근접성 모델을 적용하여 정보의 분포를 조절한 예
 {| class="wikitable"
-!구분
+! rowspan="2" |구분
+! colspan="2" |속성자
+! colspan="2" |민감한 정보
+! rowspan="2" |비고
+|-
 !지역코드
-!나이
+!연령
-!성별
+!원급
 !질병
-!비고
 |-
 |1
-|1305*
+|4767*
-|≤ 40
+|< 40
-|*
+|300
-|전립선염
+|위궤양
-| rowspan="4" |다양한 질병이
+| rowspan="3" |급여의 분포와
-혼재되어 안전
+다양한 질병
+으로 안전
 |-
-|4
+|3
-|1305*
+|4767*
-|≤ 40
+|< 40
-|*
+|500
-|고혈압
+|만성 위염
 |-
-|9
+|8
-|1305*
+|4767*
-|≤ 40
+|< 40
-|*
+|900
-|위암
+|폐렴
 |-
-|10
+|4
-|1305*
+|4790*
-|≤ 40
+|＞ 40
-|*
+|600
-|위암
+|급성 위염
+| rowspan="3" |급여의 분포와
+다양한 질병
+으로 안전
 |-
 |5
-|1485*
+|4790*
 |＞ 40
-|*
+|1100
-|위암
+|감기
-| rowspan="4" |다양한 질병이
-혼재되어 안전
 |-
 |6
-|1485*
+|4790*
 |＞ 40
-|*
+|800
-|전립선염
+|기관지염
+|-
+|4
+|4760*
+|3*
+|400
+|급성 위염
+| rowspan="3" |급여의 분포와
+다양한 질병
+으로 안전
 |-
 |7
-|1485*
+|4760*
-|＞ 40
+|3*
-|*
+|700
-|고혈압
+|기관지염
 |-
-|8
+|9
-|1485*
+|4760*
-|＞ 40
+|3*
-|*
+|1000
-|고혈압
+|만성 위염
-|-
-|2
-|1306*
-|≤ 40
-|*
-|전립선염
-| rowspan="4" |다양한 질병이
-혼재되어 안전
-|-
-|3
-|1306*
-|≤ 40
-|*
-|고혈압
-|-
-|11
-|1306*
-|≤ 40
-|*
-|위암
-|-
-|12
-|1306*
-|≤ 40
-|*
-|위암
 |}
-* 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
+*레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
+*레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
+*조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
-== 추가 조치 ==
+==조치 방법==
-* ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요
+*t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
+*익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
 ==같이 보기==

익명 사용자

검색

T-근접성: 두 판 사이의 차이

2020년 5월 13일 (수) 21:57 판

l-다양성의 취약점

적용 예시

조치 전

조치

조치 방법

같이 보기

둘러보기

위키 도구

문서 도구

분류 목록