T-근접성

t-closeness
동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질

l-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델
각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함

l-다양성의 취약점[편집 | 원본 편집]

쏠림 공격 (skewness attack)

정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함

유사성 공격 (similarity attack)

비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음

적용 예시[편집 | 원본 편집]

조치 전[편집 | 원본 편집]

구분	속성자		민감한 정보		비고
구분	지역코드	연령	원급	질병	비고
1	476**	2*	300	위궤양	모두가 '위'와 관련한 유사 질병으로 취약
2	476**	2*	400	급성 위염
3	476**	2*	500	만성 위염
4	4790*	＞ 40	600	급성 위염	다양한 질병이 혼재되어 안전
5	4790*	＞ 40	1100	감기
6	4790*	＞ 40	800	기관지염
7	476**	3*	700	기관지염	다양한 질병이 혼재되어 안전
8	476**	3*	900	폐렴
9	476**	3*	1000	만성 위염

k-익명성 및 l-다양성 모델에 의해 비식별화된 의료 데이터

레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염)
공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음
또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원)

조치[편집 | 원본 편집]

t-근접성 모델을 적용하여 정보의 분포를 조절한 예

구분	속성자		민감한 정보		비고
구분	지역코드	연령	원급	질병	비고
1	4767*	< 40	300	위궤양	급여의 분포와 다양한 질병 으로 안전
3	4767*	< 40	500	만성 위염
8	4767*	< 40	900	폐렴
4	4790*	＞ 40	600	급성 위염	급여의 분포와 다양한 질병 으로 안전
5	4790*	＞ 40	1100	감기
6	4790*	＞ 40	800	기관지염
4	4760*	3*	400	급성 위염	급여의 분포와 다양한 질병 으로 안전
7	4760*	3*	700	기관지염
9	4760*	3*	1000	만성 위염

레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐

조치 방법[편집 | 원본 편집]

t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향
익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음
t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산

같이 보기[편집 | 원본 편집]

익명 사용자

검색

T-근접성

이름공간

더 보기

문서 행위

목차

l-다양성의 취약점[편집 | 원본 편집]

적용 예시[편집 | 원본 편집]

조치 전[편집 | 원본 편집]

조치[편집 | 원본 편집]

조치 방법[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

T-근접성

l-다양성의 취약점[편집 | 원본 편집]

적용 예시[편집 | 원본 편집]

조치 전[편집 | 원본 편집]

조치[편집 | 원본 편집]

조치 방법[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구

분류 목록