익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT위키
검색
T-근접성
편집하기
IT위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
[[분류:개인정보보호]] [[분류:데이터 과학]] ;t-closeness ;동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보이도록 하는 성질 *[[l-다양성]]의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델 *각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함 ==[[l-다양성]]의 취약점== ;쏠림 공격 (skewness attack) *정보가 특정한 값에 쏠려 있을 경우 ℓ-다양성 모델이 프라이버시를 보호하지 못함 ;유사성 공격 (similarity attack) *비식별 조치된 레코드의 정보가 서로 비슷하다면 ℓ-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있음 ==적용 예시== ===조치 전=== {| class="wikitable" ! rowspan="2" |구분 ! colspan="2" |속성자 ! colspan="2" |민감한 정보 ! rowspan="2" |비고 |- !지역코드 !연령 !원급 !질병 |- |1 |476** |2* |300 |위궤양 | rowspan="3" |모두가 '위'와 관련한 유사 질병으로 취약 |- |2 |476** |2* |400 |급성 위염 |- |3 |476** |2* |500 |만성 위염 |- |4 |4790* |> 40 |600 |급성 위염 | rowspan="3" |다양한 질병이 혼재되어 안전 |- |5 |4790* |> 40 |1100 |감기 |- |6 |4790* |> 40 |800 |기관지염 |- |7 |476** |3* |700 |기관지염 | rowspan="3" |다양한 질병이 혼재되어 안전 |- |8 |476** |3* |900 |폐렴 |- |9 |476** |3* |1000 |만성 위염 |} *[[k-익명성]] 및 [[l-다양성]] 모델에 의해 비식별화된 의료 데이터 *레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르지만 의미가 서로 유사함(위궤양, 급성 위염, 만성 위염) *공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있음 *또 다른 민감한 정보인 급여에 대해서도 공격 대상이 다른 사람에 비해 상대적으로 낮은 급여 값을 가짐을 쉽게 알아낼 수 있음(300~ 500만원) ===조치=== *t-근접성 모델을 적용하여 정보의 분포를 조절한 예 {| class="wikitable" ! rowspan="2" |구분 ! colspan="2" |속성자 ! colspan="2" |민감한 정보 ! rowspan="2" |비고 |- !지역코드 !연령 !원급 !질병 |- |1 |4767* |< 40 |300 |위궤양 | rowspan="3" |급여의 분포와 다양한 질병 으로 안전 |- |3 |4767* |< 40 |500 |만성 위염 |- |8 |4767* |< 40 |900 |폐렴 |- |4 |4790* |> 40 |600 |급성 위염 | rowspan="3" |급여의 분포와 다양한 질병 으로 안전 |- |5 |4790* |> 40 |1100 |감기 |- |6 |4790* |> 40 |800 |기관지염 |- |4 |4760* |3* |400 |급성 위염 | rowspan="3" |급여의 분포와 다양한 질병 으로 안전 |- |7 |4760* |3* |700 |기관지염 |- |9 |4760* |3* |1000 |만성 위염 |} *레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음 *레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움 *조치전과 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐 ==조치 방법== *t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향 *익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음 *t수치 측정은 EMD(Earth Mover Distance)을 이용하여 계산 ==같이 보기== *[[k-익명성]] *[[l-다양성]]
요약:
IT위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
분류별 보기
일반 IT용어
프로젝트 관리
디지털 서비스
블록체인
인공지능
소프트웨어 공학
운영체제
컴퓨터 구조
자료 구조
데이터 과학
데이터베이스
네트워크
프로토콜
보안
컴플라이언스
개인정보보호
표준
경영학
기업 IT
조직/단체
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록