L-다양성: 두 판 사이의 차이

IT위키
잔글 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
편집 요약 없음
1번째 줄: 1번째 줄:
[[분류:개인정보보호]][[분류:데이터 과학]]
[[분류:개인정보보호]]
[[분류:데이터 과학]]
 
;l-diversity; ℓ-diversity
;l-diversity; ℓ-diversity
;주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
;주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
* [[k-익명성]]에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델


== k-익명성의 취약점 ==
*[[k-익명성]]에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델
 
==k-익명성의 취약점==
 
;다양성의 부족 (lack of diversity)
;다양성의 부족 (lack of diversity)
* 비식별 조치 할 때 정보의 다양성을 고려하지 않음
 
* 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
*비식별 조치 할 때 정보의 다양성을 고려하지 않음
*동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
 
;강한 배경지식 (strong background knowledge)
;강한 배경지식 (strong background knowledge)
* k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약


== 적용 예시 ==
*k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약
 
==적용 예시==
 
=== 조치 전 ===
 
* 선거인 명부
 
{| class="wikitable"
!구분
!이름
!지역코드
!연령
!성별
|-
|1
|김민준
|13053
|28
|남
|-
|2
|박지훈
|13068
|21
|남
|-
|3
|이지민
|13068
|29
|여
|-
|4
|최현우
|13053
|23
|남
|-
|5
|정서연
|14853
|50
|여
|-
|6
|송현준
|14850
|47
|남
|-
|7
|남예은
|14853
|55
|여
|-
|8
|성민재
|14850
|49
|남
|-
|9
|윤건우
|13053
|31
|남
|-
|10
|손윤서
|13053
|37
|여
|-
|11
|민우진
|13068
|36
|남
|-
|12
|허수빈
|13068
|35
|여
|}
 
* 비식별화된 의료 데이터
 
{| class="wikitable"
{| class="wikitable"
! 구분
!구분
! 이름
!지역코드
! 지역코드
!연령
! 연령
!성별
! 성별
!질병
! 비고
!비고
|-
|-
| 1
|1
| 1305*
|130**
| ≤ 40
|< 30
| *
|*
| 전립선염
|전립선염
| rowspan="4" | 다양한 질병이
| rowspan="4" |다양한 질병이
혼재되어 안전
혼재되어 안전
|-
|-
| 4
|2
| 1305*
|130**
| ≤ 40
|< 30
| *
|*
| 고혈압
|전립선염
|-
|-
| 9
|3
| 1305*
|130**
| ≤ 40
|< 30
| *
|*
| 위암
|고혈압
|-
|-
| 10
|4
| 1305*
|130**
| ≤ 40
|< 30
| *
|*
| 위암
|고혈압
|-
|-
| 5
|5
| 1485*
|1485*
| > 40
|> 40
| *
|*
| 위암
|위암
| rowspan="4" | 다양한 질병이
| rowspan="4" |다양한 질병이
혼재되어 안전
혼재되어 안전
|-
|-
| 6
|6
| 1485*
|1485*
| > 40
|> 40
| *
|*
| 전립선염
|전립선염
|-
|7
|1485*
|> 40
|*
|고혈압
|-
|8
|1485*
|> 40
|*
|고혈압
|-
|9
|130**
|3*
|*
|위암
| rowspan="4" |모두가 동일
질병으로 취약
 
*([[l-다양성]] 등 적용 필요)
|-
|-
| 7
|10
| 1485*
|130**
| > 40
|3*
| *
|*
| 고혈압
|위암
|-
|-
| 8
|11
| 1485*
|130**
| > 40
|3*
| *
|*
| 고혈압
|위암
|-
|-
| 2
|12
| 1306*
|130**
| ≤ 40
|3*
| *
|*
| 전립선염
|위암
| rowspan="4" | 다양한 질병이
|}
 
* [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)
 
=== 조치 ===
 
* ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
 
{| class="wikitable"
!구분
!지역코드
!나이
!성별
!질병
!비고
|-
|1
|1305*
|≤ 40
|*
|전립선염
| rowspan="4" |다양한 질병이
혼재되어 안전
혼재되어 안전
|-
|-
| 3
|4
| 1306*
|1305*
| ≤ 40
|≤ 40
| *
|*
| 고혈압
|고혈압
|-
|-
| 11
|9
| 1306*
|1305*
| ≤ 40
|≤ 40
| *
|*
| 위암
|위암
|-
|-
| 12
|10
| 1306*
|1305*
| ≤ 40
|≤ 40
| *
|*
| 위암
|위암
|-
|5
|1485*
|> 40
|*
|위암
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|6
|1485*
|> 40
|*
|전립선염
|-
|7
|1485*
|> 40
|*
|고혈압
|-
|8
|1485*
|> 40
|*
|고혈압
|-
|2
|1306*
|≤ 40
|*
|전립선염
| rowspan="4" |다양한 질병이
혼재되어 안전
|-
|3
|1306*
|≤ 40
|*
|고혈압
|-
|11
|1306*
|≤ 40
|*
|위암
|-
|12
|1306*
|≤ 40
|*
|위암
|}
|}


== 같이 보기 ==
* 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
* [[k-익명성]]
 
* [[t-다양성]]
== 추가 조치 ==
 
* ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요
 
==같이 보기==
 
*[[k-익명성]]
*[[t-다양성]]

2020년 5월 13일 (수) 21:27 판


l-diversity; ℓ-diversity
주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
  • k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델

k-익명성의 취약점

다양성의 부족 (lack of diversity)
  • 비식별 조치 할 때 정보의 다양성을 고려하지 않음
  • 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
강한 배경지식 (strong background knowledge)
  • k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약

적용 예시

조치 전

  • 선거인 명부
구분 이름 지역코드 연령 성별
1 김민준 13053 28
2 박지훈 13068 21
3 이지민 13068 29
4 최현우 13053 23
5 정서연 14853 50
6 송현준 14850 47
7 남예은 14853 55
8 성민재 14850 49
9 윤건우 13053 31
10 손윤서 13053 37
11 민우진 13068 36
12 허수빈 13068 35
  • 비식별화된 의료 데이터
구분 지역코드 연령 성별 질병 비고
1 130** < 30 * 전립선염 다양한 질병이

혼재되어 안전

2 130** < 30 * 전립선염
3 130** < 30 * 고혈압
4 130** < 30 * 고혈압
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
9 130** 3* * 위암 모두가 동일

질병으로 취약

10 130** 3* * 위암
11 130** 3* * 위암
12 130** 3* * 위암
  • k-익명성에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
  • 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
  • '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)

조치

  • ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
구분 지역코드 나이 성별 질병 비고
1 1305* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

4 1305* ≤ 40 * 고혈압
9 1305* ≤ 40 * 위암
10 1305* ≤ 40 * 위암
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
2 1306* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

3 1306* ≤ 40 * 고혈압
11 1306* ≤ 40 * 위암
12 1306* ≤ 40 * 위암
  • 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨

추가 조치

  • ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 t-근접성 적용 필요

같이 보기