L-다양성: Difference between revisions
From IT Wiki
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로) |
No edit summary |
||
Line 1: | Line 1: | ||
[[분류:개인정보보호]][[분류:데이터 과학]] | [[분류:개인정보보호]] | ||
[[분류:데이터 과학]] | |||
;l-diversity; ℓ-diversity | ;l-diversity; ℓ-diversity | ||
;주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질 | ;주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질 | ||
== k-익명성의 취약점 == | *[[k-익명성]]에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델 | ||
==k-익명성의 취약점== | |||
;다양성의 부족 (lack of diversity) | ;다양성의 부족 (lack of diversity) | ||
* 비식별 조치 할 때 정보의 다양성을 고려하지 않음 | |||
* 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비 | *비식별 조치 할 때 정보의 다양성을 고려하지 않음 | ||
*동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비 | |||
;강한 배경지식 (strong background knowledge) | ;강한 배경지식 (strong background knowledge) | ||
== 적용 예시 == | *k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약 | ||
==적용 예시== | |||
=== 조치 전 === | |||
* 선거인 명부 | |||
{| class="wikitable" | |||
!구분 | |||
!이름 | |||
!지역코드 | |||
!연령 | |||
!성별 | |||
|- | |||
|1 | |||
|김민준 | |||
|13053 | |||
|28 | |||
|남 | |||
|- | |||
|2 | |||
|박지훈 | |||
|13068 | |||
|21 | |||
|남 | |||
|- | |||
|3 | |||
|이지민 | |||
|13068 | |||
|29 | |||
|여 | |||
|- | |||
|4 | |||
|최현우 | |||
|13053 | |||
|23 | |||
|남 | |||
|- | |||
|5 | |||
|정서연 | |||
|14853 | |||
|50 | |||
|여 | |||
|- | |||
|6 | |||
|송현준 | |||
|14850 | |||
|47 | |||
|남 | |||
|- | |||
|7 | |||
|남예은 | |||
|14853 | |||
|55 | |||
|여 | |||
|- | |||
|8 | |||
|성민재 | |||
|14850 | |||
|49 | |||
|남 | |||
|- | |||
|9 | |||
|윤건우 | |||
|13053 | |||
|31 | |||
|남 | |||
|- | |||
|10 | |||
|손윤서 | |||
|13053 | |||
|37 | |||
|여 | |||
|- | |||
|11 | |||
|민우진 | |||
|13068 | |||
|36 | |||
|남 | |||
|- | |||
|12 | |||
|허수빈 | |||
|13068 | |||
|35 | |||
|여 | |||
|} | |||
* 비식별화된 의료 데이터 | |||
{| class="wikitable" | {| class="wikitable" | ||
! 구분 | !구분 | ||
!지역코드 | |||
! 지역코드 | !연령 | ||
! 연령 | !성별 | ||
! 성별 | !질병 | ||
! 비고 | !비고 | ||
|- | |- | ||
| 1 | |1 | ||
| | |130** | ||
| | |< 30 | ||
| * | |* | ||
| 전립선염 | |전립선염 | ||
| rowspan="4" | 다양한 질병이 | | rowspan="4" |다양한 질병이 | ||
혼재되어 안전 | 혼재되어 안전 | ||
|- | |- | ||
| | |2 | ||
| | |130** | ||
| | |< 30 | ||
| * | |* | ||
| | |전립선염 | ||
|- | |- | ||
| | |3 | ||
| | |130** | ||
| | |< 30 | ||
| * | |* | ||
| | |고혈압 | ||
|- | |- | ||
| | |4 | ||
| | |130** | ||
| | |< 30 | ||
| * | |* | ||
| | |고혈압 | ||
|- | |- | ||
| 5 | |5 | ||
| 1485* | |1485* | ||
| > 40 | |> 40 | ||
| * | |* | ||
| 위암 | |위암 | ||
| rowspan="4" | 다양한 질병이 | | rowspan="4" |다양한 질병이 | ||
혼재되어 안전 | 혼재되어 안전 | ||
|- | |- | ||
| 6 | |6 | ||
| 1485* | |1485* | ||
| > 40 | |> 40 | ||
| * | |* | ||
| 전립선염 | |전립선염 | ||
|- | |||
|7 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|8 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|9 | |||
|130** | |||
|3* | |||
|* | |||
|위암 | |||
| rowspan="4" |모두가 동일 | |||
질병으로 취약 | |||
*([[l-다양성]] 등 적용 필요) | |||
|- | |- | ||
| | |10 | ||
| | |130** | ||
| | |3* | ||
| * | |* | ||
| | |위암 | ||
|- | |- | ||
| | |11 | ||
| | |130** | ||
| | |3* | ||
| * | |* | ||
| | |위암 | ||
|- | |- | ||
| | |12 | ||
| | |130** | ||
| ≤ 40 | |3* | ||
| * | |* | ||
| 전립선염 | |위암 | ||
| rowspan="4" | 다양한 질병이 | |} | ||
* [[k-익명성]]에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족 | |||
* 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격) | |||
* '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격) | |||
=== 조치 === | |||
* ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터 | |||
{| class="wikitable" | |||
!구분 | |||
!지역코드 | |||
!나이 | |||
!성별 | |||
!질병 | |||
!비고 | |||
|- | |||
|1 | |||
|1305* | |||
|≤ 40 | |||
|* | |||
|전립선염 | |||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | 혼재되어 안전 | ||
|- | |- | ||
| | |4 | ||
| | |1305* | ||
| ≤ 40 | |≤ 40 | ||
| * | |* | ||
| 고혈압 | |고혈압 | ||
|- | |- | ||
| | |9 | ||
| | |1305* | ||
| ≤ 40 | |≤ 40 | ||
| * | |* | ||
| 위암 | |위암 | ||
|- | |- | ||
| 12 | |10 | ||
| 1306* | |1305* | ||
| ≤ 40 | |≤ 40 | ||
| * | |* | ||
| 위암 | |위암 | ||
|- | |||
|5 | |||
|1485* | |||
|> 40 | |||
|* | |||
|위암 | |||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |||
|6 | |||
|1485* | |||
|> 40 | |||
|* | |||
|전립선염 | |||
|- | |||
|7 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|8 | |||
|1485* | |||
|> 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|2 | |||
|1306* | |||
|≤ 40 | |||
|* | |||
|전립선염 | |||
| rowspan="4" |다양한 질병이 | |||
혼재되어 안전 | |||
|- | |||
|3 | |||
|1306* | |||
|≤ 40 | |||
|* | |||
|고혈압 | |||
|- | |||
|11 | |||
|1306* | |||
|≤ 40 | |||
|* | |||
|위암 | |||
|- | |||
|12 | |||
|1306* | |||
|≤ 40 | |||
|* | |||
|위암 | |||
|} | |} | ||
== 같이 보기 == | * 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨 | ||
* [[k-익명성]] | |||
* [[t-다양성]] | == 추가 조치 == | ||
* ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 [[t-근접성]] 적용 필요 | |||
==같이 보기== | |||
*[[k-익명성]] | |||
*[[t-다양성]] |
Revision as of 21:27, 13 May 2020
- l-diversity; ℓ-diversity
- 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
- k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델
k-익명성의 취약점
- 다양성의 부족 (lack of diversity)
- 비식별 조치 할 때 정보의 다양성을 고려하지 않음
- 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
- 강한 배경지식 (strong background knowledge)
- k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약
적용 예시
조치 전
- 선거인 명부
구분 | 이름 | 지역코드 | 연령 | 성별 |
---|---|---|---|---|
1 | 김민준 | 13053 | 28 | 남 |
2 | 박지훈 | 13068 | 21 | 남 |
3 | 이지민 | 13068 | 29 | 여 |
4 | 최현우 | 13053 | 23 | 남 |
5 | 정서연 | 14853 | 50 | 여 |
6 | 송현준 | 14850 | 47 | 남 |
7 | 남예은 | 14853 | 55 | 여 |
8 | 성민재 | 14850 | 49 | 남 |
9 | 윤건우 | 13053 | 31 | 남 |
10 | 손윤서 | 13053 | 37 | 여 |
11 | 민우진 | 13068 | 36 | 남 |
12 | 허수빈 | 13068 | 35 | 여 |
- 비식별화된 의료 데이터
구분 | 지역코드 | 연령 | 성별 | 질병 | 비고 |
---|---|---|---|---|---|
1 | 130** | < 30 | * | 전립선염 | 다양한 질병이
혼재되어 안전 |
2 | 130** | < 30 | * | 전립선염 | |
3 | 130** | < 30 | * | 고혈압 | |
4 | 130** | < 30 | * | 고혈압 | |
5 | 1485* | > 40 | * | 위암 | 다양한 질병이
혼재되어 안전 |
6 | 1485* | > 40 | * | 전립선염 | |
7 | 1485* | > 40 | * | 고혈압 | |
8 | 1485* | > 40 | * | 고혈압 | |
9 | 130** | 3* | * | 위암 | 모두가 동일
질병으로 취약
|
10 | 130** | 3* | * | 위암 | |
11 | 130** | 3* | * | 위암 | |
12 | 130** | 3* | * | 위암 |
- k-익명성에 대한 조치가 완료된 데이터셋이지만, 동질 집합내 다양성에 대한 고려가 부족
- 지역코드가 130으로 시작하는 30대 윤건우, 손윤서, 민우진, 허수민은 모두 '위암'인 것을 알 수 있음(동질성 공격)
- '여자는 전립선염에 걸릴 수 없다.'라는 배경지식에 의해 '이지민'은 고혈압이라는 것을 알 수 있음(배경지식에 의한 공격)
조치
- ℓ-다양성(ℓ=3)을 적용하여 추가 비식별조치한 데이터
구분 | 지역코드 | 나이 | 성별 | 질병 | 비고 |
---|---|---|---|---|---|
1 | 1305* | ≤ 40 | * | 전립선염 | 다양한 질병이
혼재되어 안전 |
4 | 1305* | ≤ 40 | * | 고혈압 | |
9 | 1305* | ≤ 40 | * | 위암 | |
10 | 1305* | ≤ 40 | * | 위암 | |
5 | 1485* | > 40 | * | 위암 | 다양한 질병이
혼재되어 안전 |
6 | 1485* | > 40 | * | 전립선염 | |
7 | 1485* | > 40 | * | 고혈압 | |
8 | 1485* | > 40 | * | 고혈압 | |
2 | 1306* | ≤ 40 | * | 전립선염 | 다양한 질병이
혼재되어 안전 |
3 | 1306* | ≤ 40 | * | 고혈압 | |
11 | 1306* | ≤ 40 | * | 위암 | |
12 | 1306* | ≤ 40 | * | 위암 |
- 동질 집합을 재조정 함으로써 지역코드에 대한 식별성은 올라가되, 개인의 질병은 유추할 수 없게 됨
추가 조치
- ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 t-근접성 적용 필요