L-다양성

IT위키
Itwiki (토론 | 기여)님의 2020년 5월 6일 (수) 23:27 판 (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
l-diversity; ℓ-diversity
주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 하는 성질
  • k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델

k-익명성의 취약점

다양성의 부족 (lack of diversity)
  • 비식별 조치 할 때 정보의 다양성을 고려하지 않음
  • 동일한 정보를 가진 (다양하지 않은) 레코드가 비식별되어 하나의 ‘동질 집합’으로 구성될 경우 동질성 공격에 무방비
강한 배경지식 (strong background knowledge)
  • k-익명성은 '여자는 전립선염에 걸리지 않는다' 또는 '남자는 자궁암에 걸리지 않는다'와 같은 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약

적용 예시

구분 이름 지역코드 연령 성별 비고
1 1305* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

4 1305* ≤ 40 * 고혈압
9 1305* ≤ 40 * 위암
10 1305* ≤ 40 * 위암
5 1485* > 40 * 위암 다양한 질병이

혼재되어 안전

6 1485* > 40 * 전립선염
7 1485* > 40 * 고혈압
8 1485* > 40 * 고혈압
2 1306* ≤ 40 * 전립선염 다양한 질병이

혼재되어 안전

3 1306* ≤ 40 * 고혈압
11 1306* ≤ 40 * 위암
12 1306* ≤ 40 * 위암

같이 보기