재현 데이터

IT위키
인쇄용 판은 더 이상 지원되지 않으며 렌더링 오류가 있을 수 있습니다. 브라우저 북마크를 업데이트해 주시고 기본 브라우저 인쇄 기능을 대신 사용해 주십시오.
Synthetic Data
실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의 데이터(Simulated Data)

특징

  • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
  • 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로움

분류

  • 완전 재현데이터(Fully Synthetic Data)
    • 공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터
    • 정보보호 측면에서 가장 강력한 보안성을 가짐
  • 부분 재현데이터(Partially Synthetic Data)
    • 공개하려는 변수들 중 일부만을 선택하여 재현데이터로 대체한 데이터를 의미
    • 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들
  • 복합 재현데이터(Hybrid Synthetic Data)
    • 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현 데이터와 실제데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

생성 기법

  • 전통적 통계 또는 베이지안 방법(Bayesian Methods)
    • Mutiple Imputation
    • Bayesian Network
    • Perturbed Gibbs Sampler
    • Bayesian Method with zero-inflation
    • Re-sampling from
    • Multivariate Distribution
  • 기계학습 모형(Machine Learning Model)
    • Semantic Graph based method
    • MDL(Minimal Description Length) based KRIMP algorithm
    • CART(Classification And Regression Tree)
    • Fuzzy c-regression Models
    • Support Vector Machine
    • Random Forest
    • Recommendation Systems
    • Social Network Model
    • Generative Adversarial Network
  • 차분 프라이버시(Differential privacy)
    • Proposed Multiplicative Weights update rule with Exponential Mechanism(MWEM)
    • Differentially Private Data Synthesizer
    • Mapping Program

같이 보기

참고 문헌

  • 진짜 같은 가짜! 재현데이터의 개념 및 활용 사례('19, 신용정보원)

각주

  1. Synthetic Data라는 영어 표현만 놓고 보면 '합성 데이터' 또는 '인조 데이터'에 더 가깝다. 다만, 출현 배경상 기존 통계모델을 통해 유사한 의미를 갖는 데이터를 만들어내는 방식이므로 국내에서 '재현 데이터'라는 표현을 더 많이 사용한다.