재현 데이터

IT위키
Synthetic Data
실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의 데이터(Simulated Data)

특징[편집]

  • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
  • 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로움

분류[편집]

  • 완전 재현데이터(Fully Synthetic Data)
    • 공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터
    • 정보보호 측면에서 가장 강력한 보안성을 가짐
  • 부분 재현데이터(Partially Synthetic Data)
    • 공개하려는 변수들 중 일부만을 선택하여 재현데이터로 대체한 데이터를 의미
    • 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들
  • 복합 재현데이터(Hybrid Synthetic Data)
    • 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현 데이터와 실제데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성

생성 기법[편집]

  • 전통적 통계 또는 베이지안 방법(Bayesian Methods)
    • Mutiple Imputation
    • Bayesian Network
    • Perturbed Gibbs Sampler
    • Bayesian Method with zero-inflation
    • Re-sampling from
    • Multivariate Distribution
  • 기계학습 모형(Machine Learning Model)
    • Semantic Graph based method
    • MDL(Minimal Description Length) based KRIMP algorithm
    • CART(Classification And Regression Tree)
    • Fuzzy c-regression Models
    • Support Vector Machine
    • Random Forest
    • Recommendation Systems
    • Social Network Model
    • Generative Adversarial Network
  • 차분 프라이버시(Differential privacy)
    • Proposed Multiplicative Weights update rule with Exponential Mechanism(MWEM)
    • Differentially Private Data Synthesizer
    • Mapping Program

같이 보기[편집]

참고 문헌[편집]

  • 진짜 같은 가짜! 재현데이터의 개념 및 활용 사례('19, 신용정보원)

각주[편집]

  1. Synthetic Data라는 영어 표현만 놓고 보면 '합성 데이터' 또는 '인조 데이터'에 더 가깝다. 다만, 출현 배경상 기존 통계모델을 통해 유사한 의미를 갖는 데이터를 만들어내는 방식이므로 국내에서 '재현 데이터'라는 표현을 더 많이 사용한다.