재현 데이터
IT 위키
- Synthetic Data
- 실제로 측정된 데이터(Real Data)를 생성하는 모형이 존재한다고 가정하고, 통계적 방법이나 기계학습 방법 등을 이용하여 추정된 모형에서 새롭게 생성한 모의 데이터(Simulated Data)
특징[편집 | 원본 편집]
- 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
- 개인이 제공한 데이터가 아닌 임의로 생성한 데이터로 개인정보보호 관련 법규의 규제로부터 자유로움
분류[편집 | 원본 편집]
- 완전 재현데이터(Fully Synthetic Data)
- 공개하려고 하는 데이터에 측정된 실제데이터가 하나도 없이 모두 가상으로 생성된 데이터로만 이루어진 데이터
- 정보보호 측면에서 가장 강력한 보안성을 가짐
- 부분 재현데이터(Partially Synthetic Data)
- 공개하려는 변수들 중 일부만을 선택하여 재현데이터로 대체한 데이터를 의미
- 보통 재현데이터로 대치되는 변수들은 민감한 정보에 관한 변수들
- 복합 재현데이터(Hybrid Synthetic Data)
- 일부 변수들의 값을 재현데이터로 생성하고 생성된 재현 데이터와 실제데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성
생성 기법[편집 | 원본 편집]
- 전통적 통계 또는 베이지안 방법(Bayesian Methods)
- Mutiple Imputation
- Bayesian Network
- Perturbed Gibbs Sampler
- Bayesian Method with zero-inflation
- Re-sampling from
- Multivariate Distribution
- 기계학습 모형(Machine Learning Model)
- Semantic Graph based method
- MDL(Minimal Description Length) based KRIMP algorithm
- CART(Classification And Regression Tree)
- Fuzzy c-regression Models
- Support Vector Machine
- Random Forest
- Recommendation Systems
- Social Network Model
- Generative Adversarial Network
- 차분 프라이버시(Differential privacy)
- Proposed Multiplicative Weights update rule with Exponential Mechanism(MWEM)
- Differentially Private Data Synthesizer
- Mapping Program
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- 진짜 같은 가짜! 재현데이터의 개념 및 활용 사례('19, 신용정보원)
각주[편집 | 원본 편집]
- ↑ Synthetic Data라는 영어 표현만 놓고 보면 '합성 데이터' 또는 '인조 데이터'에 더 가깝다. 다만, 출현 배경상 기존 통계모델을 통해 유사한 의미를 갖는 데이터를 만들어내는 방식이므로 국내에서 '재현 데이터'라는 표현을 더 많이 사용한다.