희소 데이터

IT 위키
대부분의 값이 0인 희소 데이터

희소 데이터(稀疏-, 영어: Sparse data)는 데이터의 대부분이 0 또는 비어 있는 값으로 이루어진 데이터를 말한다. 반대로, 대부분의 값이 유효한 값을 가지는 데이터는 조밀 데이터(密-, Dense data)라고 한다. 희소 데이터는 수학, 통계학, 데이터 과학, 인공지능 등 다양한 분야에서 다루어지며, 저장 및 연산 효율성을 위해 특별한 표현 방식과 알고리즘이 사용된다.

개요[편집 | 원본 편집]

  • 희소 데이터는 전체 크기에 비해 실제로 유의미한 값이 차지하는 비율이 매우 낮다.
  • 예를 들어, 1000차원 벡터에서 990개의 값이 0이고 10개만이 유효한 경우, 이는 희소 벡터라고 한다.
  • 희소성(sparsity)의 정도는 데이터에서 0이 차지하는 비율로 정의되며, 보통 70% 이상이 0일 경우 희소 데이터로 간주한다.

표현 방식[편집 | 원본 편집]

희소 데이터를 효율적으로 저장하기 위해 다양한 압축 및 표현 기법이 사용된다.

활용[편집 | 원본 편집]

  • 머신러닝 : 자연어 처리에서 원-핫 인코딩(One-hot encoding) 벡터, 추천 시스템의 사용자-아이템 행렬
  • 통계학 : 대규모 설문조사나 로그 데이터에서 결측치나 0이 많은 데이터셋
  • 컴퓨터 그래픽스 : 이미지나 영상 데이터의 압축 표현
  • 정보 검색 : 문서-단어 행렬(TF-IDF)에서 대부분의 단어가 등장하지 않는 희소 벡터

장점[편집 | 원본 편집]

  • 데이터 저장 공간 절약
  • 불필요한 연산을 줄여 계산 효율 향상
  • 대규모 데이터 처리 가능

단점[편집 | 원본 편집]

  • 일반적인 선형대수 연산을 그대로 적용하기 어려움
  • 특수한 자료구조 및 알고리즘이 필요
  • 압축률은 데이터 분포에 따라 달라짐

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Gilbert, J. R., Moler, C., & Schreiber, R. (1992). Sparse Matrices in MATLAB: Design and Implementation. SIAM Journal on Matrix Analysis and Applications.
  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press, 2016.

각주[편집 | 원본 편집]