희소 데이터: 두 판 사이의 차이
IT 위키
(새 문서: 섬네일|대부분의 값이 0인 희소 데이터 희소 데이터(稀疏-, 영어: Sparse data)는 데이터의 대부분이 0 또는 비어 있는 값으로 이루어진 데이터를 말한다. 반대로, 대부분의 값이 유효한 값을 가지는 데이터는 조밀 데이터(密-, Dense data)라고 한다. 희소 데이터는 수학, 통계학, 데이터 과학, 인공지능 등 다양한 분야에서 다루어지며, 저장 및 연...) |
(차이 없음)
|
2025년 9월 25일 (목) 08:49 기준 최신판
희소 데이터(稀疏-, 영어: Sparse data)는 데이터의 대부분이 0 또는 비어 있는 값으로 이루어진 데이터를 말한다. 반대로, 대부분의 값이 유효한 값을 가지는 데이터는 조밀 데이터(密-, Dense data)라고 한다. 희소 데이터는 수학, 통계학, 데이터 과학, 인공지능 등 다양한 분야에서 다루어지며, 저장 및 연산 효율성을 위해 특별한 표현 방식과 알고리즘이 사용된다.
개요[편집 | 원본 편집]
- 희소 데이터는 전체 크기에 비해 실제로 유의미한 값이 차지하는 비율이 매우 낮다.
- 예를 들어, 1000차원 벡터에서 990개의 값이 0이고 10개만이 유효한 경우, 이는 희소 벡터라고 한다.
- 희소성(sparsity)의 정도는 데이터에서 0이 차지하는 비율로 정의되며, 보통 70% 이상이 0일 경우 희소 데이터로 간주한다.
표현 방식[편집 | 원본 편집]
희소 데이터를 효율적으로 저장하기 위해 다양한 압축 및 표현 기법이 사용된다.
- 비트맵 인코딩(Bitmap encoding) : 값의 위치를 비트 벡터로 표시
- 런렝스 인코딩(Run-Length Encoding, RLE) : 동일 값이 연속적으로 반복되는 구간을 값과 길이 쌍으로 기록
- CSR(Compressed Sparse Row) 형식 : 희소 행렬을 행 단위로 압축하여 저장
- COO(Coordination list) 형식 : 0이 아닌 원소의 좌표와 값을 따로 저장
활용[편집 | 원본 편집]
- 머신러닝 : 자연어 처리에서 원-핫 인코딩(One-hot encoding) 벡터, 추천 시스템의 사용자-아이템 행렬
- 통계학 : 대규모 설문조사나 로그 데이터에서 결측치나 0이 많은 데이터셋
- 컴퓨터 그래픽스 : 이미지나 영상 데이터의 압축 표현
- 정보 검색 : 문서-단어 행렬(TF-IDF)에서 대부분의 단어가 등장하지 않는 희소 벡터
장점[편집 | 원본 편집]
- 데이터 저장 공간 절약
- 불필요한 연산을 줄여 계산 효율 향상
- 대규모 데이터 처리 가능
단점[편집 | 원본 편집]
- 일반적인 선형대수 연산을 그대로 적용하기 어려움
- 특수한 자료구조 및 알고리즘이 필요
- 압축률은 데이터 분포에 따라 달라짐
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Gilbert, J. R., Moler, C., & Schreiber, R. (1992). Sparse Matrices in MATLAB: Design and Implementation. SIAM Journal on Matrix Analysis and Applications.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press, 2016.