희소 데이터: 두 판 사이의 차이

2025년 9월 25일 (목) 08:49 판

대부분의 값이 0인 희소 데이터

희소 데이터(稀疏-, 영어: Sparse data)는 데이터의 대부분이 0 또는 비어 있는 값으로 이루어진 데이터를 말한다. 반대로, 대부분의 값이 유효한 값을 가지는 데이터는 조밀 데이터(密-, Dense data)라고 한다. 희소 데이터는 수학, 통계학, 데이터 과학, 인공지능 등 다양한 분야에서 다루어지며, 저장 및 연산 효율성을 위해 특별한 표현 방식과 알고리즘이 사용된다.

개요

희소 데이터는 전체 크기에 비해 실제로 유의미한 값이 차지하는 비율이 매우 낮다.
예를 들어, 1000차원 벡터에서 990개의 값이 0이고 10개만이 유효한 경우, 이는 희소 벡터라고 한다.
희소성(sparsity)의 정도는 데이터에서 0이 차지하는 비율로 정의되며, 보통 70% 이상이 0일 경우 희소 데이터로 간주한다.

표현 방식

희소 데이터를 효율적으로 저장하기 위해 다양한 압축 및 표현 기법이 사용된다.

비트맵 인코딩(Bitmap encoding) : 값의 위치를 비트 벡터로 표시
런렝스 인코딩(Run-Length Encoding, RLE) : 동일 값이 연속적으로 반복되는 구간을 값과 길이 쌍으로 기록
CSR(Compressed Sparse Row) 형식 : 희소 행렬을 행 단위로 압축하여 저장
COO(Coordination list) 형식 : 0이 아닌 원소의 좌표와 값을 따로 저장

활용

머신러닝 : 자연어 처리에서 원-핫 인코딩(One-hot encoding) 벡터, 추천 시스템의 사용자-아이템 행렬
통계학 : 대규모 설문조사나 로그 데이터에서 결측치나 0이 많은 데이터셋
컴퓨터 그래픽스 : 이미지나 영상 데이터의 압축 표현
정보 검색 : 문서-단어 행렬(TF-IDF)에서 대부분의 단어가 등장하지 않는 희소 벡터

장점

데이터 저장 공간 절약
불필요한 연산을 줄여 계산 효율 향상
대규모 데이터 처리 가능

단점

일반적인 선형대수 연산을 그대로 적용하기 어려움
특수한 자료구조 및 알고리즘이 필요
압축률은 데이터 분포에 따라 달라짐

같이 보기

참고 문헌

Gilbert, J. R., Moler, C., & Schreiber, R. (1992). Sparse Matrices in MATLAB: Design and Implementation. SIAM Journal on Matrix Analysis and Applications.
Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press, 2016.

각주

익명 사용자

검색

희소 데이터: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2025년 9월 25일 (목) 08:49 판

목차

개요

표현 방식

활용

장점

단점

같이 보기

참고 문헌

각주

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

희소 데이터: 두 판 사이의 차이

2025년 9월 25일 (목) 08:49 판

개요

표현 방식

활용

장점

단점

같이 보기

참고 문헌

각주

둘러보기

위키 도구

문서 도구

분류 목록