신경망 양자화 편집하기 (부분)

== 양자화 수준 ==
아래 표는 비트 수(정밀도)에 따른 양자화의 단계적 비교를 보여준다. 비트 수가 줄어들수록:

* 표현 가능한 숫자 개수가 줄어들고, 
* 모델 용량은 작아지며, 
* 속도는 빨라지는 대신 '''정확도는 점차 낮아진다.'''

{| class="wikitable"
! 비트 수 !! 표현 가능한 값의 개수 (2^b) !! 예시 표현 값 (대칭형, L=2 기준) !! 1B 파라미터 기준 모델 용량 (대략) !! 대표 사용 예시
|-
| 2bit || 4개 || {-2.0, -0.67, +0.67, +2.0} || 약 0.25 GB || 테스트용, 초경량 모델
|-
| 3bit || 8개 || {-2.0, -1.43, -0.86, -0.29, +0.29, +0.86, +1.43, +2.0} || 약 0.38 GB || 실험용, 경량 챗봇
|-
| 4bit || 16개 || {-2.0, -1.71, -1.43, … , +1.43, +1.71, +2.0} || 약 0.5 GB || LLM 로컬 추론, llama.cpp 기본
|-
| 5bit || 32개 || 균등 32단계 (-L~+L) || 약 0.63 GB || 고정밀 경량 모델
|-
| 8bit || 256개 || FP32 근사 수준 (-L~+L) || 약 1.0 GB || 일반적인 INT8 추론, TFLite/ONNX
|-
| 16bit || 65,536개 || 거의 float 수준 || 약 2.0 GB || FP16 추론 (GPU)
|-
| 32bit || 약 4.3×10^9개 || 완전 부동소수점 || 약 4.0 GB || FP32 학습 (기본)
|}

=== 예시: 3비트 양자화 ===
가중치 X = [1.1, 2.4, -0.3, 0.8]  
비트 수 b = 3, 범위 L = 2 일 때:

# 클리핑 (-L, L) = (-2, 2)  
#* Xc = [1.1, 2.0, -0.3, 0.8]

# 스케일 계산 s = 2L / (2^b - 2) = 4 / 6 = 0.667
# 정수화 Xint = round(Xc / s) = [2, 3, 0, 1]
# 복원 Xq = s × Xint = [1.33, 2.0, 0.0, 0.67]

결과적으로, 원래의 실수 벡터가 3비트 정밀도의 8단계 정수 레벨로 근사되어 표현된다. 

* 0 근처의 작은 값들은 0으로 흡수되며, 이로 인해 일부 정보 손실(Quantization Error)이 발생하지만 
* 추론 속도와 메모리 사용량은 대폭 감소한다.

=== 일반적 경향 ===
* 비트 수가 감소할수록 → 모델 크기 작아지고, 추론 속도 빨라짐  
* 비트 수가 증가할수록 → 정밀도와 정확도 향상, 메모리 사용량 증가  
* 실무에서는 '''4bit~8bit''' 구간이 가장 균형 잡힌 영역으로 많이 사용됨
=== 극단적 양자화 ===
양자화의 비트 수를 극단적으로 줄이면 '''Binary''' 또는 '''Ternary''' 형태의 모델이 된다.  
이들은 모두 곱셈 연산이 필요 없는 신경망으로, ''multiplication-free DNN'' 구조라고도 불린다.

'''Binary Quantization (이진 양자화)'''
* 표현 가능한 값: {-1, +1}  
* 모든 가중치와 활성값이 1비트 부호만으로 표현됨  
* 부호 연산(sign)만으로 곱셈 대체 가능 → 매우 빠른 추론 속도  
* 모델 크기 약 1/32 수준으로 압축 가능  
* 다만, 정밀도 손실이 커서 복잡한 모델에는 부적합  

'''Ternary Quantization (삼진 양자화)'''
* 표현 가능한 값: {-1, 0, +1}  
* 0이 포함되어 일부 가중치를 완전히 비활성화 가능 (희소성 확보)  
* Binary보다 정확도는 향상되지만 여전히 근사 표현에 의존  
* 곱셈 대신 단순 부호 비교 및 0 판별만 수행  

{| class="wikitable"
! 구분 !! 표현값 !! 비트 수 !! 장점 !! 단점 !! 주요 특징
|-
| Binary || {-1, +1} || 1bit || 곱셈 제거, 초고속 || 정확도 낮음 || 완전 부호 기반 연산
|-
| Ternary || {-1, 0, +1} || 2bit || 희소성, 약간의 정확도 향상 || 여전히 근사치 큼 || 일부 weight=0 가능
|}

이러한 극단적 양자화는 일반적인 LLM보다는 경량 비전 모델, 임베디드 기기,  
또는 저전력 환경에서의 실험용 신경망에 주로 사용된다.