신경망 양자화 편집하기 (부분)

=== 극단적 양자화 ===
양자화의 비트 수를 극단적으로 줄이면 '''Binary''' 또는 '''Ternary''' 형태의 모델이 된다.  
이들은 모두 곱셈 연산이 필요 없는 신경망으로, ''multiplication-free DNN'' 구조라고도 불린다.

'''Binary Quantization (이진 양자화)'''
* 표현 가능한 값: {-1, +1}  
* 모든 가중치와 활성값이 1비트 부호만으로 표현됨  
* 부호 연산(sign)만으로 곱셈 대체 가능 → 매우 빠른 추론 속도  
* 모델 크기 약 1/32 수준으로 압축 가능  
* 다만, 정밀도 손실이 커서 복잡한 모델에는 부적합  

'''Ternary Quantization (삼진 양자화)'''
* 표현 가능한 값: {-1, 0, +1}  
* 0이 포함되어 일부 가중치를 완전히 비활성화 가능 (희소성 확보)  
* Binary보다 정확도는 향상되지만 여전히 근사 표현에 의존  
* 곱셈 대신 단순 부호 비교 및 0 판별만 수행  

{| class="wikitable"
! 구분 !! 표현값 !! 비트 수 !! 장점 !! 단점 !! 주요 특징
|-
| Binary || {-1, +1} || 1bit || 곱셈 제거, 초고속 || 정확도 낮음 || 완전 부호 기반 연산
|-
| Ternary || {-1, 0, +1} || 2bit || 희소성, 약간의 정확도 향상 || 여전히 근사치 큼 || 일부 weight=0 가능
|}

이러한 극단적 양자화는 일반적인 LLM보다는 경량 비전 모델, 임베디드 기기,  
또는 저전력 환경에서의 실험용 신경망에 주로 사용된다.