블록 부동소수점 양자화 편집하기 (부분)

==응용 및 활용==
양자화된 딥 뉴럴 네트워크에서는 블록 부동소수점 표현이 다음과 같은 역할을 할 수 있다:
===추론 및 모델 압축===
신경망의 가중치(weight)와 활성화(activation)를 BFP 형식으로 표현하면, 메모리 사용량과 대역폭을 줄이면서도 어느 정도의 동적 범위를 유지할 수 있다.  예를 들어 “BFP16” 양자화는 16비트 블록 부동소수점 표현을 사용하는 방식으로, 여러 수들이 공유 지수를 사용하면서도 16비트 수준의 표현력을 확보하는 방식이다. <ref>“BFP16 (Block floating point) Quantization”, AMD ONNX 튜토리얼</ref>
===학습 훈련 시 사용===
블록 부동소수점은 단순히 추론뿐 아니라 학습 과정에서도 사용 가능하다.  예컨대 “FAST: DNN Training Under Variable Precision Block Floating Point” 연구에서는 가중치, 활성화, 그래디언트(gradient) 등을 BFP로 표현하면서, 계층별·훈련 단계별로 비트 폭을 유동적으로 조정하는 접근을 제안하였다. <ref>“FAST: DNN Training Under Variable Precision Block Floating Point with Stochastic Rounding”</ref>

또한, 블록 부동소수점을 하이브리드 방식(Hybrid BFP)으로 도입하여, 대부분의 연산은 BFP에서 처리하고 일부 민감한 연산만 고정고정 또는 높은 정밀도로 처리하는 방식도 연구되고 있다. 
===최적화 & 비트폭 결정===
최근 연구에서는 블록 크기 및 비트폭(bit-width)을 최적화하여 정확도와 연산 효율의 균형을 맞추는 것이 중요한 과제로 떠오르고 있다.  예를 들어 “BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency”는 DNN 추론에서 비트폭 및 블록 크기를 최적화하는 분석 모델을 제시하였다. <ref>“BitQ: Tailoring Block Floating Point Precision for Improved DNN”</ref>

또한, 대형 언어 모델(LLM) 계열에서는 블록 부동소수점이 전통적인 정수 양자화(Int8 등)에 비해 표현력과 동적 범위 측면에서 유리하다는 논의도 점차 많아지고 있다. <ref>“Accurate Block Quantization in LLMs with Outliers”</ref>