대형 언어 모델 효율화 편집하기
IT 위키
인공무능 (토론 | 기여)님의 2025년 10월 23일 (목) 04:50 판 (새 문서: 본 문서는 대형 언어 모델(Large Language Model, LLM)의 저장 공간 및 연산 효율을 개선하기 위한 대표적 기법들을 정리한 것이다. 주요 방향은 '''양자화(Quantization)''', '''가지치기(Pruning)''', '''지식 증류(Knowledge Distillation)'''이며, LoRA, SmoothQuant, MoE 등 최신 기법들도 포함된다. ==양자화 (Quantization)== 모델의 가중치(weight)와 활성값(activation)을 부동소수(FP32) 대신 정수(INT8, INT...)