대형 언어 모델 효율화 편집하기 (부분)

=== Transformer 구조에서의 적용 ===
*대규모 언어모델의 핵심 연산은 선형 변환과 어텐션 프로젝션에 집중되어 있다.
*이 부분에 저랭크 분해를 적용하면 다음과 같은 이점을 얻을 수 있다.
**연산량이 감소하여 추론 속도가 빨라진다.
**GPU 메모리와 저장 공간이 절감된다.
**KV 캐시(과거 토큰의 키·값 벡터)의 크기가 줄어들어 긴 문맥을 더 효율적으로 다룰 수 있다.