KV 캐시 가지치기 편집하기 (부분)

==주요 전략 및 기법==
다양한 방법이 제안되고 있으며, 대표적인 접근들을 소개한다:
*'''채널 수준 가지치기 (Channel Pruning)'''
**KV 캐시의 채널(특성 차원) 단위 중요도를 평가하여 덜 중요한 채널을 제거
**예: ThinK — 쿼리 중심 기준으로 채널을 선택적으로 제거함으로써 메모리 절감 효과 달성 <ref>ThinK 논문</ref>

*'''구조적 가지치기 (Structural Pruning)'''
**KVPruner 등은 특정 블록 단위로 K/V 채널을 제거하는 방식으로, 구조적 압축을 수행함 <ref>KVPruner 논문</ref>
**일부 레이어에서만 K/V 투영(projection)을 유지하고 나머지는 상위 레이어의 캐시를 공유하는 방식도 사용됨 (Cross‑Layer Attention 공유 방식) <ref>CLA 관련 연구</ref>

*'''비정형 희소화 (Unstructured Sparsity)'''
**Mustafar와 같은 최신 기법은 무작위 희소화 방식으로 캐시 내 원소들을 제거하되, 복원 가능한 sparse 구조로 처리 <ref>Mustafar 논문</ref>
**비정형 구조는 더 유연하지만 하드웨어 최적화가 어렵다는 단점이 있다.

*'''동적 제거 / 적응 제거 (Dynamic / Adaptive Pruning)'''
**동적으로 중요하지 않은 토큰 또는 K/V를 제거하는 방식
**예: DMS (Dynamic Memory Sparsification) — 추론 시점에 캐시를 희소화하여 메모리 절감과 속도 개선을 동시에 노림 <ref>DMS 논문</ref>
**또 다른 예: LazyLLM — 프리필(prefill) 단계에서 필요 없는 토큰의 K/V 계산을 지연 또는 생략 <ref>LazyLLM 논문</ref>