QuaRot: 편집 역사

IT 위키

차이 선택: 비교하려는 판의 라디오 버튼을 선택한 다음 엔터나 아래의 버튼을 누르세요.
설명: (최신) = 최신 판과 비교, (이전) = 이전 판과 비교, 잔글= 사소한 편집

    2025년 10월 23일 (목)

    • 최신이전 07:532025년 10월 23일 (목) 07:53인공무능 토론 기여 6,229 바이트 +6,229 새 문서: '''QuaRot (Quantization via Rotations)'''은 대형 언어 모델(LLM: Large Language Model)의 모든 가중치(weights), 활성화(activations), KV 캐시(KV cache)를 4비트 수준으로 양자화하면서도 성능 저하를 최소화하도록 설계된 회전 기반 포스트 트레이닝 양자화(Post-Training Quantization, PTQ) 기법이다. ==배경 및 필요성== *전통적인 양자화 기법들은 가중치는 낮은 비트로 줄일 수 있어도, 모델의 활성... 태그: 시각 편집