익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
대형 언어 모델 채널별 이상치
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
'''대형 언어 모델 채널별 이상치 (Channelwise Outlier in Large Language Models)'''는 트랜스포머(Transformer) 기반 신경망 내부에서 특정 채널(hidden dimension)들이 다른 채널보다 훨씬 큰 활성값을 갖는 현상을 의미한다. 이러한 현상은 대형 언어 모델(LLM)의 Layer Normalization과 Scaling 과정에서 반복적으로 관찰되며, 수치적 이상치(outlier)라기보다 모델 구조상 필연적으로 발생하는 활성 증폭 효과로 이해되고 있다.<ref name="raman2025">[https://arxiv.org/abs/2505.21670 Raman, Rahul et al. "Rethinking the Outlier Distribution in Large Language Models", arXiv (2025)]</ref> [[파일:채널별 이상치.png|없음|섬네일|600x600픽셀|특정 채널들에서만 병풍처럼 아웃라이어가 관찰된다.]] ==정의== 채널별 이상치란 동일한 층(layer)의 여러 채널 중 일부에서, 정규화 이후에도 다른 채널에 비해 훨씬 큰 값을 갖는 활성(activation)이 존재하는 현상을 말한다. 이러한 이상치는 모델 내부의 특정 차원(feature dimension)에서 반복적으로 관찰되며, 출력 분포의 극단값으로 작용해 모델의 표현력과 안정성 모두에 영향을 미칠 수 있다.<ref name="sun2024">[https://arxiv.org/abs/2402.17762 Sun, Mingjie et al. "Massive Activations in Large Language Models", arXiv (2024)]</ref> ==형성 과정== 채널별 이상치는 주로 Layer Normalization과 Scaling + Bias 단계의 상호작용을 통해 형성된다.<ref name="clip2025">[https://arxiv.org/abs/2503.20111 Channelwise Outlier Profiling on CLIP, arXiv (2025)]</ref> ===1. 표준화 단계 (Standardization)=== Layer Normalization에서는 입력 텐서 X를 채널별 평균(μ)과 표준편차(σ)로 정규화한다. <syntaxhighlight lang="python"> X' = (X_r - μ_r) / σ_r # for each channel r </syntaxhighlight> *표준편차 σ가 작은 채널일수록, 정규화 이후 값이 상대적으로 크게 확대되어 outlier 채널로 나타난다.* *즉, "When the standard deviation is low, channel-wise outliers become more pronounced."* ===2. 스케일링 및 바이어스 단계 (Scaling + Bias)=== 정규화된 출력 X'에 대해 학습 가능한 파라미터 α(스케일)와 β(바이어스)가 적용된다. <syntaxhighlight lang="python"> Y_e = α_e * X'_e + β_e # for each channel e </syntaxhighlight> *일부 채널에서 α가 과도하게 크거나 β가 비정상적으로 이동하면, 해당 채널의 출력이 다시 증폭되어 outlier로 형성된다. *CLIP, LLaMA, OPT 등 다양한 모델에서 α, β의 특정 차원이 두드러진 스파이크 형태로 관찰된다. ===3. 잔차 연결 (Residual Connection)=== *Transformer 구조에서 residual stream은 이전 층의 출력을 그대로 더하기 때문에, 한 번 발생한 채널별 이상치가 다음 층으로 전달되어 유지된다. *이러한 누적 효과로 인해, 동일한 차원에서 반복적인 outlier 패턴이 나타난다. ==특징== *'''반복적 위치성''' — 특정 차원(예: LLaMA2-7B의 1415, 2533번 차원 등)에서 지속적으로 발생한다.<ref name="sun2024" /> *'''입력 무관성''' — 입력 토큰과 무관하게 유지되는 상수형 활성값을 보이기도 한다. *'''Residual Stream 유지''' — 각 층의 W_out 변환을 통해 다음 층으로 outlier가 전달된다. *'''LayerNorm 의존성''' — BatchNorm에서는 덜하지만, LayerNorm에서는 매우 강하게 나타난다. ==발생 원인 요약== {| class="wikitable" !단계!!주요 원인!!설명 |- |표준화 단계||σ가 작은 채널||정규화로 인해 작은 분산이 큰 값으로 확대됨 |- |스케일링 단계||γ(α), β 편향||특정 채널의 스케일링 파라미터가 과도하게 큼 |- |잔차 연결||W_out 중복 전달||이전 층의 이상치가 그대로 누적됨 |- |구조적 특성||채널 독립 정규화||LayerNorm의 per-channel 독립성으로 보정 불가 |} ==시각적 관찰== 채널별 이상치는 3D 활성 분포 그래프에서 특정 차원의 활성값이 수직으로 솟아오른 형태로 관찰된다. CLIP 및 OPT 모델의 실험에서는 Layer 6~12 구간에서 이러한 패턴이 두드러지게 나타났다. <syntaxhighlight lang="python"> # 예시: CLIP의 Layer 12 bias/scale 프로파일 ln_weight_layer12 = [ ... spikes at channel 420, 880 ... ] ln_bias_layer12 = [ ... spikes at channel 420 ... ] </syntaxhighlight> ==영향== ===장점=== *일부 연구에서는 채널별 이상치가 attention 집중 및 표현 압축에 기여한다고 본다. *특정 차원의 bias-like 효과로 인해 모델의 안정성을 높이는 역할을 할 수도 있다. ===단점=== *수치적 불안정성(overflow) 및 훈련 불균형을 유발한다. *양자화(Quantization) 시 outlier 값이 성능 저하의 주요 원인이 된다. *pruning, sparsity 등과의 상호작용이 복잡해진다. ==관련 연구== *Sun et al. (2024) — Massive Activation에서 일부 차원이 과도하게 활성화됨을 보고. *Raman et al. (2025) — Residual link를 통해 outlier가 누적된다고 분석. *Hidden Dynamics (2025) — 훈련 중 outlier 형성의 동역학을 추적. *CLIP Profiling (2025) — Scaling/Bias 계수가 outlier 형성에 기여함을 실험적으로 제시. ==한계 및 향후 연구== *채널별 이상치의 근본적인 원인은 아직 완전히 규명되지 않았다. *σ, γ, β의 상호작용을 설명하는 정량적 수식 모델이 요구된다. *Residual stream을 통한 outlier 재활성화(recycling) 방지 전략 연구가 필요하다. *LayerNorm 구조를 수정한 대체 정규화 기법(GroupNorm, RMSNorm 등)에 대한 비교 연구가 진행 중이다. ==같이 보기== *[[대형 언어 모델]] *[[대형 언어 모델 효율화]] *[[과도한 활성값]] ==참고 문헌== *Sun, Mingjie et al. “Massive Activations in Large Language Models.” arXiv, 2024. *Raman, Rahul et al. “Rethinking the Outlier Distribution in Large Language Models.” arXiv, 2025. *Hidden Dynamics of Massive Activations in Transformer, arXiv, 2025. *Channelwise Outlier Profiling on CLIP, arXiv, 2025. ==각주== <references /> [[분류:딥 러닝]] [[분류:대형 언어 모델]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록