과도한 활성값: 두 판 사이의 차이

IT 위키
편집 요약 없음
편집 요약 없음
 
17번째 줄: 17번째 줄:
*'''표현 압축 / 정보 흐름 변화 연관성'''
*'''표현 압축 / 정보 흐름 변화 연관성'''
**최근 연구에서는 과도한 활성값이 residual stream 내에서 정보 흐름을 압축시키는 역할을 하고, 이로 인해 attention sink 또는 compression valley와 같은 현상이 나타날 수 있다고 본다.<ref name="hidden2025" />
**최근 연구에서는 과도한 활성값이 residual stream 내에서 정보 흐름을 압축시키는 역할을 하고, 이로 인해 attention sink 또는 compression valley와 같은 현상이 나타날 수 있다고 본다.<ref name="hidden2025" />
== 유형 및 모델 영향 ==
최근 Raman et al. (2025)은 Massive Activation을 원인에 따라 두 가지로 구분하였다.
*'''Fake Massive Activation (FMA)''': residual connection으로 인해 인위적으로 증폭된 활성값으로, 제거하더라도 모델 정확도에 거의 영향을 주지 않는다.
*'''True Massive Activation (TMA)''': 모델이 실제로 학습 과정에서 유용하게 사용하는 활성으로, 이를 제거하면 모델 성능이 급격히 저하된다.
따라서 모든 Massive Activation이 동일하게 모델에 영향을 주는 것은 아니며, FMA는 무해하지만 TMA는 모델 성능 유지에 필수적이다.<ref>[https://arxiv.org/abs/2505.21670 Raman, Rahul et al. "Rethinking the Outlier Distribution in Large Language Models", arXiv (2025)]</ref>
==학습 과정에서의 동역학==
==학습 과정에서의 동역학==
과도한 활성값이 단순히 최적화 후에만 나타나는 것이 아니라, 훈련 과정 동안 점진적으로 형성된다는 연구가 있다.
과도한 활성값이 단순히 최적화 후에만 나타나는 것이 아니라, 훈련 과정 동안 점진적으로 형성된다는 연구가 있다.

2025년 10월 30일 (목) 02:01 기준 최신판

과도한 활성값(Massive Activation)은 신경망 내부의 일부 활성(activation)이 다른 활성들에 비해 매우 큰 값을 가지는 현상을 가리킨다. 특히 대형 언어 모델(LLM)에서 이러한 현상이 반복적으로 관찰되며, 단순한 이상치(outlier)를 넘어 모델 동작의 중요한 요소로 역할하는 것으로 보고된다.

정의 및 개념[편집 | 원본 편집]

과도한 활성값은 전체 활성 공간 중 극히 일부의 차원(dimension)에서 출력 값이 평균 혹은 일반 활성값보다 수만 배 이상 크게 나타나는 경우를 말한다. Mingjie Sun 등은 “LLM 내부에는 소수의 활성만이 다른 활성 대비 수만 배 더 큰 값을 가진다”는 경험적 관찰을 기반으로 이 현상을 “Massive Activations”라 명명하였다.[1] 이 논문에서는 이러한 활성들이 입력에 거의 무관하게 일정한 상수를 유지하며, 모델 내부에서는 사실상 편향(bias) 항처럼 작동한다는 주장을 제시한다.[1]

이후 연구들에서는 이 현상의 학습 과정 동역학, 모델 크기별 발생 패턴, Transformer 구조에서의 역할 등에 대해 분석이 이루어졌다.[2]

발생 위치 및 특성[편집 | 원본 편집]

과도한 활성값이 나타나는 주요 특징과 위치는 다음과 같다:

  • 고정된 차원
    • LLM의 여러 층에서 동일한 피처 차원(feature dimension)에서 반복적으로 과도한 활성값이 발생한다는 관찰이 있다. 예를 들어 LLaMA2-7B 모델에서는 차원 1415, 2533 등에서 이러한 값이 자주 보고되었다.[1]
  • 입력 무관성 (Input Invariance)
    • 이 활성값은 입력 문장이나 토큰에 크게 영향을 받지 않고 거의 상수처럼 유지되는 경향이 있다.[1]
  • Attention 집중 효과
    • 과도한 활성값은 대응하는 토큰에 대한 attention 확률 집중을 유도하며, self-attention 연산에 암묵적인 bias 역할을 할 수 있다.[1]
  • 표현 압축 / 정보 흐름 변화 연관성
    • 최근 연구에서는 과도한 활성값이 residual stream 내에서 정보 흐름을 압축시키는 역할을 하고, 이로 인해 attention sink 또는 compression valley와 같은 현상이 나타날 수 있다고 본다.[2]

유형 및 모델 영향[편집 | 원본 편집]

최근 Raman et al. (2025)은 Massive Activation을 원인에 따라 두 가지로 구분하였다.

  • Fake Massive Activation (FMA): residual connection으로 인해 인위적으로 증폭된 활성값으로, 제거하더라도 모델 정확도에 거의 영향을 주지 않는다.
  • True Massive Activation (TMA): 모델이 실제로 학습 과정에서 유용하게 사용하는 활성으로, 이를 제거하면 모델 성능이 급격히 저하된다.

따라서 모든 Massive Activation이 동일하게 모델에 영향을 주는 것은 아니며, FMA는 무해하지만 TMA는 모델 성능 유지에 필수적이다.[3]

학습 과정에서의 동역학[편집 | 원본 편집]

과도한 활성값이 단순히 최적화 후에만 나타나는 것이 아니라, 훈련 과정 동안 점진적으로 형성된다는 연구가 있다.

  • 발생 시점 및 패턴
    • “Hidden Dynamics of Massive Activations in Transformer” 논문은 Pythia 모델 계열을 대상으로 훈련 체크포인트별 활성 동역학을 추적했으며, 거기서 과도한 활성의 발생은 지수적으로 조절된 로그 함수 형태로 모델화할 수 있다고 제안한다.[2]
  • 크기 영향
    • 모델 규모가 클수록 과도한 활성값의 발생 빈도나 크기가 달라지며, 일정 규모 이상에서는 이 현상이 더 뚜렷해지는 경향이 있다.[2]

장단점 및 해석[편집 | 원본 편집]

과도한 활성값은 단순히 버그라기보다는 모델 설계의 암묵적 기능일 가능성도 제기된다.

장점 / 긍정적 역할 관점[편집 | 원본 편집]

  • 암묵적 bias 역할
    • 입력 무관성을 지니는 거대 활성은 모델 내부에서 bias 항의 역할을 대신할 수 있다.[1]
  • Attention 집중 제어
    • 해당 차원에 대응하는 토큰으로 attention 집중을 유도할 수 있으며, 일부 토큰에 대한 영향력을 조절하는 수단이 될 수 있다.[1]
  • 계산 효율성 및 동적 활성화 전략
    • MOYU 논문에서는 이러한 과도한 활성 현상을 이용한 동적 활성화 전략(dynamic activation)을 통해 추론 속도를 높이려는 시도를 제안한다.[4]

단점 / 위험 요인 관점[편집 | 원본 편집]

  • 수치 불안정성 / Overflow 위험
    • 활성값이 지나치게 크면 수치적 overflow나 부동소수점 한계 문제를 일으킬 수 있다.
  • 일반화 저해 가능성
    • 입력과 무관한 활성값이 지나치게 강하게 작동하면 모델이 특정 패턴에 과하게 치우치는 학습 바이어스를 생성할 수 있다.
  • 해석 난이도 증가
    • 이 값이 단순히 이상치인지, 모델의 필수 컴포넌트인지 분리해 해석하기 어렵다.

대응 전략 및 조절 기법[편집 | 원본 편집]

과도한 활성값을 완전히 억제하기보다는 적절히 조절하거나 활용하는 것이 현실적인 접근이다.

  • 활성값 클리핑 / 정규화 (Activation Clipping / Normalization)
    • 출력 활성값에 상한을 두거나 정규화 계층을 삽입하여 극단 값을 억제하는 방법이 있다.
  • 그래디언트 클리핑 (Gradient Clipping)
    • 역전파 시 기울기의 폭주를 방지하여 파라미터 업데이트가 과도해지는 것을 막는다.
  • 동적 활성화 (Dynamic Activation) 전략
    • MOYU 논문에서는 대형 활성값의 특성을 활용하여 일부 차원의 활성만 동적으로 계산하거나 스킵하는 전략을 제안한다.[4]
  • 명시적 Attention bias 삽입
    • LLM 설계 시 attention bias를 명시적으로 삽입한다면 내부에서 massive activation을 스스로 학습할 필요가 줄어들 수 있다.[1]

관련 개념 및 비교[편집 | 원본 편집]

  • 기울기 폭주 (Exploding Gradient)
    • 훈련 중 기울기가 지나치게 커지는 문제로, 활성값 과도 현상과 연관된 위험 요소다.
  • 활성 기반 가지치기 (Activation-Based Pruning)
    • 신경망에서 자주 비활성화되는 노드를 제거하는 방식인데, 과도한 활성 현상의 반대 개념과 연관된다.[5]
  • 활성 스패스성 (Activation Sparsity)
    • 모델의 활성 출력을 희소하게 만드는 설계 철학으로, 필요 영역만 활성화되도록 유도하는 방식이다.[6]

한계 및 향후 연구 방향[편집 | 원본 편집]

  • 현재 연구는 아직 주로 관찰과 실험 중심이며 이론적 정밀성이 부족한 부분이 있다.
  • Massive activation이 모델 일반화 또는 과적합과 어떤 상관관계를 갖는지 규명할 필요가 있다.
  • 동적 활성화 전략의 안정적 적용 방법과 범용성을 확보하는 연구가 요구된다.
  • 다양한 모델 구조(Transformer 변형, 비언어 모델 등)에서의 발생 패턴 비교 연구가 유용하다.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Sun, Mingjie, Xinlei Chen, J. Zico Kolter, Zhuang Liu. “Massive Activations in Large Language Models.” arXiv, 2024.
  • Ma, Chi et al. “MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs.” arXiv, 2024.
  • “Hidden Dynamics of Massive Activations in Transformer.” arXiv, 2025.
  • “ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models.” arXiv, 2023.
  • Ganguli et al., “Activation-Based Pruning of Neural Networks.” MDPI, 2024.

각주[편집 | 원본 편집]