과도한 활성값

IT 위키

과도한 활성값(Massive Activation)은 신경망 내부의 일부 활성(activation)이 다른 활성들에 비해 매우 큰 값을 가지는 현상을 가리킨다. 특히 대형 언어 모델(LLM)에서 이러한 현상이 반복적으로 관찰되며, 단순한 이상치(outlier)를 넘어 모델 동작의 중요한 요소로 역할하는 것으로 보고된다.

정의 및 개념[편집 | 원본 편집]

과도한 활성값은 전체 활성 공간 중 극히 일부의 차원(dimension)에서 출력 값이 평균 혹은 일반 활성값보다 수만 배 이상 크게 나타나는 경우를 말한다. Mingjie Sun 등은 “LLM 내부에는 소수의 활성만이 다른 활성 대비 수만 배 더 큰 값을 가진다”는 경험적 관찰을 기반으로 이 현상을 “Massive Activations”라 명명하였다.[1] 이 논문에서는 이러한 활성들이 입력에 거의 무관하게 일정한 상수를 유지하며, 모델 내부에서는 사실상 편향(bias) 항처럼 작동한다는 주장을 제시한다.[1]

이후 연구들에서는 이 현상의 학습 과정 동역학, 모델 크기별 발생 패턴, Transformer 구조에서의 역할 등에 대해 분석이 이루어졌다.[2]

발생 위치 및 특성[편집 | 원본 편집]

과도한 활성값이 나타나는 주요 특징과 위치는 다음과 같다:

  • 고정된 차원
    • LLM의 여러 층에서 동일한 피처 차원(feature dimension)에서 반복적으로 과도한 활성값이 발생한다는 관찰이 있다. 예를 들어 LLaMA2-7B 모델에서는 차원 1415, 2533 등에서 이러한 값이 자주 보고되었다.[1]
  • 입력 무관성 (Input Invariance)
    • 이 활성값은 입력 문장이나 토큰에 크게 영향을 받지 않고 거의 상수처럼 유지되는 경향이 있다.[1]
  • Attention 집중 효과
    • 과도한 활성값은 대응하는 토큰에 대한 attention 확률 집중을 유도하며, self-attention 연산에 암묵적인 bias 역할을 할 수 있다.[1]
  • 표현 압축 / 정보 흐름 변화 연관성
    • 최근 연구에서는 과도한 활성값이 residual stream 내에서 정보 흐름을 압축시키는 역할을 하고, 이로 인해 attention sink 또는 compression valley와 같은 현상이 나타날 수 있다고 본다.[2]

학습 과정에서의 동역학[편집 | 원본 편집]

과도한 활성값이 단순히 최적화 후에만 나타나는 것이 아니라, 훈련 과정 동안 점진적으로 형성된다는 연구가 있다.

  • 발생 시점 및 패턴
    • “Hidden Dynamics of Massive Activations in Transformer” 논문은 Pythia 모델 계열을 대상으로 훈련 체크포인트별 활성 동역학을 추적했으며, 거기서 과도한 활성의 발생은 지수적으로 조절된 로그 함수 형태로 모델화할 수 있다고 제안한다.[2]
  • 크기 영향
    • 모델 규모가 클수록 과도한 활성값의 발생 빈도나 크기가 달라지며, 일정 규모 이상에서는 이 현상이 더 뚜렷해지는 경향이 있다.[2]

장단점 및 해석[편집 | 원본 편집]

과도한 활성값은 단순히 버그라기보다는 모델 설계의 암묵적 기능일 가능성도 제기된다.

장점 / 긍정적 역할 관점[편집 | 원본 편집]

  • 암묵적 bias 역할
    • 입력 무관성을 지니는 거대 활성은 모델 내부에서 bias 항의 역할을 대신할 수 있다.[1]
  • Attention 집중 제어
    • 해당 차원에 대응하는 토큰으로 attention 집중을 유도할 수 있으며, 일부 토큰에 대한 영향력을 조절하는 수단이 될 수 있다.[1]
  • 계산 효율성 및 동적 활성화 전략
    • MOYU 논문에서는 이러한 과도한 활성 현상을 이용한 동적 활성화 전략(dynamic activation)을 통해 추론 속도를 높이려는 시도를 제안한다.[3]

단점 / 위험 요인 관점[편집 | 원본 편집]

  • 수치 불안정성 / Overflow 위험
    • 활성값이 지나치게 크면 수치적 overflow나 부동소수점 한계 문제를 일으킬 수 있다.
  • 일반화 저해 가능성
    • 입력과 무관한 활성값이 지나치게 강하게 작동하면 모델이 특정 패턴에 과하게 치우치는 학습 바이어스를 생성할 수 있다.
  • 해석 난이도 증가
    • 이 값이 단순히 이상치인지, 모델의 필수 컴포넌트인지 분리해 해석하기 어렵다.

대응 전략 및 조절 기법[편집 | 원본 편집]

과도한 활성값을 완전히 억제하기보다는 적절히 조절하거나 활용하는 것이 현실적인 접근이다.

  • 활성값 클리핑 / 정규화 (Activation Clipping / Normalization)
    • 출력 활성값에 상한을 두거나 정규화 계층을 삽입하여 극단 값을 억제하는 방법이 있다.
  • 그래디언트 클리핑 (Gradient Clipping)
    • 역전파 시 기울기의 폭주를 방지하여 파라미터 업데이트가 과도해지는 것을 막는다.
  • 동적 활성화 (Dynamic Activation) 전략
    • MOYU 논문에서는 대형 활성값의 특성을 활용하여 일부 차원의 활성만 동적으로 계산하거나 스킵하는 전략을 제안한다.[3]
  • 명시적 Attention bias 삽입
    • LLM 설계 시 attention bias를 명시적으로 삽입한다면 내부에서 massive activation을 스스로 학습할 필요가 줄어들 수 있다.[1]

관련 개념 및 비교[편집 | 원본 편집]

  • 기울기 폭주 (Exploding Gradient)
    • 훈련 중 기울기가 지나치게 커지는 문제로, 활성값 과도 현상과 연관된 위험 요소다.
  • 활성 기반 가지치기 (Activation-Based Pruning)
    • 신경망에서 자주 비활성화되는 노드를 제거하는 방식인데, 과도한 활성 현상의 반대 개념과 연관된다.[4]
  • 활성 스패스성 (Activation Sparsity)
    • 모델의 활성 출력을 희소하게 만드는 설계 철학으로, 필요 영역만 활성화되도록 유도하는 방식이다.[5]

한계 및 향후 연구 방향[편집 | 원본 편집]

  • 현재 연구는 아직 주로 관찰과 실험 중심이며 이론적 정밀성이 부족한 부분이 있다.
  • Massive activation이 모델 일반화 또는 과적합과 어떤 상관관계를 갖는지 규명할 필요가 있다.
  • 동적 활성화 전략의 안정적 적용 방법과 범용성을 확보하는 연구가 요구된다.
  • 다양한 모델 구조(Transformer 변형, 비언어 모델 등)에서의 발생 패턴 비교 연구가 유용하다.

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Sun, Mingjie, Xinlei Chen, J. Zico Kolter, Zhuang Liu. “Massive Activations in Large Language Models.” arXiv, 2024.
  • Ma, Chi et al. “MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs.” arXiv, 2024.
  • “Hidden Dynamics of Massive Activations in Transformer.” arXiv, 2025.
  • “ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models.” arXiv, 2023.
  • Ganguli et al., “Activation-Based Pruning of Neural Networks.” MDPI, 2024.

각주[편집 | 원본 편집]