대형 언어 모델 채널별 이상치: 편집 역사

IT 위키

차이 선택: 비교하려는 판의 라디오 버튼을 선택한 다음 엔터나 아래의 버튼을 누르세요.
설명: (최신) = 최신 판과 비교, (이전) = 이전 판과 비교, 잔글= 사소한 편집

2025년 10월 30일 (목)

  • 최신이전 02:112025년 10월 30일 (목) 02:11인공무능 토론 기여 6,269 바이트 +6,269 새 문서: '''대형 언어 모델 채널별 이상치 (Channelwise Outlier in Large Language Models)'''는 트랜스포머(Transformer) 기반 신경망 내부에서 특정 채널(hidden dimension)들이 다른 채널보다 훨씬 큰 활성값을 갖는 현상을 의미한다. 이러한 현상은 대형 언어 모델(LLM)의 Layer Normalization과 Scaling 과정에서 반복적으로 관찰되며, 수치적 이상치(outlier)라기보다 모델 구조상 필연적으로 발생하는 활... 태그: 시각 편집