배치 정규화

IT 위키

인공무능 (토론 | 기여)님의 2025년 9월 25일 (목) 09:54 판 (새 문서: 배치 정규화(영어: Batch Normalization, 줄여서 BN)는 딥 러닝에서 학습을 안정화하고 속도를 향상시키기 위해 사용되는 정규화 기법이다. 각 층의 입력을 정규화하여 내부 공변량 변화(Internal Covariate Shift)를 줄이는 것을 목적으로 한다. ==개요== *딥러닝 모델은 층이 깊어질수록 학습이 불안정해지고, 기울기 소실/폭주 문제로 인해 학습 속도가 느려진다. *배치 정규화는...)

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

배치 정규화(영어: Batch Normalization, 줄여서 BN)는 딥 러닝에서 학습을 안정화하고 속도를 향상시키기 위해 사용되는 정규화 기법이다. 각 층의 입력을 정규화하여 내부 공변량 변화(Internal Covariate Shift)를 줄이는 것을 목적으로 한다.

개요

딥러닝 모델은 층이 깊어질수록 학습이 불안정해지고, 기울기 소실/폭주 문제로 인해 학습 속도가 느려진다.
배치 정규화는 미니배치 단위로 입력의 평균과 분산을 계산해 정규화한 뒤, 학습 가능한 스케일(scale)과 이동(shift) 파라미터를 적용한다.
이 과정을 통해 각 층의 입력 분포를 일정하게 유지하여 학습을 원활히 한다.

수식

배치 정규화는 다음과 같이 정의된다.

정규화:

x̂ = (x - μ_B) / √(σ_B² + ε)

선형 변환:

y = γx̂ + β

여기서

μ_B : 배치 평균
σ_B² : 배치 분산
ε : 분모의 0 방지를 위한 작은 값
γ, β : 학습 가능한 스케일 및 시프트 파라미터

장점

학습 속도 향상: 더 큰 학습률(learning rate) 사용 가능
기울기 소실/폭주 문제 완화
초기화에 대한 의존도 감소
정규화 효과로 인해 과적합 방지에 도움

단점

미니배치 크기에 의존적이며, 배치가 너무 작으면 통계량 추정이 불안정해진다.
RNN처럼 시퀀스 의존성이 큰 구조에는 적용이 까다롭다.
학습과 추론 단계에서 동작 방식이 달라 관리가 필요하다(추론 시 이동 평균 사용).

변형 기법

Layer Normalization : 배치가 아닌 개별 샘플 단위로 정규화
Instance Normalization : 컴퓨터 비전에서 주로 사용, 각 샘플의 채널 단위 정규화
Group Normalization : 채널을 그룹 단위로 묶어 정규화

응용

합성곱 신경망(CNN)에서 필수적으로 사용되는 정규화 기법
자연어 처리, 음성 인식 등 다양한 딥러닝 모델에서 안정적인 학습을 위해 적용

같이 보기

참고 문헌

Sergey Ioffe, Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. ICML 2015.
Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press, 2016.

각주

원본 주소 "https://itwiki.kr/index.php?title=배치_정규화&oldid=41392"