일반 합성곱

IT 위키

일반 합성곱(standard convolution, 일반的 合成곱)은 인공신경망, 특히 합성곱 신경망(CNN)에서 입력 특징맵과 학습 가능한 필터 간의 연산을 통해 출력 특징맵을 생성하는 가장 기본적인 형태의 합성곱 연산이다.

정의[편집 | 원본 편집]

일반 합성곱은 입력 텐서 \(X \in \mathbb{R}^{H \times W \times C_{in}}\)과 필터 텐서 \(K \in \mathbb{R}^{k_H \times k_W \times C_{in} \times C_{out}}\)를 사용하여 출력 텐서 \(Y \in \mathbb{R}^{H' \times W' \times C_{out}}\)를 계산하는 연산이다. 출력은 다음과 같이 계산된다: \[ Y_{h,w,c_{\text{out}}} = \sum_{i=0}^{k_H-1} \sum_{j=0}^{k_W-1} \sum_{c_{\text{in}}=0}^{C_{\text{in}}-1} K_{i,j,c_{\text{in}},c_{\text{out}}} \cdot X_{h+i,\; w+j,\; c_{\text{in}}} \] 여기서 \(i, j\)는 커널의 높이와 너비를 따라 순회하며, \(c_{in}\)은 입력 채널을, \(c_{out}\)은 출력 채널을 나타낸다.

개념[편집 | 원본 편집]

  • 일반 합성곱은 필터(커널)를 입력 위에 슬라이딩하며 지역 영역마다 내적(dot product)을 수행하는 연산이다.
  • 각 출력 채널은 입력 채널 전체를 활용하여 계산된다.
  • CNN에서는 이 연산을 통해 이미지나 특징맵에서 공간적 지역 정보를 추출한다.

수식 및 구현[편집 | 원본 편집]

  • 출력 크기 계산:

\[ H' = \left\lfloor \frac{H + 2\,\text{pad}_h - k_H}{\text{stride}_h} \right\rfloor + 1,\qquad W' = \left\lfloor \frac{W + 2\,\text{pad}_w - k_W}{\text{stride}_w} \right\rfloor + 1 \]

  • 연산 복잡도는 O(H' ⋅ W' ⋅ C_{in} ⋅ k_H ⋅ k_W ⋅ C_{out})이며, 입력과 필터 크기가 클수록 계산량이 증가한다.
  • 역전파 시 필터의 파라미터는 경사하강법으로 학습된다.

다른 합성곱과의 비교[편집 | 원본 편집]

일반 합성곱은 다음과 같은 변형된 합성곱들과 구별된다.

  • 깊이별 합성곱 (Depthwise Convolution): 각 입력 채널에 독립적인 필터를 적용하는 방식
  • 그룹 합성곱 (Grouped Convolution): 입력 채널을 그룹으로 나누어 합성곱 수행
  • 전치 합성곱 (Transposed Convolution): 출력 크기를 늘리는 데 사용되는 연산
  • 확장 합성곱 (Dilated Convolution): 필터 내의 간격을 늘려 리셉티브 필드를 확장

이러한 변형 기법들은 파라미터 수나 계산량을 줄이거나, 출력 해상도를 조정하기 위해 사용된다. 일반 합성곱은 이러한 기법들에 비해 계산 비용이 크지만, 정보 결합 능력이 높다.

응용[편집 | 원본 편집]

  • 영상 분류, 객체 탐지, 세분화 등 다양한 컴퓨터 비전 과제에서 특징 추출 단계로 사용된다.
  • 오디오, 자연어 처리 등의 시퀀스 데이터에도 확장 적용된다.
  • 대부분의 CNN 계층에서 기본 블록으로 사용된다.

장점과 단점[편집 | 원본 편집]

  • 장점:
    • 입력의 공간적 구조를 보존하면서 지역적인 특징을 잘 포착함
    • 파라미터 공유로 인해 전결합층 대비 효율적임
  • 단점:
    • 출력 채널 수와 필터 크기에 따라 연산량이 크게 증가함
    • 리셉티브 필드를 키우기 위해 커널 크기를 키우면 계산량이 기하급수적으로 증가함

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, MIT Press, 2016.
  • Aston Zhang, Zachary Lipton, Mu Li, Alexander J. Smola, Dive into Deep Learning, Cambridge University Press, 2024.

각주[편집 | 원본 편집]