평형 전파

IT 위키

평형 전파(Equilibrium propagation, EP)는 에너지 기반 모델(energy‑based model)을 학습하기 위한 생물학적으로 더 타당한 알고리즘으로, 추론과 학습 단계를 통합하여 동일한 신경 회로(dynamic)를 사용하면서 역전파(backpropagation)와 유사한 기울기 계산을 가능하게 하는 방식이다 [1]

개념 및 동작 원리[편집 | 원본 편집]

EP는 두 단계(phase)를 통해 작동한다:

  • 자유 상태 (Free phase): 입력이 고정된 상태에서 네트워크의 내부 신경 상태가 에너지를 최소화하는 고정점(fixed point)으로 수렴하도록 허용한다.
  • 넛지 상태 (Nudged phase): 출력 뉴런에 작은 외란(perturbation, nudging)을 가해 목표 출력 방향으로 유도하고, 다시 새로운 고정점으로 수렴하게 한다.

그 후, 두 상태에서의 신경 활성 변화와 내부 상태 차이를 이용해 가중치를 로컬 업데이트하는데, 이 업데이트는 역전파가 계산하는 기울기와 일치하는 형태를 갖는다 [2]

이론적 특성 및 확장[편집 | 원본 편집]

  • EP의 가중치 업데이트는 정형화된 목적 함수(objective function)의 기울기와 일치하도록 설계되어 있다. [3]
  • 기본 EP는 정적(static) 입력에 대한 수렴 신경망 모델에 적합하다. 이는 시계열(sequence) 과제에 직접 적용하기 어려운 제약을 가진다 [4]
  • 최근 연구에서는 EP가 깊은 합성곱 신경망(deep convNets)에서도 작동할 수 있도록, 유한 넛징(nudging)으로 인한 기울기 추정 편향(bias)을 보정하는 기법이 제안되었다 [5]
  • 또한 EP를 실시간 로컬 업데이트(local in time) 방식으로 확장한 변형인 “Continuous Equilibrium Propagation(C‑EP)”도 제안되었다 [6]

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

  • 학습 및 추론에 동일한 동적 회로를 활용하므로 알고리즘이 더 통합되고 생물학적으로 그럴듯함
  • 역전파와 유사한 기울기를 로컬 업데이트 방식으로 구현할 수 있음
  • 신경 활동 및 가중치 업데이트가 공간적으로 국소적(local)이라는 특성을 지님

한계 및 도전[편집 | 원본 편집]

  • 수렴 과정을 위한 반복 동적 계산이 필요해 계산 비용이 큼
  • 넛지 강도가 너무 크면 편향된 기울기 추정 문제 발생
  • 깊은 네트워크나 복잡한 비정형 구조에서는 확장성 문제가 존재
  • 실시간 로컬 업데이트와 시간적 국소성(local in time)을 모두 만족시키는 방식의 구현이 여전히 연구 중임

응용 및 최근 응용 사례[편집 | 원본 편집]

  • 스파이킹 신경망 기반 EP 구현인 “EqSpike”는 뉴로모픽 하드웨어에 적합하도록 설계된 EP 변형이다 [7]
  • 이징 머신(Ising machine)을 EP를 활용해 지도 학습 방식으로 훈련한 연구도 발표되었다 [8]
  • 이진 활성화/가중치 네트워크(binary neural networks)에 EP를 적용한 연구도 진행되고 있다 [9]
  • 최근에는 EP를 다양한 경계 조건(boundary conditions)에 확장하고, 해밀토니안 기반 학습 방법과 연결짓는 연구도 제안되었다 [10]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]