파라미터 효율적 미세조정 편집하기 (부분)

==주요 기법==

=== [[Adapter 미세조정|'''Adapter''' (2019, Houlsby et al.)]] ===
*각 Transformer 레이어에 작은 '''병목(bottleneck) 모듈'''을 삽입하여 그 모듈만 학습한다.
**구조: feed-forward up-project → 비선형 활성화 → feed-forward down-project + skip-connection.
**삽입 위치: Self-Attention/Feed-Forward 사이에 두 번 삽입하는 구성이 일반적이다.
**학습 파라미터 비율은 원 모델 대비 약 0.5%~8% 수준이며, 태스크별 adapter만 교체하여 멀티태스크 운용이 가능하다.
===[[LoRA (인공지능)|'''LoRA''' (Low-Rank Adaptation, ICLR 2022)]]===
*선형 변환 \(W \in \mathbb{R}^{E \times E}\)를 고정하고, 저랭크 보정 \(\Delta W = B A\)를 학습한다.
**수식: \(h = W_0 x + \Delta W x = W_0 x + B A x\)
**차원: \(A \in \mathbb{R}^{E \times r}, B \in \mathbb{R}^{r \times E}, r \ll E\) (예: r=4).
**적용 위치: Self-Attention의 Q/K/V 및 MLP의 선형층.
**연산/저장 측면: 학습 시 전체 가중치 미세조정보다 큰 절감을 달성하며, \(B A\)를 \(W_0\)에 병합(merge)하여 추가 저장 공간 없이 추론 가능.
**추가 파라미터 비율은 약 0.1% 내외이다.
===[[BitFit|'''BitFit''' (ACL 2022)]]===
*가장 단순한 PEFT 기법으로, 모든 weight를 고정하고 각 층의 bias 항만 학습한다.
**BERT 기준 bias 파라미터는 전체의 약 0.09%를 차지한다.
**단순 텍스트 분류 등에서 full fine-tuning에 근접하거나 때로는 초과하는 성능을 보인다.