LASSO

LASSO(Least Absolute Shrinkage and Selection Operator, 라쏘 회귀)는 회귀 분석 기법의 하나로, 가중치의 절댓값 합(ℓ₁ 노름)에 패널티를 부과하여 과적합을 방지하고 변수 선택(feature selection) 효과를 동시에 얻는 정규화된 회귀 방식이다.

정의 및 수식[편집 | 원본 편집]

LASSO 회귀는 전통적 최소 제곱법(OLS, Ordinary Least Squares)의 손실 함수에 ℓ₁ 페널티 항을 추가한 형태로 정의된다. 목적 함수는 다음과 같다:

\[ \min_{\beta_0, \beta} \left\{ \frac{1}{n} \sum_{i=1}^n (y_i - \beta_0 - x_i^\top \beta)^2 + \lambda \sum_{j=1}^p |\beta_j| \right\} \]

여기서

\( y_i \)는 관측한 종속 변수 값
\( x_i \)는 설명 변수 벡터
\( \beta_0 \)는 절편
\( \beta = (\beta_1, \dots, \beta_p) \)는 회귀 계수 벡터
\( \lambda \ge 0 \)는 정규화 강도 조절 파라미터

이 페널티 항 덕분에 일부 계수 \( \beta_j \)는 정확히 0이 되어, 해당 변수를 회귀 모델에서 제거하는 효과가 나타난다.

L1 정규화와의 관계[편집 | 원본 편집]

LASSO 회귀는 L1 정규화(L1 regularization)를 선형 회귀에 적용한 대표적인 예이다. L1 정규화는 모델의 가중치 절댓값의 합에 패널티를 부여하여 과도한 가중치 성장을 억제하는 일반적인 정규화 기법이다. 이 방식은 희소성(sparsity)을 유도하는 특성이 있어, LASSO 회귀에서도 불필요한 변수의 계수가 0이 되는 결과를 가져온다.

따라서 다음과 같은 관계가 성립한다:

L1 정규화는 다양한 모델(선형 회귀, 로지스틱 회귀, 신경망 등)에 적용 가능한 기법이다.
LASSO는 그 중 선형 회귀에 L1 정규화를 적용한 특정한 알고리즘이다.
즉, LASSO ⊂ L1 정규화 라는 포함 관계로 이해할 수 있다.

특징 및 해석[편집 | 원본 편집]

희소성 유도: ℓ₁ 패널티 덕분에 불필요한 변수가 자동으로 제외되며, 해석 가능한 모델을 만든다.
변수 선택 기능: 가중치가 0이 되는 변수를 제거하므로, 모델 복잡도 제어와 변수 선택을 동시에 수행할 수 있다.
Bias‑variance trade‑off 제어: λ 값을 조정함으로써 과적합과 과소적합 간의 균형을 조절한다.
계산 방식: ℓ₁ 항은 미분 불가능 구간이 있어, 서브그래디언트(subgradient) 방법, 좌표 하강법(coordinate descent) 등 특수한 최적화 알고리즘이 주로 사용된다 ^[1]

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

변수 선택과 정규화를 동시에 할 수 있어 모델 해석성이 좋다
과적합을 방지하면서 일반화 성능을 향상시킬 수 있다
고차원 데이터(변수 수 \(p\)가 샘플 수 \(n\)보다 클 때)에서도 유용하게 사용됨

한계[편집 | 원본 편집]

λ 값 선택이 모델 성능에 매우 민감
강한 상관 관계를 갖는 변수들 사이에서는 임의성이 개입되어 어느 변수를 남길지 불확실함
ℓ₁ 페널티의 미분 불가능성으로 인해 최적화가 까다로울 수 있음
제한: LASSO는 선택할 수 있는 변수 수가 샘플 수 \(n\)보다 많으면 안 된다 — 즉, \(p > n\)일 때 최대 \(n\)개의 변수를 선택할 수 있다는 제약이 있다 ^[3]

응용 예시[편집 | 원본 편집]

고차원 유전체 데이터 분석에서 유의한 유전자만 선택하는 데 사용
경제/금융 모델에서 변수 선택과 예측 모델링에 활용
머신러닝 파이프라인에서 특성 선택(feature selection)에 자주 쓰임

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

[1] Lasso Regression: Estimation and Shrinkage via Limit of Gibbs Sampling, arXiv

[2] De-sparsified lasso

[3] Lasso (statistics)

[1]

[2]

[3]

익명 사용자

검색

LASSO

이름공간

더 보기

문서 행위

목차

정의 및 수식[편집 | 원본 편집]

L1 정규화와의 관계[편집 | 원본 편집]

특징 및 해석[편집 | 원본 편집]

관련 기법 및 일반화[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

한계[편집 | 원본 편집]

응용 예시[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

LASSO

정의 및 수식[편집 | 원본 편집]

L1 정규화와의 관계[편집 | 원본 편집]

특징 및 해석[편집 | 원본 편집]

관련 기법 및 일반화[편집 | 원본 편집]

장점과 한계[편집 | 원본 편집]

장점[편집 | 원본 편집]

한계[편집 | 원본 편집]

응용 예시[편집 | 원본 편집]

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

각주[편집 | 원본 편집]

둘러보기

위키 도구

문서 도구