익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
LASSO
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
LASSO(Least Absolute Shrinkage and Selection Operator, 라쏘 회귀)는 회귀 분석 기법의 하나로, 가중치의 절댓값 합(ℓ₁ 노름)에 패널티를 부과하여 과적합을 방지하고 변수 선택(feature selection) 효과를 동시에 얻는 정규화된 회귀 방식이다. ==정의 및 수식== LASSO 회귀는 전통적 최소 제곱법(OLS, Ordinary Least Squares)의 손실 함수에 ℓ₁ 페널티 항을 추가한 형태로 정의된다. 목적 함수는 다음과 같다: \[ \min_{\beta_0, \beta} \left\{ \frac{1}{n} \sum_{i=1}^n (y_i - \beta_0 - x_i^\top \beta)^2 + \lambda \sum_{j=1}^p |\beta_j| \right\} \] 여기서 *\( y_i \)는 관측한 종속 변수 값 *\( x_i \)는 설명 변수 벡터 *\( \beta_0 \)는 절편 *\( \beta = (\beta_1, \dots, \beta_p) \)는 회귀 계수 벡터 *\( \lambda \ge 0 \)는 정규화 강도 조절 파라미터 이 페널티 항 덕분에 일부 계수 \( \beta_j \)는 정확히 0이 되어, 해당 변수를 회귀 모델에서 제거하는 효과가 나타난다. ==L1 정규화와의 관계== LASSO 회귀는 '''L1 정규화'''(L1 regularization)를 선형 회귀에 적용한 대표적인 예이다. L1 정규화는 모델의 가중치 절댓값의 합에 패널티를 부여하여 과도한 가중치 성장을 억제하는 일반적인 정규화 기법이다. 이 방식은 희소성(sparsity)을 유도하는 특성이 있어, LASSO 회귀에서도 불필요한 변수의 계수가 0이 되는 결과를 가져온다. 따라서 다음과 같은 관계가 성립한다: *'''L1 정규화'''는 다양한 모델(선형 회귀, 로지스틱 회귀, 신경망 등)에 적용 가능한 '''기법'''이다. *'''LASSO'''는 그 중 선형 회귀에 L1 정규화를 적용한 '''특정한 알고리즘'''이다. *즉, '''LASSO ⊂ L1 정규화''' 라는 포함 관계로 이해할 수 있다. ==특징 및 해석== *'''희소성 유도''': ℓ₁ 패널티 덕분에 불필요한 변수가 자동으로 제외되며, 해석 가능한 모델을 만든다. *'''변수 선택 기능''': 가중치가 0이 되는 변수를 제거하므로, 모델 복잡도 제어와 변수 선택을 동시에 수행할 수 있다. *'''Bias‑variance trade‑off 제어''': λ 값을 조정함으로써 과적합과 과소적합 간의 균형을 조절한다. *'''계산 방식''': ℓ₁ 항은 미분 불가능 구간이 있어, 서브그래디언트(subgradient) 방법, 좌표 하강법(coordinate descent) 등 특수한 최적화 알고리즘이 주로 사용된다 <ref>[https://arxiv.org/pdf/1401.2480 Lasso Regression: Estimation and Shrinkage via Limit of Gibbs Sampling, arXiv]</ref> ==관련 기법 및 일반화== *'''릿지 회귀(Ridge Regression)''' **ℓ₂ 페널티를 사용하는 정규화 방식으로, LASSO와는 달리 계수를 0으로 만들지 않는다. *'''엘라스틱 넷(Elastic Net)''' **ℓ₁과 ℓ₂ 페널티를 조합한 방식으로, 다중공선성(multicollinearity) 문제 완화 및 변수 선택 안정성을 개선한다. *'''그룹 라쏘(Group LASSO)''' **미리 정의된 그룹 단위 변수 선택을 허용하는 확장 형태 *'''데-스파스화 라쏘(De‑sparsified LASSO)''' **고차원 통계 모델에서 신뢰구간 추정 등을 위해 라쏘 결과를 보정한 방법 <ref>[https://en.wikipedia.org/wiki/De-sparsified_lasso De-sparsified lasso]</ref> ==장점과 한계== ===장점=== *변수 선택과 정규화를 동시에 할 수 있어 모델 해석성이 좋다 *과적합을 방지하면서 일반화 성능을 향상시킬 수 있다 *고차원 데이터(변수 수 \(p\)가 샘플 수 \(n\)보다 클 때)에서도 유용하게 사용됨 ===한계=== *λ 값 선택이 모델 성능에 매우 민감 *강한 상관 관계를 갖는 변수들 사이에서는 임의성이 개입되어 어느 변수를 남길지 불확실함 *ℓ₁ 페널티의 미분 불가능성으로 인해 최적화가 까다로울 수 있음 *제한: LASSO는 선택할 수 있는 변수 수가 샘플 수 \(n\)보다 많으면 안 된다 — 즉, \(p > n\)일 때 최대 \(n\)개의 변수를 선택할 수 있다는 제약이 있다 <ref>[https://en.wikipedia.org/wiki/Lasso_(statistics) Lasso (statistics)]</ref> ==응용 예시== *고차원 유전체 데이터 분석에서 유의한 유전자만 선택하는 데 사용 *경제/금융 모델에서 변수 선택과 예측 모델링에 활용 *머신러닝 파이프라인에서 특성 선택(feature selection)에 자주 쓰임 ==같이 보기== *[[L1 정규화]] *[[Ridge 회귀]] *[[엘라스틱 넷]] ==참고 문헌== == 각주 ==
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록