리프트 곡선

IT위키

Lift Curve

리프트 곡선(한국어로 향상 곡선으로도 불린다)은 이진 분류 문제에서 모델의 성능을 평가하는 도구로, ]모델이 랜덤 추측에 비해 얼마나 더 나은 결과를 내는지를 시각적으로 보여준다. 특히 불균형 데이터셋에서 모델이 얼마나 잘 예측하는지 측정하는 데 유용하다.

리프트 곡선 예시.png

그래프 구성[편집 | 원본 편집]

  • Lift: 모델을 사용한 예측 결과가 랜덤하게 예측했을 때의 결과에 비해 얼마나 더 좋은지 나타내는 비율이다. Lift 값이 1보다 크면 모델이 랜덤 추측보다 더 잘 작동한다는 의미다.
  • X축: 일반적으로 모델이 예측한 양성 확률이 높은 순서대로 데이터를 나열한 후, 데이터의 누적 백분율을 나타낸다. 즉, 예측 확률에 따라 상위 몇 퍼센트의 데이터를 고려할 것인지를 설정하는 값이다.
  • Y축: 모델이 랜덤 추측과 비교하여 예측 성능을 얼마나 향상시켰는지를 나타낸다. 이 값이 클수록 모델이 더 많은 양성 사례를 정확하게 예측하고 있다는 의미다.
  • 대각선 (기준선): 이 대각선은 랜덤 추측을 나타낸다. 즉, 이 선과 리프트 곡선을 비교했을 때 리프트 곡선이 이 선 위에 있으면 모델이 랜덤 추측보다 더 나은 성능을 보인다는 것을 의미한다.

해석[편집 | 원본 편집]

곡선이 가파르게 상승할수록 모델이 초기 단계에서 더 많은 양성 사례를 예측할 수 있음을 의미한다. 이는 상위 몇 퍼센트의 데이터에서 양성 사례를 잘 예측하고 있다는 뜻이다.

대각선과 가까운 곡선은 모델이 랜덤 추측과 거의 다를 바 없는 성능을 보인다는 것을 의미한다. 즉, 이 경우 모델의 성능은 크게 유의미하지 않다고 볼 수 있다.