리프트 곡선
From IT위키
Lift Curve
리프트 곡선(한국어로 향상 곡선으로도 불린다)은 이진 분류 문제에서 모델의 성능을 평가하는 도구로, 모델이 랜덤 추측에 비해 얼마나 더 나은 결과를 내는지를 시각적으로 보여준다. 특히 불균형 데이터셋에서 모델이 얼마나 잘 예측하는지 측정하는 데 유용하다.
리프트
Lift
모델의 예측이 무작위 예측과 비교하여 얼마나 더 나은지를 표현하는 수치이다. 무작위 예측이 1이라고 가정했을 때 리프트는 배수 값으로 표현된다. 리프트가 1.5라면 무작위 예측보다는 50%의 향상된 성능을 발휘하는 것이다. 정확히 말하면 무작위보다 50% 더 많은 양성 반응을 포함한다.
- 주요 용도는 마케팅 분야로, 고객이나 잠재적인 사용자 반응 예측에 주로 사용된다.
- 특징: 리프트는 낮은 반응률(기저율이 낮은 데이터)인 데이터셋에서 모델의 성능을 측정하는 데 유리하다.
- 예를 들어, 낮은 클릭률의 예측이나 특정 상품 구매 예측에 적합하다.
- n%의 리프트: 상위 n%에 속하는 예측값을 기준으로 모델의 성능을 측정하는 한다는 의미이다.
- 모델이 평가한 확률이 가장 높은 n%의 대상으로 평가 했을 때 무작위에 비해 어느 정도 상향을 보이냐는 것이다.
- 당연히 모델이 평가한 상위 10%는 모델이 가장 확신 있게 판단한 데이터들이므로 양성률이 높을 것이다.
- 반면 모델이 평가한 상위 50%의 데이터는 무작위 보다는 낫겠지만 상위 10%보단, 무작위 데이터와의 양성률 차이가 작을 것이다.
- 그리고 100% 리프트 지점에서는 양성률이 전체 데이터와 동일해진다.
- 아래 그래프를 보면 알 수 있듯이, 100% 지점에서 항상 Random 기준선과 만나게 된다.
- 예를 들어, 양성 20개와 음성 80개인 데이터(총 100개)가 주어지고, 모델에게 "가장 확신 있는 상위 100개의 양성 데이터를 찾아라"라고 하면, 100개는 전체 데이터와 동일하므로 양성률은 20%로, 무작위 추출 시 양성률과 일치하게 된다.
누적 반응 곡선
Cumulative Response Curves(CRC)
모델이 예측한 각 상위 n%의 데이터별로 실제 양성 포착률이 어떻게 되는지 나타내는 그래프이다. 예를 들면 아래 그래프에서 누적 백분위가 20%일 때 양성 포착율은 60%인데, 이는 누적 백분위가 20%라면 랜덤 추측에서는 20%의 양성 데이터를 포착하겠지만, 이 모델은 60%를 예측했다는 것이다.
- 예를 들어 총 1,000개의 인스턴스 중 양성이 100개가 있다고 가정하자.
- 여기서 랜덤으로 20%를 뽑으면 200개가 뽑히고 그 중에서 양성은 20개가 있다고 추정할 수 있다.
- 그런데 여기서 모델이 가장 확신하는 20%를 뽑으면 마찬가지로 총 200개가 뽑히는데 그 안에 양성이 60개가 있는 것이다.
- 이 경우 리프트는 3이 된다. (기준 비율인 20%의 3배이므로)
- X축 (누적 백분위): 상위부터 하위까지 예측값을 정렬하여 상위 n%씩 누적한 데이터이다.
- Y축 (누적 양성 비율): X축의 상위 n%에 포함된 데이터에서 포착한 양성 반응의 비율을 누적하여 표시한다.
- 다른 이름으로, Gain Chart라고 불리기도 한다.
- 이 그래프를 그냥 "리프트 곡선(Lift Curve""이라고 부르는 경우도 종종 있다. 리프트를 보기 위한 그래프이기 때문인데 정식 명칭은 CRC 또는 Gain Chart이며. 아래에서 설명하는 것이 진짜 리프트 곡선이다.
리프트 곡선
Lift Curve
- CRC는 모델이 특정 백분위까지 누적된 데이터를 기준으로 얼마나 많은 목표 사례(양성)를 식별하는지를 보여준다. X축이 증가할수록 Y축 값이 더 많은 목표 사례를 포함하게 되어 상승한다.
- 리프트 커브는 특정 백분위에서 모델이 무작위보다 얼마나 더 나은 성능을 발휘하는지를 비율로 나타내며, 리프트 값이 1로 수렴하는 것이 특징이다. 즉 리프트값 자체에 대한 그래프이다.
- Lift: 모델을 사용한 예측 결과가 랜덤하게 예측했을 때의 결과에 비해 얼마나 더 좋은지 나타내는 비율이다. Lift 값이 1보다 크면 모델이 랜덤 추측보다 더 잘 작동한다는 의미다.
- X축: 일반적으로 모델이 예측한 양성 확률이 높은 순서대로 데이터를 나열한 후, 데이터의 누적 백분율을 나타낸다. 즉, 예측 확률에 따라 상위 몇 퍼센트의 데이터를 고려할 것인지를 설정하는 값이다.
- Y축: 모델이 랜덤 추측과 비교하여 예측 성능을 얼마나 향상시켰는지를 나타낸다. 이 값이 클수록 모델이 더 많은 양성 사례를 정확하게 예측하고 있다는 의미다.
- 대각선 (기준선): 이 대각선은 랜덤 추측을 나타낸다. 즉, 이 선과 리프트 곡선을 비교했을 때 리프트 곡선이 이 선 위에 있으면 모델이 랜덤 추측보다 더 나은 성능을 보인다는 것을 의미한다.
해석
곡선이 가파르게 상승할수록 모델이 초기 단계에서 더 많은 양성 사례를 예측할 수 있음을 의미한다. 이는 상위 몇 퍼센트의 데이터에서 양성 사례를 잘 예측하고 있다는 뜻이다.
대각선과 가까운 곡선은 모델이 랜덤 추측과 거의 다를 바 없는 성능을 보인다는 것을 의미한다. 즉, 이 경우 모델의 성능은 크게 유의미하지 않다고 볼 수 있다.