작년 이맘때 쯤 참여한 대회여서 후기라고 하기에는 너무 늦은 감이 있지만 제가 머신러닝을 공부하면서 가장 많은 시간을 투자하고 또 과정에서 많은 것을 배울 수 있었던 대회이기 때문에 늦었지만 정리해서 포스팅해보려고 합니다.

1) 대회 정보

  • 기간 : 2017.08 ~ 2017.10
  • 주최 : 한국빅데이터연합회
  • 주제 : 대출 연체자 예측 알고리즘 개발
  • 데이터 제공 : SCI 평가정보, SKT, 한화생명
  • 결과 : 한국정보화진흥원장상(2등)

2) 대회 내용 요약

(1) 100,000건의 고객 데이터(신용평가사, 통신사, 보험사 결합 데이터) 66개의 독립변수로 반응 변수인 대출 연체 여부를 정확히 분류해 내는 것이 목적

(2) 연체자의 분포가 약 4,000건인 불균형 데이터였기 때문에 분류하는 과정에서 이에 대한 고려를 하는 것이 매우 중요한 사항이었음(샘플링, 파라미터 조절 등)

(3) 최종적으로는 XGB(Extreme Gradient Boosting) 모형을 선택하게 되었는데, 가장 정확한 분류가 가능함과 동시에 과적합의 가능성이 적고 다양한 파라미터 조절을 통해 최적의 분류기를 생성해 낼 수 있는 장점이 있었기 때문이었다고 생각.(다른 참가 팀의 경우에도 XGB를 활용한 팀들이 대부분이었다는 점에서 현재까지 가장 뛰어난 성능을 보이는 알고리즘임을 알 수 있었음)

(4) 정확한 분류를 위한 적절한 파생변수 생성, 생성한 모형의 과적합 가능성을 최대한 줄이는 것, 파라미터 서치 과정에서 효율성을 향상시키는 것이 심사에서 주된 포인트 였다고 생각 (물론 평가 기준인 F1 Measure가 어느 정도 되어야 하는 것은 기본 사항(발표에 참가한 팀들의 F1 Measure 값은 큰 차이가 없었음))


세부적인 과정에 대한 포스팅은 추후 업데이트 하도록 하겠습니다. :)