본문 바로가기
외부활동

[데이콘 대회후기] 부동산 허위매물 분류 해커톤 10등 달성 후기

by 미역청 2025. 3. 1.

2025년 첫 머신러닝 대회,

'부동산 허위매물 분류 해커톤'에서 최종 10등을 차지했습니다!  

Private 10등!!

 

그런데그런데 말입니다...

이 코드, public score가 무려...

.

.

.

.

.

.

 

95등이었습니다

미친 Shake-up 

 

하ㅏㅏㅏ이것이 바로 나의 도파민

이 맛에 하는 데이터사이언스 하는 거거든요

 

107 submission이나 되고 왜 이 점수 밖에 못 냈냐! 라고 하시는 분들이 계실텐데요,

사실 초반 50개의 submission에서 제가 멍청하게 Binary Classification으로 설정해야 하는 걸

Regression으로 설정했기 때문입니다...

 

쉽게 말해서 Threshold 적용을 안 시켜 50 submission을 날렸습니다........ 어쩐지 점수 뒤1지게 안오르더라

 

각설하고 오늘은 이번 대회를 돌리며 힘들었던 점과 전체적인 감상만 정리하고,

자세한 후기는 다음 글에서부터 쓰겠습니다. 

 

힘들었던 점

이번 대회의 가장 큰 복병은 적은 데이터 수였습니다.

train = train_df.copy()
test = test_df.copy()
submission = submission_df.copy()

train.shape, test.shape, submission.shape

train dataset 2452개, test dataset 613개... 너무 적어요 ㅠㅠ

 

데이터 수가 적어서

1. Hyperparameter 튜닝이 힘을 발휘하기 어려웠고, 

2. 점수 분포가 너무 빽빽해서 소숫점 셋째, 넷째 자리 숫자 하나로 등수가 휙휙 바뀌며,

3. Public Score를 내는 dataset이 너무 적어 Public Score는 정말 참고용으로만 보고, 대부분 감에 의존했습니다.

 

여기에 제가 95등에서 더 진행하지 않고 멈춘 이유가 있는데요,

어느 정도 Feature engineering을 마무리 지었을 때, Public 점수는 낮았지만

여기서 점수 올린다고 더 진행을 했다간 오히려 과적합에 걸려 Private에서 떨어질 것 같아

추가 처리나 별도의 튜닝없이 마무리지었습니다.

 

사실 그럼에도 불구하고 Public Score가 많이 낮아서 기대를 거의 안했는데

제 감이 맞았네요 ㅎㅎㅎㅎㅎ

이렇게 좋은 결과 나와서 기분이 좋습니다


다음 글에서는 자세한 대회 후기 및 풀이를 가져오겠습니다.

 

도움이 되었다면 하트 눌러주세요 :)

구독하시면 더 많은 데이터사이언스 정보와 대회풀이를 보실 수 있습니다!