본문 바로가기
머신러닝 대회 풀이

[ML 대회 해설] Dacon 아파트 실거래가 예측 AI 경진대회 2등 풀이 - 소개 (1)

by 미역청 2025. 1. 3.

캐글은 영어로 되어있어 어렵고, 타이타닉 프로젝트는 식상한 ML 입문자분들께 추천하는 대회입니다.

기본 ML 지식과 함께 시계열데이터 예측 입문까지 해볼 수 있었습니다!

한국 데이터라 익숙하기도 하구요 ㅎㅎ

운 좋게도 현재 Public 2등에 석권했습니다 ㅎㅎ

이 포스트에서는 간단히 대회 개요를 소개하고, 제 개인적인 풀이는 보기좋게 여러 포스트로 나눠 올려볼게요 ;)

 

머신러닝 입문자이거나, 머신러닝기본 워크플로가 궁금하신 분은 이 글을 참고해주세요

 

대회 소개

https://dacon.io/competitions/official/21265/

 

아파트 실거래가 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

이 대회는 직방에서 제공한 2008-2017년 서울/부산 소재 아파트 거래내역을 기반으로, 2017년도 아파트 거래가를 예측하는 대회입니다.

 

1,200,000 건의 데이터로 이루어져있는데요, 이는 캐글 타이타닉 데이터의 약 1200배 되는 양입니다.

 

2008년~2017년을 기준으로 2017년 아파트 거래가를 예측해야 하므로 시계열데이터,

구체적인 거래가격을 예측해야하므로 회귀문제가 되겠습니다.

trainset에서 연도별 아파트 거래가 평균을 나타낸 표입니다. 2008~2017년까지의 거래 데이터로 구성된 걸 확인할 수 있습니다.

 

대회 규칙

대회에 들어가기 전, 평가함수(Eval metric)와 규칙을 꼭!! 숙지해야합니다.

'규칙' 페이지를 들어가 확인해봅시다.

평가함수

Root Mean Squared Error(RMSE)를 사용한다고 되어있습니다.

모르는 분들을 위해 간단히 설명하면, (모델이 예측한 값 - 실제값)의 제곱의 평균을 다시 루트 씌운 값입니다.

 

또, '데이터' 페이지에 들어가보면 이런 규칙이 있습니다.

국토교통부 실거래가 공개시스템 (http://rt.molit.go.kr/)과 같은 법적인 제약이 없는 외부 데이터(공공 데이터) 사용이 가능합니다.

 

즉, 대회에서 제공한 데이터셋 말고도 법적제약없는 외부데이터도 활용 가능합니다. 이 부분은 추후 다른 포스트에서 다시 설명하겠습니다.

 

데이터 개요

 

각각 간단히 설명하면 

1.train.csv : 모델을 학습시키는 데에 사용하는 데이터

2. test.csv: 학습시킨 모델을 대회측에서 평가하는 데이터

3. park.csv: 서울/부산 지역 공원에 대한 정보.

4. day_care_center.csv: 서울/부산 지역의 어린이집에 대한 정보.

 

여기서 가장 중요한 train.csv와 test.csv의 구조 차이를 간단하게 그려보았습니다.

그림에서 볼 수 있듯이, train.csv에는 실제 target feature 값이 주어지는 반면, test.csv는 실제 target feature의 값이 주어지지 않습니다.

 

즉, 우리의 목표는 train.csv로 모델을 학습시켜 test.csv의 타겟값을 채우는 것입니다. 

 


 

여기까지 데이콘 아파트 실거래가 예측 AI 경진대회 의 간략한 소개였습니다.

 

여기서 잠시 끊고, 다음 포스트에선 데이터의 Feature 설명과 본격적인 대회 풀이를 가져오겠습니다.

 

다음 글: https://here-lives-mummy.tistory.com/15

 

[ML 대회 해설] Dacon 아파트 실거래가 예측 AI 경진대회 3등 풀이 - 소개 (2): Numeric Feature 톺아보기

저번 포스트에 이어, 이번 포스트에선 주요 Feature와 Numeric feature의 개요를 간단히 살펴보겠습니다. 지난 글https://here-lives-mummy.tistory.com/10 [ML 대회 튜토리얼] Dacon 아파트 실거래가 예측 AI 경진대

here-lives-mummy.tistory.com

 

도움이 되었다면 하트 눌러주세요 :)

구독하시면 더 많은 데이터사이언스 정보와 대회풀이를 보실 수 있습니다!