ML 대회 입상 코드 & 총평
-
[ML 대회 해설] 데이콘 부동산 허위매물 분류 해커톤 10등 풀이 - Feature Engineering
이제 거의 다 왔습니다!이번 포스트에서는 이전 글의 EDA를 바탕으로 진행한 최종 Feature Engineering 를 보여드리겠습니다. 이전 글: [ML 대회 해설] 데이콘 부동산 허위매물 분류 해커톤 10등 풀이 - EDA본격적으로 데이터의 주요 Feature의 개요를 살피고,EDA를 수행해 feature engineering을 위한 insight를 얻어보겠습니다. 이번 대회는 feature가 상당히 많은 관계로 주요 feature와 그 engineering 방법만을 짚here-lives-mummy.tistory.com Overview본 대회는 일반적인 데이터분석 대회들과 달리train이 약 2,400건으로 데이터 크기가 매우 적습니다.따라서 feature engineering 시 public sc..
2025.04.01
-
[ML 대회 해설] 데이콘 부동산 허위매물 분류 해커톤 10등 풀이 - EDA
본격적으로 데이터의 주요 Feature의 개요를 살피고,EDA를 수행해 feature engineering을 위한 insight를 얻어보겠습니다. 이번 대회는 feature가 상당히 많은 관계로 주요 feature와 그 engineering 방법만을 짚고 넘어갈게요.이전 글: [ML 대회 해설] 데이콘 부동산 허위매물 분류 해커톤 10등 풀이 - 소개자취방 찾을 때, 인터넷에서 괜찮은 매물만 추려다 가보면 허위매물인 경우가 많습니다.그럴 때마다 시간은 시간대로 쓰고, 기분만 잔뜩 상해버리곤 하죠. 이번 대회에는 이런 킹받는 부동산here-lives-mummy.tistory.com 주요 Feature주어진 train.csv, test.csv의 feature는 다음과 같습니다Feature namedtyp..
2025.03.30
-
[ML 대회 해설] 데이콘 부동산 허위매물 분류 해커톤 10등 풀이 - 소개
자취방 찾을 때, 인터넷에서 괜찮은 매물만 추려다 가보면 허위매물인 경우가 많습니다.그럴 때마다 시간은 시간대로 쓰고, 기분만 잔뜩 상해버리곤 하죠. 이번 대회에는 이런 킹받는 부동산 허위매물을 걸러내는 모델을 만들어보겠습니다. 대회 소개데이콘 2025년 첫 대회입니다!2025년 1/6 ~ 2/28까지 총 두 달간 열렸는데요, 부동산 허위매물 분류 해커톤: 가짜를 색출하라! - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 저는 이번 대회에서 최종 10등을 했습니다!이 대회는 부동산 매물의 다양한 정보를 기반으로 부동산의 허위매물 여부를 판단하는 이진 분류 문제입니다. 데이터 개요데이터 파일각각 간단히 설명하면1.train.csv : 모델을 학습시키..
2025.03.29
-
[ML 대회 해설] Kaggle: Regression with an Abalone Dataset Public 8등 풀이 - Feature Engineering & Model Tuning
이번 글에서는 EDA에서 얻었던 Insights를 토대로 최종 선택한 Feature Engineering과 모델 튜닝을 보여드리겠습니다. 이전 글: [ML 대회 해설] Regression with an Abalone Dataset Public 8등 풀이 - EDA지난 포스트에 이어, 이번 글에서는 데이터의 특성, feature의 개요를 EDA를 통해 살펴보겠습니다. 만약 아직 ML에 익숙하지 않은 분들이라면 Dacon 아파트 실거래가 예측 AI 경진대회부터 해보시는here-lives-mummy.tistory.com 개요이전 글에서 얻은 Insights는 아래와 같은데요, 이 중 제가 선택한 것만 굵은 글씨로 표시해보겠습니다:Insight 1. 상관계수가 높은 feature 중에서는 몇 개를 drop해야할..
2025.03.29
-
[ML 대회 해설] Kaggle: Regression with an Abalone Dataset Public 8등 풀이 - EDA
지난 포스트에 이어, 이번 글에서는 데이터의 특성, feature의 개요를 EDA를 통해 살펴보겠습니다. 지난 글: [ML 대회 해설] Regression with an Abalone Dataset Public 8등 풀이 - 소개 (1)전복 좋아하시나요? 저는 별로 안 좋아하는데요, 시장 갈 때 마다 가격보고 기함하는 식재료 중 하나입니다.특히 큰 놈은 부르는게 값이더라구요. 한국에서는 전복의 크기를 표현할 때, kg에here-lives-mummy.tistory.com Overview전복의 나이는 어떻게 알 수 있을까요?전복 패각의 나이테를 확인하면 됩니다. 전복은 나무처럼 해를 거듭할수록 패각에 나이테가 늘어납니다.때문에 속살을 긁어내 패각 안쪽 나이테를 세어보면 나이를 알 수 있지요. 하지만 ..
2025.03.12
머신러닝 입문
-
[머신러닝 대회 입문] 분류? 회귀? Task란?
최근 패턴인식 과목에서 머신러닝 대회 팀플을 하고 있습니다.2학년 과목(...)이라 그런가본의 아니게 팀원분들을 제가 가르쳐가며 진행하는 중인데요,가르치다보니 초보 분들의 입장에서 뭐가 어려운지를 알게 되더라구요. 오늘은 최근 들어온 질문 중 하나이자,인공지능의 존재의의,가장 중요한 Task에 관한 이야기를 해보겠습니다. 소개 - Task란 무엇인가?인공지능 모델은 어떤 일을 할 수 있을까요? 역사적으로 무릇 위대한 지도자들은 인재의 장점을 파악하여 적재적소에 배치하는 능력이 매우 뛰어났다고 알려졌습니다.아무리 뛰어난 도구를 갖고 있어도 그 잠재력을 이해하지 못했다면 제대로 활용할 수 없겠지요. 인공지능도 마찬가지입니다. 인공지능은 아주 강력한 도구이지만, 동시에 그 장점과 단점이 명확합니다.따라서 인공..
2025.04.12
-
[머신러닝 대회 입문] Label Encoding, One-Hot Encoding, Target Encoding - 문자열 Feature 다루기
데이터를 분석하면 간혹 data type이 'object'로 표현되는 것들이 있습니다.Object feature들은 numeric feature와 달리, 그대로 모델에 집어넣으면 에러가 발생합니다. 그렇다면 이 feature들을 어떻게 다루어야 할까요?보통 Object Type Feature가 주어지면, 다음 방법 중 하나를 사용하여 학습 가능한 feature로 변환하곤 합니다:Label EncodingOne-Hot EncodingTarget EncodingCategorical Type으로 변환 (CatBoost 한정)Label Encoding, One-Hot Encoding, 그리고 Target EncodingLabel Encoding이란, obejct type에서 unique value를 모은 후 이..
2025.02.16
-
[머신러닝 대회 입문] 머신러닝 Workflow: 머신러닝이란? 머신러닝 과정, 데이터 분석하기 (1)
머신러닝을 입문할 때 가장 어려움을 겪는 부분은 어떻게 모델을 학습시키는지, 그 방법을 정립하는 단계입니다. 최근 머신러닝에 대한 관심이 집중되며 다양한 머신러닝 관련 아티클이나 서적을 다수 찾아볼 수 있습니다만, 정작 좋은 모델을 만들기 위한 일관된 Workflow에 대한 정보는 찾기 어렵습니다.저 역시 이 과정을 이해하고, 저만의 방법을 정립해 체화하는데에 오랜 시간이 걸렸는데요, 오늘은 머신러닝, 특히 머신러닝 대회에 입문하는 초보를 위한 ML Workflow를 설명하겠습니다. 이 내용은 일반 머신러닝 뿐 아니라 딥러닝에도 적용됩니다! 큰 도움이 되길 바래요 ;) * 주의: 이 글은 입문자를 위해 머신러닝의 개념을 알기쉽게 의역한 부분이 다소 존재합니다.머신러닝이란?머신러닝이란, 데이터로부터 패턴을..
2025.01.04