대회 설명
다음쇼핑에는 수억개의 상품이 존재합니다. 사용자에게 효과적으로 상품을 노출하기 위해서는 체계적인 분류가 필요하지만, 상품을 제공하는 업체마다 기준이 다르거나 분류 정보가 없는 경우가 많기 때문에 일관된 분류 체계로 만드는 작업이 필요합니다.
이 대회는 더 정확한 상품 분류기를 만드는 것이 목표입니다. 상품은 최대 4개까지의 분류 값을 갖는데, 각 분류는 계층적인 구조입니다. 예를 들어 아이디 L3203227501
상품은 맛있는 제주차 3종세트 ...
인데, 이 상품의 카테고리는 아래와 같습니다.
- 대분류: 음료/생수/커피
- 중분류: 차/티백
- 소분류: 차 선물세트
- 세분류 : 없음
대/중/소/세는 카테고리 분류 체계를 말하며 앞선 카테고리가 상위 카테고리입니다.
이 대회에서 다루게될 데이터는 아래와 같습니다.
- 약 천만건의 데이터: 제목, 브랜드, 이미지 피쳐, …
- 57개의 대분류 카테고리, 552개의 중분류 카테고리, 3190개의 소분류 카테고리, 404개의 세분류 카테고리
대회 참가자는 주어진 데이터로 분류기를 만든 후에 평가 데이터에 대해 예측한 결과를 제출하고 결과를 확인할 수 있습니다.
기초 코드
데이터 구조, 제출 포맷 확인등 원활한 참가를 돕기 위해 베이스라인 솔루션을 제공하고 있습니다. github의 코드를 참고하세요.
'데이터사이언스' 카테고리의 다른 글
강화학습 스터디 자료 (0) | 2020.07.01 |
---|---|
pandas에서 사용하기 더 좋은 plot ( Plotting in Pandas Just Got Prettier ) (0) | 2020.06.18 |
LSTM 이해하기 (0) | 2020.05.20 |
카카오 아레나 대회 - 브런치 사용자를 위한 글 추천 (0) | 2020.04.25 |
SQL, Group by 할 때 헷갈리길래 확인함 (0) | 2020.04.23 |