
github: https://github.com/Team-FDI/Team_FDI-DataCreator
기간: 2019년 9월 21일 ~ 2019년 10월 12일
요약: 2019 데이터 크리에이터 캠프 우수상 수상
youtube: https://www.youtube.com/watch?v=cLGrCpvQjx4
나의 첫 데이터 분석 공모전,,,
1. Team-FDI의 부활
저번 공모전의 영향이 꽤 컸었다.
무언가를 해서 이루는 성취감과, 그 과정 속에서 즐거운 일들이 아른아른거려서
다음 공모전의 이야기가 나왔을 때 모두가 너도 나도 할 것 없이 바로 YES! 를 외쳤다.
데이터 크리에이터 캠프의 특징은
토너먼트로 예선전 진행(6팀 중 2팀만 결승 진출)
↓
K-ICT 빅데이터 센터에서 결승전
모두 해커톤으로 진행되었고, 대회 당일 데이터를 주고 분석하는 대회였다.
예선전이 우리 명지대학교에서 진행되어서 더 편한 마음으로 임할 수 있었다,,,
대회에 들어가기 전, 우리의 사전 지식은
1. 직전학기에 배웠던R 통계
2. 간단한 python 문법
3. 언니, 오빠들의 분석기법 지식
정말 이것뿐이었다. 그리고,,, 열정?
2. 사전 준비
어떤 문제가 나올지, 무엇을 준비해야 하는지 아무것도 모르고 계획을 못 짜고 있는데
대회에서 그럴까봐 사전에 문제 유형 예시를 알려주었다.
요약해서 데이터에 대해 regression, classification 등을 이용해서 예측 정확도를 높이는 문제들이 나오는 것이다.

주제와 데이터가 주어지면 어떻게 분석할지 정리하고, 다 같이 전처리를 완료한 뒤 기법 하나씩 담당해서 분석을 진행하는 거였다. 또한 마지막으로 결과를 시각화하는 것도 역할 분담을 했었다.
3. 예선전(토너먼트)
대회 당일! 되게 설렜었다. 긴장은,,, 했나?
어떤 데이터를 받을지 궁금했고 공모전은 나한테 무대에서 공연하는 것처럼 신나는 일이었다.

분석 관령 간당한 강의가 끝나고 해커톤이 본격적으로 시작되었다.
google cloud로 데이터가 주어졌고, 주식과 관련한 데이터였다.
해당 변수가 어떤 변수인지 모두 Blind 된 상태(F01,F02...F050 으로 구분)에서 주가만 지정되었고,
x에 대한 target 데이터가 y로 주어졌다.


주제는 두 가지로 선택 가능했다.
1. 선형 회귀 분석으로 y값 예측.
2. 다중 분류로...(자세한 주제가 생각나지 않습니다,,,ㅠㅠ)
우리는 뒤에 시간이 조금 있어서 두 주제 모두 선택하였고, 다중 분류는 완성도가 조금 떨어졌던 걸로 기억한다.
우선 이 값들을 시계열로 그래프를 그렸다.

전체적인 데이터의 흐름을 파악해야 어떻게 분석할지, 어떻게 전처리를 할지 감이 잡히는 것 같았다.
분석과정을 요약하자면 이렇게 된다.
전처리: 평균값으로 채우기
영향력 있는 변수 선택: stepwise algorithm
예측 모델: 단순 선형 회귀분석, gausian NB, 앙상블 학습, Random Forest
여기서부터 지식의 문제가 나타난다.
어떻게 분석하고, 과정은 알고 있지만 해당 결과의 해석이 안 되는 것이었다.
R-squared값,,,? p value? MSE? 알고 있는 단어이지만 이걸로 이렇게 말하는 게 확실한 걸까? 우리의 결과가 맞는 걸까? 여러 혼동이 오고 시간도 짧았기에 정리가 부족한 상태로 발표를 하여 "분석" 보다는 "코딩"에 가까운 해커톤을 하였다.
이때부터 결승전 출전에 자신이 없었다.
4. 결승 진출
발표 후 자신감이 떨어진 상태에서 아무 기대가 없었다...
그치만

받,,, 았,,, 다,,,
오빠 신나서 표정 들뜬 거 봐욬ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 우리 팀 다 저 표정이었음,,,
결승 진출이 가능했던 요인을 생각해보자면
- 대회에 임하는 태도(Team-FDI 특유의 갸르륵갸르륵 힘으로 즐겁게 참여했다)
- 거의 유일했던 데이터 분석 전공자(기본 지식이 그나마 있는 편이었다.)
- 멘토님께 질문을 많이 했다
이렇게 될 것 같다. (물론 그냥 예측일 뿐)
아마 글이 더 길어질 것 같아서 결승전 글은 따로 올리도록 하겠다.
그럼,,, 후에,,, 또,,, 봐요,,,
2020/08/13 - [Sunny's Project] - 2019 데이터 크리에이터 캠프 #2 결승전
2020/08/13 - [Sunny's Project] - 2019 데이터 크리에이터 캠프 #2 결승전
2020/08/13 - [Sunny's Project] - 2019 데이터 크리에이터 캠프 #2 결승전
2020/08/13 - [Sunny's Project] - 2019 데이터 크리에이터 캠프 #2 결승전
'Sunny's Project' 카테고리의 다른 글
2019 데이터 크리에이터 캠프 #2 결승전 (2) | 2020.08.13 |
---|---|
오늘의 코로나(Today's COVID-19) (0) | 2020.07.28 |
먼지쳐방전 (공모전 가서 휴양하고 온 SSUL) (0) | 2020.07.21 |
MY융소 (0) | 2020.07.17 |