박스앤위스커 - 박장시님 강연 후기¶
주제: 데이터 사이언스에 대한 몇 가지 실제 사례 소개
사례들¶
1. 문제: 데이터로 무엇을 분석해야하는지 모르는 경우¶
- 데이터는 많은데, 분석을 어떻게 시작하는 모르는 경우, 우선 평소에 궁금한 것이 무엇인지 알아보기
- streaming data의 검정: A/B test(시간 변수를 통제하기 위함)
- 온라인에서의 t-test, large-scale hypothesis testing시 effect size도 고려할 것(p-value가 얼만큼 변했는지)
2. 문제: 인터넷 쇼핑몰에서 어떤 상품 배치가 최적?¶
- MD vs 기계의 상품 배치 대결
- 웹에서의 '땅값' 개념 도입
- A/B test
- 소규모 실험을 우선시 해서, 성과를 보여준 다음에 계속 확대하는 방향으로 가라
3. 문제: MAB 테스트엔진¶
- A/B test의 단점:
- 테스트가 끝나기 전까지(결과를 얻기전까지) 몇 초간 손해를 볼 수가 있음(기회비용)
- exploration vs exploitation
- 항상 변하는 세상: 언제나 옳은 진리는 없음, 상황에 맞춰서 정답도 변하는 세상
- MAB: Multi-armed bandit - 개념링크
- 장점: 다양한 테스트가 가능하다
4. 문제: 전시장 데이터 시각화¶
- 비콘 data(거리만 나타남)의 처리: 비콘 로그를 이용한 이동범위 추정
- 데이터의 편향 가능성: 관심있는 사람만 참가하기 때문에 보편적이지 않을 수도?
-
데이터 이상치(outlier)의 처리: 분석후, 현장 전문가 모셔서 이상치를 검증하고 제거
-
Force-Directed graph
- color scheme: 히트맵 그릴시 https://colorbrewer2.org 참고할것
- numpy for grid: 큰 지도 데이터 경우, 지도를 하나의 큰 matrix로 볼 것
5. 문제: 탱시 운행 정보 시각화¶
- 택시 미터기 데이터 처리: 미터기를 안누르는 경우도 있고해서 빈 데이터가 가끔 씩 존재했음(택시를 탔는 기록이었는데 다음 데이터에도 다시 타는 기록이 남은 경우), 이때 Finite-state machine 설계를 해서 부족한 데이터를 깔끔하게 보충함(택시를 탔으면 다음에는 무조건 내려야하는 것).
6. 문제: 스킬 트리 분석, EDA - 탐색적 자료분석의 중요성¶
- 특별한 과정은 없음, 우선 데이터의 분포를 그려보는 것이 중요, 그래서 이 데이터를 어떻게 처리할 지 고민할 것
- ggplot
7. 문제: 던전 이탈률 분석¶
- 회귀분석, 의사결정나무를 쓰는 이유는 사람들이 이해하기 쉽기 때문이다. 퍼포먼스는 약간 떨어지지만, 사람들을 설득하는데 도움이 됨. 우선 적용하는게 좋음
- Validation을 어떻게 할지 처음부터 같이 고민할 것.
8. 다차원큐브탐색¶
- 파이콘 2017 세션 강의 참고하기!
느낀점¶
- 강연이 좋았던게 다양한 사례를 통해서 어떻게 데이터를 접근할지 알려주고, 실제 고객들에게(혹은 다른 사람들에게) 설득하는 방법을 터득할 수가 있었음.
- 그리고 항상 프로젝트를 작게 시작하는 법도 배움, 조금씩 해서 성공하면 확장하는 방식으로 사고해야겠음.
- "부산으로 가는데, 모든 신호등이 한번에 초록불로 변할 수는 없는 법" 이말도 인상 깊었다.