Discussion

국내 연구
국외 연구
sports data api 에 대한 조사와 정리

B06WP26J8Q?tag=splitbrain-20, 1466570229?tag=splitbrain-20
현재까지의 진행: 데이터 수집 및 분석
http://www.koreabaseball.com/Default.aspx

Proposal

파이널 프로젝트는 스포츠 중에서도, 미국 메이저리그 (MLB)의 전략이 어떻게 성립되고 어떤 분석을 통해 적용되는지 알고, 그를 KBO에 적용시켜보는 것이 목표이다. 그래서 우리 2조는 앞서 국내는 현재 ‘빅데이터와 스포츠’, ‘데이터 기반의 야구’ 에 관한 논문이 얼마나 많은지 찾아보기로 했다. 국내, 빅데이터 시장은 아직 인프라 구축단계에 있고 국내 야구계 역시 세이버 매트리션에 대해서 아직은 회의적인 반응이다. 하지만 역시 야구는 기록의 스포츠이기 때문에 수 많은 데이터를 바탕으로 여러가지 주제의 논문이 존재하는 것을 찾을 수 있었다. 크게 3가지 논문에 대해서 조사해보았다.

빅데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략
Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석
R을 활용한 야구데이터 다차원 시각화

빅 데이터 시대의 소셜 네트워크 분석 기법과 스포츠 분야의 활용전략

독일의 우승으로 막을 내린 2014 브라질 월드컵에서, 독일의 빅 데이터 전술 분석이 화재로 언급되었다. 선수들의 기본적 속성데이터를 토대로 그들의 움직인 거리, 활동영역, 그리고 패스 구간 등 개인의 플레이 등을 시각화 하고 그것에 대한 피드백을 제공하며, 상대방의 전략을 전반에 분석하고 하프타임에 그에 맞는 즉석의 전술 변화 또한 가능하다. 휴식시간에는 선수들은 자국팀과 상대팀의 선수 개인의 활동량과 범위를 시각화된 자료로 보여주는 ‘가상 수비네트워크’ 를 볼 수 있다.

아래 예시 사진에서 볼 수 있듯이 패스 연결망 분석을 통하여, 이 선수가 어느 선수에게 공을 많이 보내고 어느 선수로부터 공을 많이 받는지를 알 수 있다. 하지만 이런 분석의 한계점도 존재한다. 분석 대상의 측면에서는 대부분의 연구가 볼의 움직임만을 추적하여 공격, 수비 패턴을 분석하였으며, 다른 상황 요인들은 배제된 것이다. 이런 한계점을 넘어서 경기 시간의 흐름속에 변화하는 볼의 흐름과 선수의 습관, 패턴 변화 등을 분석할 수 있는 후속 연구들이 필요하다고 생각한다.

Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석

위의 논문은 신경망 분석 (Neural Network)을 바탕으로 1982년부터 33년간의 데이터를 바탕으로 2015년 프로야구의 승률을 예측하는 논문이었다.

INPUT 종류	Input Node 종류
A	평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈 OR 어웨이
A'	평균자책점, 타율, 피안타수, 투구이닝, 삼진, 탈삼진, 승률
B	평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈 OR 어웨이
B'	평균자책점, 타율, 피안타수, 투구이닝, 삼진, 탈삼진, 승률

신경망 분석에 들어가는 노드들의 종류를 보면 평균자책점, 타율, 피안타수, 볼넷, 투구이닝, 삼진, 탈삼진, 승률, 홈or어웨이 여부를 통해서 승률을 예측하는 알고리즘을 사용하고 있다.

구단	예측승률	실제승률
삼성	61.7	60.3
넥센	53.9	54.3
NC	52.5	59.4
KIA	51.8	47.5
롯데	49.6	46.4
두산	48.2	54.3
한화	47.5	47.5
SK	45.3	48.9
LG	42.9	44.9
KT	41.8	36.4

위의 변수들을 넣고 신경망 분석을 돌렸을 때 나온 모델로 2015년 9월 6일~ 2015년 9월 30일 승률을 예측한 것이다. 평균적인 예측 승률과 실제승률의 오차는 3.39%에 이르렀다. 위 논문에서 사용한 변수들은 각광받고있는 세이버 매트릭스 지수에서 크게 중요하게 생각하는 지표들이 아니므로 승률을 더 정밀하게 맞추지 못했다고 생각한다. 다시 말해서, 타율(AVG)보다는 출루율(OBP), 출루율+장타율(OPS)가 더 중요하고, 평균자책점(ERA)보다는 출루허용률(WHIP)과 같은 새로운 지표들이 더 중요하다는 것이다. 아마 이러한 지표들을 이용해서 새로운 모델링을 하게되면 더 좋은 승률 예측이 가능할 것이라고 생각한다.

R을 활용한 야구 데이터 다차원 시각화

위의 논문은 통계 프로그램 중 하나인 ‘R’을 이용한 야구 데이터의 시각화에 대해서 이야기하는 논문이다. 기록의 스포츠인 야구가 어려운 이유는 야구의 룰자체가 매우 복잡하고 어려운 점도 있지만, 전문가들 수준이 되어야 알아볼 수 있는 용어와 그에 대한 기록들이 숫자로 빼곡히 정리되어 있어 한눈에 알아보기 어려워 어려운 점도 있다. 이에 따라 세이버 매트릭스를 더 대중화 하기 위해선 데이터들의 시각화가 필수적이라는 내용이다. 실제로 간단한 예를 보면,

이는 타고투저 현상을 버블차트를 이용해 간단하게 시각화 한 것이다. 타자통계자료는 X-Y좌표에 타율-홈, 버블색은 팀, 사이즈는 홈런을 뜻한다. 투수통계자료는 X-Y좌표에 평균자책점-승, 버블색은 팀, 사이즈는 득점을 뜻한다. 더 간단하게 말하면 각 점들이 우상단에 많이 분포할수록 우수한 타자가 많고 투수의 경우는 좌상단에 많이 분포할수록 좋은 투수가 많다는 것을 의미한다. 실제로 2011년 보다 2015년 우수한 타자가 더 많아졌고, 2011년 보다 2015년 우수한 투수들이 많이 사라지고 평균자책점이 높은 투수들이 많아졌다.

실제로 보아도 타고투저의 현상은 있다고 본다. 이 시각화를 세이버 매트릭스에도 도입하여 더 정확한 타고투저 현상을 구분할 수 있을 뿐만 아니라, 경기 외적인 요인(공인구의 선택, 배트의 반발력, 구장의 환경)이 영향을 미치는지 아닌지도 분석할 수 있을 것으로 보인다. 더 정확하고 중요한 정보들의 시각화가 야구를 시청하는 일반인들에게도 공개되어 야구를 보는 재미를 더하고 메이저리그처럼 풍성한 데이터를 갖추게 되길 개인적으로 바란다.

참고문헌

김종훈, 김경태, & 한종기. (2015). Deep learning 기반 기계학습 알고리즘을 이용한 야구 경기 big data 분석. Paper presented at the pp. 262-265.
김주희, & 최용석. (2016). r을 활용한 야구 통계 데이터 다차원 시각화 도구. Paper presented at the , 24. (1) pp. 143-146.
박성제, & 이제욱. (2014). 빅데이터(Big data) 시대의 소셜 네트워크 분석 (social network analysis) 기법과 스포츠 분야의 활용전략. 한국체육과학회지, 23(5), 933-946.

COMMunication
RESearch.NET

Table of Contents