[숫자로 보는 NBA] 선수들의 부상은 어떤 경향성을 보일까?
안녕하세요, 농구 데이터 분석하는 고등학생 미생입니다.
입시를 준비하는 와중 약간의 시간이 비어 방학에 걸쳐 새로운 분석을 내놓았습니다.
오늘은 특히 긴 글 재미있게 읽어주시면 감사하겠습니다.^^
프롤로그: 선수들의 부상, 어떤 면을 살펴보아야 할까
부상은 선수와 팬 모두 팀을 막론하고 피하고 싶은 순간 1순위일 것입니다. 선수들은 벤치에 앉아있어야 하고, 풀 전력으로 맞붙길 원하는 팬들 입장에서도 안타까운 순간입니다.
이번 분석은 케글 사이트를 통해 2010년부터의 모든 부상을 정리한 데이터를 기반으로 이루어졌습니다. 분석을 하는 관점은 크게 3가지입니다. 먼저, 부상 부위 간의 연관성입니다. 한 선수가 과거에 다친 분야를 기반으로 어느 부위의 부상 확률이 높아지는지에 대한 예측이 가능해집니다. 둘째로, 부상의 기량 하락입니다. 부상에서 완치되어 돌아온다 해도 부상을 당한 부위에 따라 점프력, 밸런스 등의 문제로 기량이 하락되는 경우를 볼 수 있습니다. 부위별로 얼마나 기량이 변하는지를 스탯으로 살펴보았습니다. 마지막으로 마일리지에 따른 부상의 위험성입니다. 카와이 레너드의 로드 매니지먼트, 또는 출전시간 제한등 선수의 경기출장 시간-휴식일 등의 관계를 분석하여 피로도의 증가로 인해 부상의 위험성이 얼마나 증가하는지를 알아보았습니다.
1. 선수들의 부상 부위의 연관성
(1) 기초지식: apriori(연관규칙분석) 알고리즘
연관규칙분석이란 어떤 두 아이템 집합이 빈번히 발생하는가를 알려주는 일련의 규칙들을 생성하는 알고리즘입니다. 예를 들어 소비자들의 구매이력 데이터를 토대로 “X 아이템을 구매하는 고객들은 Y 아이템 역시 구매할 가능성이 높다”는 식의 결론을 내는 알고리즘입니다.
[출처: | https://ratsgo.github.io/…]
(2) 데이터 전처리
위에서 구한 선수들의 부상 데이터를 통해 데이터 셋을 만들었습니다. 먼저 데이터 셋은 총 약 11200개, 그중 같은 이름으로 되어있는 부상은 1300개 정도 되었습니다. 다시 이들을 부위별로 44개로 정리하였습니다. 즉, 몸을 44개의 부위로 나누어, 각각에 따른 부상을 정리했습니다.
그 후에는 선수별로 당한 부상을 정리해보았습니다. 약 7100명의 선수들이 10년동안 당한 부상을 정리했습니다. 예를 들어 드마커스 커즌스는 왼쪽 무릎-오른쪽 허벅지-왼쪽 ACL부상을 당했습니다. 이렇게 만들어진 7100개의 한 선수가 당한 부상 부위의 데이터를 하나의 장바구니 삼아 apriori 분석을 진행하였습니다.
(3) 분석 결과
가. 부위들의 연관성
나.먼저 노드를 나타내는 원들의 크기는 얼마나 빈번하게 일어나는 상황인지에 대한 지지도를 나타내고 있습니다. 특징적으로 큰 지지도를 가지는 관계는 다음과 같은 관계가 있습니다.
과거의 부상들 |
|
예상되는 부상 |
오른쪽 발목 |
⇒ |
왼쪽 정강이 |
오른쪽 발 |
⇒ |
왼쪽 무릎, 목 |
오른쪽 무릎 |
⇒ |
목, 왼쪽 정강이 |
오른쪽 발, 목 |
⇒ |
오른쪽 발목 |
왼쪽 정강이, 왼쪽 무릎 |
⇒ |
오른쪽 ACL |
오른쪽 발, 왼쪽 발목 |
⇒ |
왼쪽 무릎 |
주로 하체부분, 그 중에서도 착지를 기반으로 하는 부위들의 부상 사이의 연관성이 지지도가 높게 나오는 것을 확인할 수 있었습니다. 이는 착지를 하는 방식이 잘못된 선수들의 습관으로 인한 부상이 연관성을 형성한 것이라 해석할 수 있을 듯합니다. 더불어 목 부상이 하체 부상과 동반되어 나타나는 것 또한 확인할 수 있었습니다.
다.노드의 색깔은 그 관계가 얼마나 신뢰성이 있느냐는 것입니다. 지지도와 다르게 유용한 규칙의 척도로 살펴볼 수 있습니다.
과거의 부상들 |
|
예상되는 부상 |
오른쪽 발, 왼쪽 발목, 오른쪽 무릎 |
⇒ |
왼쪽 무릎 |
오른쪽 발, 왼쪽 정강이, 오른쪽 발목 |
⇒ |
오른쪽 무릎 |
오른쪽 발목, 목, 왼쪽 무릎관절 |
⇒ |
왼쪽 정강이 |
왼쪽 발목, 오른쪽 무릎, 오른쪽 손목 |
⇒ |
목 |
오른쪽 발목, 목, 왼쪽 어꺠 |
⇒ |
오른쪽 무릎 |
오른쪽 발, 왼쪽 무릎, 발가락, 목 |
⇒ |
오른쪽 무릎 |
지지도와 유사하게 신뢰성에 있어서도 착지와 관련된 부상이 연관이 많은 것으로 밝혀졌다. 특히 무릎과 관련된 부상이 예상되는 부상으로 많이 나온 것을 통해서 착지 문제로 인한 부상에서 무릎은 주로 공통적으로 나온 것을 의미합니다.
라. 선수들의 부상 예상
다음은 이번시즌 출전시간이 가장 많은 5명의 선수가 당할 확률이 높은 부상의 종류입니다.
선수 |
부상 종류 |
CJ McCollum • POR |
목, 왼쪽 정강이, 오른쪽 발 |
Devin Booker • PHO |
왼쪽 정강이, 왼쪽 발목 |
James Harden • HOU |
오른쪽 발, 목 |
Harrison Barnes • SAC |
오른쪽 발 |
Damian Lillard • POR |
왼쪽 정강이, 왼쪽 무릎 |
2. 기량의 변화
기량의 변화는 비교적 단순한 방법으로 확인할 수 있다. 부상의 시점과 복귀의 시점을 기준으로 부상전 42게임(0.5시즌)과 복귀 후의 42게임에서 총 8개의 스탯(출전시간, 득점, 어시스트, 리바운드, 스틸, 블록, 턴오버, 게임스코어)의 평균의 변화를 퍼센트로 나타냈습니다. 그 결과를 아래와 같이 표시했습니다.
(가) 평균 스탯의 변화
빨간색은 하락, 파란색은 상승을 나타내며 순수한 빨간색(255,0,0)이 –10%, 순수한 파랑색이(0,0,255)이 +10%를 의미합니다. 특징적인 부분만 보자면 출전시간은 상체의 부상에 의해 더 많이 감소하는 것을 볼 수 있습니다. 득점의 경우, 전체적으로 10% 언저리에서 감소하였고, 스틸과 블록도 상체에 의한 감소가 더 컸습니다. 이를 전체적으로 종합한 게임스코어(GmSc)에서도 상체로 인한 평균 스탯의 하락효과가 더 크다는 것을 보여줍니다.
(나) 스탯 기복의 변화
마찬가지로 빨간색이 감소하고 파란색이 증가하는 수치이기에 기복이 준다는 것은 빨간색 영역이 많아진다는 것을 의미합니다. 출전시간의 기복은 코어가 아닌 팔, 다리 부위의 부상에서 증가하였고, 어시, 스틸, 득점 등에서의 수치에서도 코어가 아닌 팔 다리의 부상이 기복을 심화시켰습니다. 그리고 이 역시 게임스코어에 반영되어 나타납니다.
(다) 선수들의 변화
선수들의 역대 부상 중에서 기량의 하락이 가장 많이 일어났던 부상들은 다음들이 있습니다.
날짜 |
선수 |
부상 |
2014-1-31 |
네이트 로빈슨 |
왼쪽 전방 십자인대 |
2014-02-09 |
Ty Lawson |
왼쪽 갈비뼈 |
2013-10-12 |
Trey Burke |
오른쪽 손가락 |
2012-01-26 |
Andrew Bogut |
왼쪽 발목 |
2017-03-24 |
Jahlil Okafor |
오른쪽 무릎 |
(라) 부상 간의 연관성
위에서는 발병 확률에 따라 부상들을 분류해보았다면, 기량의 하락의 면에서도 연관성을 분석해보았습니다. 즉, 어느 부위의 부상이 비슷한 기량 하락을 나타내는지에 대한 분석이라 생각할 수 있습니다. 이를 군집분석을(군집 분석(clustering analysis)은 주어진 데이터들을 특성에 따라 유사한 것끼리 묶음으로써 각 유형별 특징을 분석하는 기법이다) 이용하여 평균적 기량 하락과 기복의 변화에 따라 다음과 같이 군집이 형성되었다.
(마직막까지 붙어있을수록 유사한 것들)
너무 다각화되어 결과가 나왔기 때문에 해석이 어렵지만, 대체적으로 오른쪽과 왼쪽에 따른 부상부위가 나뉘어서 나온다는 것은 인상적이었다.
3. 마일리지에 따른 부상 확률의 변화
마일리지에 관여하는 요소를 총 3개로 간주하였다. 먼저 경기에서 뛴 시간, 그리고 경기 사이 쉰 날의 수, 현재 나이가 마일리지를 결정한다는 가정을 하였다. 따라거 이들이 만든 식인 마일리지가 일정 수준을 넘었을 때 부상이 일어난다고 가정한 것이다. 이를 2가지 모델에 넣어 분석을 진행하였다.
(가) 로지스틱
마일리지가 쌓일수록 부상확률이 높아진다는 사실을 기반으로 하여 이를 로지스트 함수에 근사할 수 있다는 생각을 하였다. 로지스트 모델은 로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다. 따라서 각 선수들의 복귀에서 다시 부상까지 가는 시점을 조사하여 그 시기동안 뛴 경기 시간, 쉰 날수, 나이를 데이터로 하여 부상을 당했음을 나타내는 1을 할당하고, 그에 반절되는 출전시간과 쉰 날수에 대해서는 부상을 당하지 않음을 나타내는 0을 할당하였다. 이를 로지스트 함수로 분석하여 다음을 알아내었다.
(1) 각 요소별 변곡점
나이, 출전시간, 휴식일에 대해 각각에 해당하는 모델을 구현하여 변곡점을 구하면 어느 시점에서 부상의 확률이 급격하게 올라가는지에 대한 정보를 얻을 수 있다.
먼저 출장시간에 대해서만 분석을 하였을 때, 2833분, 즉 약 47시간 이상의 경기를 뛴 시점을 계기로 하여 부상 확률이 급격히 올라가는 것을 볼 수 있었다.
휴식일은 약 2.7일을 넘어서면 급격히 감소하게 된다. 이는 백투백 일정이 부상의 확률을 높이는 것을 보여주는 예이기도 하다
나이는 20세에서 40세까지는 확률이 0.2에서 0.5로 소폭 상승하면서 로지스트 함수의 일부를 나타내는 직선의 꼴이 나오게 된다. 이는 특징 기준점이 아닌 계속 부상 위험성을 크게 만드는 요소로 판단할 수 있다.
이를 전체적으로 고려하면 마일리지에 대한 계산식을 얻을 수 있다.
(마일리지)=0.7793+0.00001358 * (경기출장시간)-.0.0175 *(휴식일)+0.002092*(나이)
하지만 부상을 당하지 않은 데이터의 처리가 온전치 못하다는 것, 그리고 무조건 로지스틱에 근사하는 것의 신뢰성을 위해 다음 방법도 함께 사용하였다.
(2) 인공신경망
인공신경망은 딥러닝의 방식으로 은닉층을 이용하여 계산을 수행하는 것이다. 데이터 셋은 위와 동일히 진행한 채 인공신경망의 모델을 만들었다.
인공신경망의 단점은 단순히 시각화된 자료만을 가지고 알 수 있는 점이 별로 없다는 것이다.
그나마 왼쪽 그래프를 통해서 나이-출전시간-휴식일 순으로 부상위험을 높이는 중요 순서로 정해짐을 알 수 있다.
인공신경망은 부상을 당할 확률 값을 구해준 다음에 이를 위에서 구한 마일리지 식과 함께 그래프를 그려보면 다음과 같다
이는 마일리지가 부상의 위험성을 위에서 언급한 로지스틱 근사의 문제에도 불구하고 제대로 반영하고 있음을 알려준다.
(3) 선수들의 부상 확률
궁극적이로 이는 선수들의 부상 확률을 알 수 있다. 현재 버블에서 뛰고 있는 선수들이 버블에 들어온 후부터 지금까지의 기록을 바탕으로 부상 당할 확률이 큰선수들의 부상확률을 구해보면 다음과 같다.
선수 |
확률(%) |
James Harden |
4.701863124 |
Nikola Jokic |
4.693216244 |
Jayson Tatum |
4.685652362 |
Bam Adebayo |
4.630657255 |
P.J. Tucker |
4.629082036 |
OG Anunoby |
4.534037815 |
Pascal Siakam |
4.521891602 |
Robert Covington |
4.468460953 |
Anthony Davis |
4.455969052 |
휴스턴과 토론토의 선수들이 다수 포진해 있는 것을 확인할 수 있다.
더불어 현재 2라운드 진출 팀 중 1옵션들의 부상 확률은 다음과 같다.
선수 |
확률(%) |
James Haren |
4.701863124 |
LeBron James |
4.441649429 |
Kawhi Leonard |
4.290677756 |
Jamal Murray |
4.434827808 |
Kyle Lowry |
4.371495661 |
Kemba Walker |
4.113752073 |
Giannis Antetokounmpo |
4.375929539 |
Jimmy Butler |
4.298110641 |
확률상으로는 대동소이하지만 대부분 시리즈를 빨리 끝내고 온 보스턴의 워커, 버틀러 등의 마일리지가 낮은 것을 볼 수 있다. 더불어, 6차전까지 치르고 온 레너드 또한 낮은 마일리지를 유지하고 있다. 반해 7차전을 치룬 하든, 요키치, 머레이는 비교적 높은 것을 확인할 수 있다.
4. 마무리
부상이란 것은 상상치 못한 상황에서 일어나게 된다. 컨디션이 좋던, 리그의 첫 경기이던 언제나 변수라고 이야기를 한다. 따라서 이번 분석에서도 정확히 상황을 예측하기 보다는, 경향성의 예측에 초점을 두었다. 산발적이고 변수가 큰 기록인지라 그만큼 오차도 큰 분석이었다. 하지만 대략적인 부상 부위의 관계, 기량 감소의 관계, 그리고 마일리지와 로드 매니지먼트까지, 경향성을 확인할 수 있는 기회였던 것 같다.
고등학교도 요즘 졸업하려면 논문이 필요하군요.
대학교는 통계학과추천드립니다.