Xp
NBA Maniazine
/ / / /
Xpert
[숫자로 보는 NBA] 선수들의 부상은 어떤 경향성을 보일까?
 
62
  4784
2020-09-07 15:28:36

안녕하세요농구 데이터 분석하는 고등학생 미생입니다.

입시를 준비하는 와중 약간의 시간이 비어 방학에 걸쳐 새로운 분석을 내놓았습니다.

오늘은 특히 긴 글 재미있게 읽어주시면 감사하겠습니다.^^

 

 

프롤로그선수들의 부상어떤 면을 살펴보아야 할까

부상은 선수와 팬 모두 팀을 막론하고 피하고 싶은 순간 1순위일 것입니다선수들은 벤치에 앉아있어야 하고풀 전력으로 맞붙길 원하는 팬들 입장에서도 안타까운 순간입니다.

이번 분석은 케글 사이트를 통해 2010년부터의 모든 부상을 정리한 데이터를 기반으로 이루어졌습니다분석을 하는 관점은 크게 3가지입니다먼저부상 부위 간의 연관성입니다한 선수가 과거에 다친 분야를 기반으로 어느 부위의 부상 확률이 높아지는지에 대한 예측이 가능해집니다둘째로부상의 기량 하락입니다부상에서 완치되어 돌아온다 해도 부상을 당한 부위에 따라 점프력밸런스 등의 문제로 기량이 하락되는 경우를 볼 수 있습니다부위별로 얼마나 기량이 변하는지를 스탯으로 살펴보았습니다마지막으로 마일리지에 따른 부상의 위험성입니다카와이 레너드의 로드 매니지먼트또는 출전시간 제한등 선수의 경기출장 시간-휴식일 등의 관계를 분석하여 피로도의 증가로 인해 부상의 위험성이 얼마나 증가하는지를 알아보았습니다.

 

 

1. 선수들의 부상 부위의 연관성

(1) 기초지식: apriori(연관규칙분석알고리즘

연관규칙분석이란 어떤 두 아이템 집합이 빈번히 발생하는가를 알려주는 일련의 규칙들을 생성하는 알고리즘입니다예를 들어 소비자들의 구매이력 데이터를 토대로 “X 아이템을 구매하는 고객들은 아이템 역시 구매할 가능성이 높다는 식의 결론을 내는 알고리즘입니다.

[출처 | https://ratsgo.github.io/…]

(2) 데이터 전처리

위에서 구한 선수들의 부상 데이터를 통해 데이터 셋을 만들었습니다먼저 데이터 셋은 총 약 11200그중 같은 이름으로 되어있는 부상은 1300개 정도 되었습니다다시 이들을 부위별로 44개로 정리하였습니다몸을 44개의 부위로 나누어각각에 따른 부상을 정리했습니다.

그 후에는 선수별로 당한 부상을 정리해보았습니다약 7100명의 선수들이 10년동안 당한 부상을 정리했습니다예를 들어 드마커스 커즌스는 왼쪽 무릎-오른쪽 허벅지-왼쪽 ACL부상을 당했습니다이렇게 만들어진 7100개의 한 선수가 당한 부상 부위의 데이터를 하나의 장바구니 삼아 apriori 분석을 진행하였습니다.

(3) 분석 결과

부위들의 연관성

.먼저 노드를 나타내는 원들의 크기는 얼마나 빈번하게 일어나는 상황인지에 대한 지지도를 나타내고 있습니다특징적으로 큰 지지도를 가지는 관계는 다음과 같은 관계가 있습니다.

과거의 부상들

 

 

예상되는 부상

오른쪽 발목

왼쪽 정강이

오른쪽 발

왼쪽 무릎

오른쪽 무릎

왼쪽 정강이

오른쪽 발

오른쪽 발목

왼쪽 정강이왼쪽 무릎

오른쪽 ACL

오른쪽 발왼쪽 발목

왼쪽 무릎

주로 하체부분그 중에서도 착지를 기반으로 하는 부위들의 부상 사이의 연관성이 지지도가 높게 나오는 것을 확인할 수 있었습니다이는 착지를 하는 방식이 잘못된 선수들의 습관으로 인한 부상이 연관성을 형성한 것이라 해석할 수 있을 듯합니다더불어 목 부상이 하체 부상과 동반되어 나타나는 것 또한 확인할 수 있었습니다.

 

 

.노드의 색깔은 그 관계가 얼마나 신뢰성이 있느냐는 것입니다지지도와 다르게 유용한 규칙의 척도로 살펴볼 수 있습니다.

과거의 부상들

 

 

예상되는 부상

오른쪽 발왼쪽 발목오른쪽 무릎

왼쪽 무릎

오른쪽 발왼쪽 정강이오른쪽 발목

오른쪽 무릎

오른쪽 발목왼쪽 무릎관절

왼쪽 정강이

왼쪽 발목오른쪽 무릎오른쪽 손목

오른쪽 발목왼쪽 어꺠

오른쪽 무릎

오른쪽 발왼쪽 무릎발가락

오른쪽 무릎

지지도와 유사하게 신뢰성에 있어서도 착지와 관련된 부상이 연관이 많은 것으로 밝혀졌다특히 무릎과 관련된 부상이 예상되는 부상으로 많이 나온 것을 통해서 착지 문제로 인한 부상에서 무릎은 주로 공통적으로 나온 것을 의미합니다.

 

 

선수들의 부상 예상

다음은 이번시즌 출전시간이 가장 많은 5명의 선수가 당할 확률이 높은 부상의 종류입니다.

선수

부상 종류

CJ McCollum • POR

왼쪽 정강이오른쪽 발

Devin Booker • PHO

왼쪽 정강이왼쪽 발목

James Harden • HOU

오른쪽 발

Harrison Barnes • SAC

오른쪽 발

Damian Lillard • POR

왼쪽 정강이왼쪽 무릎

 

 

2. 기량의 변화

기량의 변화는 비교적 단순한 방법으로 확인할 수 있다부상의 시점과 복귀의 시점을 기준으로 부상전 42게임(0.5시즌)과 복귀 후의 42게임에서 총 8개의 스탯(출전시간득점어시스트리바운드스틸블록턴오버게임스코어)의 평균의 변화를 퍼센트로 나타냈습니다그 결과를 아래와 같이 표시했습니다.

(평균 스탯의 변화

빨간색은 하락파란색은 상승을 나타내며 순수한 빨간색(255,0,0)이 10%, 순수한 파랑색이(0,0,255)이 +10%를 의미합니다특징적인 부분만 보자면 출전시간은 상체의 부상에 의해 더 많이 감소하는 것을 볼 수 있습니다득점의 경우전체적으로 10% 언저리에서 감소하였고스틸과 블록도 상체에 의한 감소가 더 컸습니다이를 전체적으로 종합한 게임스코어(GmSc)에서도 상체로 인한 평균 스탯의 하락효과가 더 크다는 것을 보여줍니다.

 

(스탯 기복의 변화

마찬가지로 빨간색이 감소하고 파란색이 증가하는 수치이기에 기복이 준다는 것은 빨간색 영역이 많아진다는 것을 의미합니다출전시간의 기복은 코어가 아닌 팔다리 부위의 부상에서 증가하였고어시스틸득점 등에서의 수치에서도 코어가 아닌 팔 다리의 부상이 기복을 심화시켰습니다그리고 이 역시 게임스코어에 반영되어 나타납니다.

 

(선수들의 변화

선수들의 역대 부상 중에서 기량의 하락이 가장 많이 일어났던 부상들은 다음들이 있습니다.

날짜

선수

부상

2014-1-31

네이트 로빈슨

왼쪽 전방 십자인대

2014-02-09

Ty Lawson

왼쪽 갈비뼈

2013-10-12

Trey Burke

오른쪽 손가락

2012-01-26

Andrew Bogut

왼쪽 발목

2017-03-24

Jahlil Okafor

오른쪽 무릎

 

 

(부상 간의 연관성

위에서는 발병 확률에 따라 부상들을 분류해보았다면기량의 하락의 면에서도 연관성을 분석해보았습니다어느 부위의 부상이 비슷한 기량 하락을 나타내는지에 대한 분석이라 생각할 수 있습니다이를 군집분석을(군집 분석(clustering analysis)은 주어진 데이터들을 특성에 따라 유사한 것끼리 묶음으로써 각 유형별 특징을 분석하는 기법이다이용하여 평균적 기량 하락과 기복의 변화에 따라 다음과 같이 군집이 형성되었다.

(마직막까지 붙어있을수록 유사한 것들)

너무 다각화되어 결과가 나왔기 때문에 해석이 어렵지만대체적으로 오른쪽과 왼쪽에 따른 부상부위가 나뉘어서 나온다는 것은 인상적이었다.

 

 

3. 마일리지에 따른 부상 확률의 변화

마일리지에 관여하는 요소를 총 3개로 간주하였다먼저 경기에서 뛴 시간그리고 경기 사이 쉰 날의 수현재 나이가 마일리지를 결정한다는 가정을 하였다따라거 이들이 만든 식인 마일리지가 일정 수준을 넘었을 때 부상이 일어난다고 가정한 것이다이를 2가지 모델에 넣어 분석을 진행하였다.

(로지스틱

마일리지가 쌓일수록 부상확률이 높아진다는 사실을 기반으로 하여 이를 로지스트 함수에 근사할 수 있다는 생각을 하였다로지스트 모델은 로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다따라서 각 선수들의 복귀에서 다시 부상까지 가는 시점을 조사하여 그 시기동안 뛴 경기 시간쉰 날수나이를 데이터로 하여 부상을 당했음을 나타내는 1을 할당하고그에 반절되는 출전시간과 쉰 날수에 대해서는 부상을 당하지 않음을 나타내는 0을 할당하였다이를 로지스트 함수로 분석하여 다음을 알아내었다.

(1) 각 요소별 변곡점

나이출전시간휴식일에 대해 각각에 해당하는 모델을 구현하여 변곡점을 구하면 어느 시점에서 부상의 확률이 급격하게 올라가는지에 대한 정보를 얻을 수 있다.

먼저 출장시간에 대해서만 분석을 하였을 때, 2833즉 약 47시간 이상의 경기를 뛴 시점을 계기로 하여 부상 확률이 급격히 올라가는 것을 볼 수 있었다.

 

휴식일은 약 2.7일을 넘어서면 급격히 감소하게 된다이는 백투백 일정이 부상의 확률을 높이는 것을 보여주는 예이기도 하다

 


 

나이는 20세에서 40세까지는 확률이 0.2에서 0.5로 소폭 상승하면서 로지스트 함수의 일부를 나타내는 직선의 꼴이 나오게 된다이는 특징 기준점이 아닌 계속 부상 위험성을 크게 만드는 요소로 판단할 수 있다.

 

 

이를 전체적으로 고려하면 마일리지에 대한 계산식을 얻을 수 있다.

 

 

 

(마일리지)=0.7793+0.00001358 * (경기출장시간)-.0.0175 *(휴식일)+0.002092*(나이)

하지만 부상을 당하지 않은 데이터의 처리가 온전치 못하다는 것그리고 무조건 로지스틱에 근사하는 것의 신뢰성을 위해 다음 방법도 함께 사용하였다.

 

(2) 인공신경망

인공신경망은 딥러닝의 방식으로 은닉층을 이용하여 계산을 수행하는 것이다데이터 셋은 위와 동일히 진행한 채 인공신경망의 모델을 만들었다.

인공신경망의 단점은 단순히 시각화된 자료만을 가지고 알 수 있는 점이 별로 없다는 것이다.

 

그나마 왼쪽 그래프를 통해서 나이-출전시간-휴식일 순으로 부상위험을 높이는 중요 순서로 정해짐을 알 수 있다.

 

인공신경망은 부상을 당할 확률 값을 구해준 다음에 이를 위에서 구한 마일리지 식과 함께 그래프를 그려보면 다음과 같다

이는 마일리지가 부상의 위험성을 위에서 언급한 로지스틱 근사의 문제에도 불구하고 제대로 반영하고 있음을 알려준다.

 

 

(3) 선수들의 부상 확률

궁극적이로 이는 선수들의 부상 확률을 알 수 있다현재 버블에서 뛰고 있는 선수들이 버블에 들어온 후부터 지금까지의 기록을 바탕으로 부상 당할 확률이 큰선수들의 부상확률을 구해보면 다음과 같다.

선수

확률(%)

James Harden

4.701863124

Nikola Jokic

4.693216244

Jayson Tatum

4.685652362

Bam Adebayo

4.630657255

P.J. Tucker

4.629082036

OG Anunoby

4.534037815

Pascal Siakam

4.521891602

Robert Covington

4.468460953

Anthony Davis

4.455969052

휴스턴과 토론토의 선수들이 다수 포진해 있는 것을 확인할 수 있다.

 

 

더불어 현재 2라운드 진출 팀 중 1옵션들의 부상 확률은 다음과 같다.

선수

확률(%)

James Haren

4.701863124

LeBron James

4.441649429

Kawhi Leonard

4.290677756

Jamal Murray

4.434827808

Kyle Lowry

4.371495661

Kemba Walker

4.113752073

Giannis Antetokounmpo

4.375929539

Jimmy Butler

4.298110641

확률상으로는 대동소이하지만 대부분 시리즈를 빨리 끝내고 온 보스턴의 워커버틀러 등의 마일리지가 낮은 것을 볼 수 있다더불어, 6차전까지 치르고 온 레너드 또한 낮은 마일리지를 유지하고 있다반해 7차전을 치룬 하든요키치머레이는 비교적 높은 것을 확인할 수 있다.

 

 

4. 마무리

 

 

 

부상이란 것은 상상치 못한 상황에서 일어나게 된다컨디션이 좋던리그의 첫 경기이던 언제나 변수라고 이야기를 한다따라서 이번 분석에서도 정확히 상황을 예측하기 보다는경향성의 예측에 초점을 두었다산발적이고 변수가 큰 기록인지라 그만큼 오차도 큰 분석이었다하지만 대략적인 부상 부위의 관계기량 감소의 관계그리고 마일리지와 로드 매니지먼트까지경향성을 확인할 수 있는 기회였던 것 같다.

이 게시물은 아스카님에 의해 2020-09-08 00:37:09'NBA-Talk' 게시판으로 부터 이동되었습니다.
20
Comments
2020-09-07 15:34:27

고등학교도 요즘 졸업하려면 논문이 필요하군요.
대학교는 통계학과추천드립니다.

2020-09-07 15:35:52

이런걸 만드시다니 대단하다는 생각 뿐이네요.

 

잘 보고갑니다. 레너드의 관리가 왜 필요한지도 생각해봤네요.

 

무작정 비난할 일이 아니네요.

 

일단 저 목록중에 쿤보가 가장 먼저 쓰러졌군요...

2020-09-07 15:38:26

나중에 크면 뭐하실 건지..

아니 당장 대입시 어느 과로 진학을 하실건지 매우 궁금하네요

잘 봤습니다.

2020-09-07 15:40:24

통계학과 대학원생... 추천합니다

2020-09-10 10:54:11

2020-09-07 15:52:37

정성이 느껴지네요

2020-09-07 15:54:10

고등학생 맞나요?
읽다가 어려워서 포기

2020-09-07 16:02:35

멋진 졸업논문이 나올 것 같아요.

아주 기대되네요

2020-09-07 16:02:56

훌륭한 분석이네요.
(제가 데이터셋을 확실히 알지 못해서 하는 소리일 수도 있다는 걸 감안해주세요) 다만, 데이터 안에 시간도 포함되어 있는 걸로 보아 생존분석을 시행해도 재밌는 결과를 얻어낼 수 있지 않을까 싶습니다.

그리고 클러스터 분석의 경우에는 n수가 너무 많거나 해서 안 나올 수도 있을 거 같은데,
부상 유형 변수와 부상 후 기량 변화 폭을 구간 별로 자른 변수들을 생성한 이후 잠재계층분석(LCA)을 시행해서 부상유형-기량변화의 패턴을 내놔도 좋지 않을까 싶습니다.

마지막으로, 재밌게 잘 읽었습니다.
자극이 되네요. 훌륭한 연구자/학자/분석가가 되시길 빌게요!

2020-09-07 16:27:34

와우 상경계 대학생

지금까지 뭐하고 살았나 회의감 강하게 오네요

지금이라도 R 공부해야하나...

2020-09-07 16:40:45

통계 이정도 하시면 어디가셔도 형님 소리들으실듯

2020-09-07 18:28:36

사랑합니다

2020-09-07 22:04:58

멋진 분석이네요! 카글에서 이런 컨테스트도 있었군요
첫번째 분석에서 주목?할만 포인트는 저는 미래 부상 부위가 contralateral 측에서 나타난다는 점인 것 같습니다. 아무래도 보상작용 때문에 그러하지 않을까 싶은데...

p.s 일이 바빠져셔 코드 정리를 아직 못했네요 하는대로 바로 보내드리겠습니다.

2020-09-07 23:33:01

퀄리티 와............

스크랩할게요 정말 감사합니다.

2020-09-08 08:25:26

 요즘 고등학생분들은 박사급 논문을 써서 학부를 간다던데...진짜군요. 뭘 하시든 잘 하실 거 같아 보기 좋습니다.

2020-09-08 09:25:40

닉이랑 고등학생이 불일치하는데요
양질의 글 감사합니다!!

2020-09-09 17:12:55

2020-09-09 21:12:50

고등학생때 부터 이런 글을 작성하려면 뭐를 해야되나요? 제 고등학생 때랑 다른 세계에 사시는 분인것 같습니다 대단...

2020-09-10 00:10:48

와.. 대단하시네요.

전 최소 박사 과정 대상자신줄..

2020-09-20 18:15:08

르브론재임스의 경이로운 내구도를 다시한번 느끼게 해주네요.. 17년차가...

73
9566
20-09-19
43
9776
20-09-17
68
5508
20-09-16
75
8588
20-09-14
34
2093
20-09-10
49
10801
20-09-13
146
7741
20-09-11
62
4784
20-09-07
61
6130
20-09-06
62
4659
20-09-06
57
5176
20-09-05
40
4349
20-09-05
55
3925
20-09-05
57
4568
20-09-01
33
3463
20-08-28
71
4042
20-08-31
51
4124
20-08-26
49
3706
20-08-25
73
10362
20-08-24
검색 대상
띄어쓰기 시 조건