Xp
자동
NBA-Talk
/ / / /
Xpert

스탯으로 보는 오버페이 & 언더페이 선수들

 
46
  5565
Updated at 2020-10-22 21:43:38

선수 평가를 할 때 빠질 수 없는게 바로 $$$ 돈이죠.

같은 값이면 다홍치마, 같은 치마면 싼거 아니겠습니까

 

하지만 NBA도 직장이고 연차에 따라 연봉이 높아지는 호봉제가 있으므로, 근속 연수를 고려하지 않고 가성비를 계산하려고 하면 웬만한 베테랑 선수들은 대부분 오버페이가 되고 맙니다.

 

아래 그림은 연차에 따른 선수들 연봉입니다. 1-4년차에는 저연봉에 묶여있다가 5년차부터 성과에 따라 재계약 연봉이 급격하게 오르게 되죠!

 

 

 

그래서 이번 글에서는 근속 연수, 루키 스케일에 묶여있는지 여부, 비율 스탯, 누적 스탯을 모두 고려한 선수별 적정가를 구하고, 특히 차이가 나는 오버페이/언더페이 선수들을 알아보고자 합니다.

  


 

먼저 어떤 스탯이 가장 연봉을 잘 설명하는 지를 고르기 위해 연봉과의 상관관계를 확인해봤습니다.

WS (WS/48의 누적), VORP (BPM 누적), WAR (RAPTOR 누적) 중에서 VORP가 가장 유의미한 상관관계를 보여줬으며, 연차는 역시 스탯보다 큰 상관관계를 보여줍니다. 

위 결과를 토대로 VORP를 고려하기로 결정!

 

 

이외 시간당 스탯인 PER, WS/48, BPM, Box RAPTOR, on/off RAPTOR, PIPM과의 상관관계를 살펴보면,

 

마진 스탯중에선 on/off RAPTOR, 박스스코어 스탯 중에선 WS/48가 가장 약한 상관관계를 보여줬습니다. 가장 유의미한 상관관계를 보옂운 BPM과 PIPM 중에서, BPM 누적인 VORP은 위에서 사용하기로 결정했으니 중복을 피하기 위해 스탯에선 PIPM을 선택했습니다.

 

 

이렇게 해서 구해진 전체 선수들의 기대 연봉 (x축) vs. 실수령 연봉 (y축)의 산점도를 보면 아래와 같습니다.

빨간 점은 10밀 이상 "" 받고 있는 오버페이 선수들이고, 반대로 파란 점은 10밀 이상 "적게" 받고 있는 선수들입니다.

 

각각 상위 20인을 자세히 보겠습니다. 

 

먼저 오버페이 20인, 

(*부상으로 빠진 선수들이 오버페이 리스트를 독점하는 걸 막기 위해 미니멈 30경기로 짤랐습니다, 안그러면 부상선수 리스트가 되어버리므로..)

밑으로 내려갈 수록 기대보다 더 많은 연봉을 받는 오버페이가 되겠습니다. 

 

 

언더페이 20인

(*그냥 계산할 시 미니멈 선수들이 너무 많이 등장해서 최소 5M은 받은 선수들로 짤랐습니다)

 

스타급 중에는 르브론 제임스, 안테토쿤보, 돈치치가 리스트에 들어왔네요. 르브론은 17년차라고 생각할 수 없는 퍼포먼스 때문에 기대 연봉이 무려 50밀이 넘어갑니다. 풀맥스를 받고 있음에도 10밀 이상 페이컷을 한 효과를 내고 있습니다

 

안테토쿤보 역시 마찬가지고요, 돈치치는 고작 2년차라 연차를 고려한 기대연봉이 15밀도 안되는데 12번째로 언더페이 받는 선수가 됐네요.

 

강팀 선수들이 대거 포진해있는 걸 알 수 있는데요, 레이커스에 드와잇 하워드, 밀워키의 브룩 로페즈, 조지힐, 에릭 블레드소, 카일 코버, 클리퍼스의 해럴, 베벌리가 눈에 띕니다.

 

베인즈, 크라우더, 비엘리차, 딘위디, 조 해리스, 세스 커리처럼 각 팀에서 쏠쏠한 역할을 해줬던 언더페이 선수들이 상위랭크에 나오는 것도 인상적입니다. 

 

:)

40
Comments
2020-10-22 21:31:37

 보는것 만으로도 머리가 아찔해지는 도표들이네요 존경스럽습니다.

2020-10-22 21:33:22

와; 르브론은 진짜 엄청나긴하네요. 그래프가 폭발

WR
2020-10-22 21:37:05

연차가 15년이 넘어가면 실제로는 노쇠화 등으로 인해 연봉이 깎이기 마련인데, 본문은 "선형" 회귀분석 결과이기 때문에 연차가 오르면 예상/기대 연봉도 함께 계속 오면서 생기는 약간의 괴리가 있긴 할겁니다. 하필 높은 연차에도 퍼포먼스가 줄지 않아서 더 시너지도 났을 테고요. 르브론은 약간은 감안하고 보시는게 낫습니다.

2020-10-22 21:35:00

언더페이에 밀워키 선수들이 많네요 그만큼 밀워키 선수들이 가성비가 좋군요

2020-10-22 21:37:24

좋은 글 잘 봤습니다. 르브론 쿤보라는 특이점이 빠진 도표도 한번 보고싶네요 나머지 선수들의 상태가 조금 눈에 안들어와서..

WR
2020-10-22 21:39:41

실수령 5밀 이상, 기대연봉 30밀 이하 선수들 중 가성비 좋은 20인입니다.

2020-10-25 01:14:23

와 정말 감사합니다!!!

2020-10-22 21:41:12

오버페이 목록에서 서브룩 그래프가 폭발하는군요.

Updated at 2020-10-22 21:47:09

좋은 글 감사합니다. 이런 건 어떻게 계산하고 만드시는지 참 경탄스럽습니다.

르브론은 맥스 받는데도 저런 차이라니 놀라울 따름이네요. 하워드도 꿀 영입이었다는 게 확연히 드러나네요. 디안드레 조던은 생각과는 다르게 언더페이 선수로 나왔네요. 아마도 재료로 쓰인 2차 스탯의 한계로 그런 것이 아닌가 싶기도 합니다. 혹은 제가 디조던을 너무 과소평가 했던 건지...

WR
Updated at 2020-10-22 21:50:24

레이커스에서는 론도, 자베일 맥기도 상당한 언더페이로 나오는데, 5M 기준에 짤려서 포함되지 못했습니다.  디안드레 조던 2차 스탯이 생각보단 좋고 (VORP 팀내 4위) 올시즌 연봉이 9.8M로 1조던도 되지 않아서 생긴 현상 같습니다 -_-;;

 

항상 좋은 말씀 감사드립니다, 덕분에 글쓸 힘이 나는 것 같아요~ 

Updated at 2020-10-22 22:10:18

cp3이 말년에 오버페이 안들어간 것만으로도 기쁘네요

 

서버럭은 어느 정도 예상했지만

포르징기스와 엠비드가 저렇게 부진한 줄은 몰랐네요

WR
2020-10-22 22:11:22

크리스 폴의 기대연봉은 35.8밀로 나왔습니다. 겨우 -2.7밀 부족한거니 돈값은 해줬다고 봐야할 것 같습니다. 대단하네요.

2020-10-22 22:26:45

정말 좋은 내용이네요. 감사합니다.

2020-10-22 22:46:04

르브론 뭔가요.. 후덜덜

2020-10-22 23:03:59

클블 골밑은 진짜 가성비 최악이네요 

2020-10-22 23:04:09

어째 릅의 바로 왼쪽에 있는 점은 하든인 것 같은데 맞나요? 그 바로 왼쪽 점이 폴인 것 같고요...

2020-10-22 23:11:30

이런건 돈내고 봐야 하는데..
잘 읽었습니다

Updated at 2020-10-23 00:35:56

우선 이런 흥미로운 주제로 자료를 정리 하신다고 고생하셨고, 재미있게 잘 보았습니다.
진짜 르브론은 시간을 거꾸로 거슬르는거 같군요. 저 그래프만 보면 최전성기를 달리는 탑 슈퍼스타 같네요.
하워드는 계약 자체가 염가 계약인데
그 활약상은 대박이라 불릴만 하네요.
코버, 벨리넬리 같은 베테랑 슈터들이 가성비 높은 선수들 중에 포함되어 있다는 점도 흥미롭구요. 슛하나만 확실해도 팀에 큰 도움이 된다는걸 알 수 있겠네요.

2020-10-23 01:44:17

자료 감사합니다. expected는 어떻게 구하셨는지 궁금하네요. 다변량 회귀분석 하셨으면 control을 어떻게 처리하셨는지도 궁금하네요.

WR
Updated at 2020-10-23 10:52:00

회귀분석 fitted value를 expected로 사용했습니다.

adv는 제가 정리해놓은 19-20 advanced stat 파일입니다.

 

adv_lm_res <- adv %>% select(Salary, Year, VORP, PIPM, Scale) %>%

  lm(formula =Salary~Year*PIPM + VORP +Scale)

 

Scale은 5년자 이전, 이상으로 binary하게 구분하는 변수입니다.


Coefficients:

            Estimate Std. Error t value Pr(>|t|)    

(Intercept)   424482     777280   0.546   0.5854    

Year          589475     148841   3.960 9.30e-05 ***

PIPM         -957964     376399  -2.545   0.0114 *  

VORP         2685760     473094   5.677 3.17e-08 ***

ScaleVet     5526924    1135870   4.866 1.82e-06 ***

Year:PIPM     231075      43349   5.331 1.90e-07 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 6133000 on 308 degrees of freedom

Multiple R-squared:  0.5892,Adjusted R-squared:  0.5826 

F-statistic: 88.36 on 5 and 308 DF,  p-value: < 2.2e-16

 

Updated at 2020-10-23 10:52:03

하하!

완벽하게 이해했습니다 

 

좋은 분석 감사합니다! 

2020-10-23 12:46:03

감사합니다~ causality를 볼 수 있으면 좋겠는데 지금 쓰신 변수들이 태생적으로 복잡한 계산과정을 거친지라 쉽지가 않겠네요. 

2020-10-23 03:05:17

엠비드 해리스.....

2020-10-23 09:17:00

빌은 올해 30-5-5 달성하지 않았나요? 그럼에도 불구하고 오버페이라는건..대체 효율이 얼마나 안좋았다는건가요

2020-10-23 09:24:10

 잘 봤습니다! 

2020-10-23 10:12:27

안녕하세요. 정성 어린 좋은 글 잘 봤습니다!

 

Fig 1. 연차 - 실제연봉 

Fig 2. 누적스텟 - 실제연봉

Fig 3. 효율스텟 - 실제연봉 

Fig 4. 기대연봉 - 실제연봉

이렇게 네 가지로 정리해볼 수 있을것 같은데요. 

 

연차+누적스텟+효율스텟으로 기대연봉을 도출하신 과정이 궁금하네요. 

주로 스텟으로만 기대연봉을 산출하는 경우가 많을텐데, 근속연수 개념으로 연차를 도입해서 기대연봉을 도출하신 것이 재밌는것 같습니다. 

 

좋은 글 잘봤습니다!

 

2020-10-23 10:16:33

그리고 덧붙여서 연차가 기대연봉에 미치는 영향이 아주 크다고 보이는 것이 돈치치, 쿰보, 르브론 세 MVP 레벨의 선수가 기대연봉이 계단식으로 증가하네요.

 

(기대연봉-실제연봉)은 동년차 선수 중 얼마나 효율적인 선수인지를 나타내주는 지표로 의미를 큰 가질 수 있겠다는 생각도 듭니다.  

WR
2020-10-23 10:25:13

회귀분석 fitted value를 expected로 사용했습니다.


adv_lm_res <- adv %>% select(Salary, Year, VORP, PIPM, Scale) %>%

  lm(formula =Salary~Year*PIPM + VORP +Scale)

 

Scale은 5년자 이전, 이상으로 binary하게 구분하는 변수입니다.


Coefficients:

            Estimate Std. Error t value Pr(>|t|)    

(Intercept)   424482     777280   0.546   0.5854    

Year          589475     148841   3.960 9.30e-05 ***

PIPM         -957964     376399  -2.545   0.0114 *  

VORP         2685760     473094   5.677 3.17e-08 ***

ScaleVet     5526924    1135870   4.866 1.82e-06 ***

Year:PIPM     231075      43349   5.331 1.90e-07 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


Residual standard error: 6133000 on 308 degrees of freedom

Multiple R-squared:  0.5892,Adjusted R-squared:  0.5826 

F-statistic: 88.36 on 5 and 308 DF,  p-value: < 2.2e-16

2020-10-23 10:41:23

답변 감사드립니다!

 

Year*PIPM을 독립변수로 쓰셨는데, PIPM와 Year 각각 아닌 PIPM에 year를 곱한값을 사용하신 이유를 여쭤보고 싶습니다. 

아마도 루카, 쿰보, 릅의 기대연봉 차이가 이렇게 큰 것은 Year*PIPM의 "Year" 때문이 아닌가 싶네요.

 

추가적으로 이진형 변수로 5년차를 기준으로 Scale 변수를 도입하신 것은 루키 스케일을 고려하셔서 도입하신것 같습니다. 

Year라는 변수가 들어가 있는데, 루키스케일에 대한 변수를 하나 더 도입했을 때 통계적으로 어떤 의미일지도 생각해보게되네요. 

 

다시한번 좋은 글 감사드립니다!  

WR
Updated at 2020-10-23 10:55:44

Year*PIPM은 실제로 둘을 곱했다는 의미는 아니고, Year, PIPM, Year:PIPM 세가지를 모두 고려하라는 뜻이 됩니다. 처음엔 말씀하신대로 단순 독립변수로 취급하려 했으나, 사실 이 둘이 완전히 독립되지 않았다는게 문제더군요. 

 

연차가 오르면 선수가 성장하는 것 + 연차가 쌓이면 PIPM이 높은 선수, 즉 잘하는 선수만 살아남게되는 것이 있기에 둘을 함께 고려할 필요가 있다고 생각했습니다. 실제 결과에서도 PIPM 단독보다 Year:PIPM의 signifiance가 더 높으며, R-sqaured 값을 비교하면 더 높은 설명력을 보여줬습니다. (0.5826 vs. 0.5455)

 


또한 루키스케일의 경우 Year에 따라 연봉이 오르긴하나, 5년차를 기점으로 계단식으로 수치가 변하는 걸 감안하기 위해 도입했습니다.

2020-10-23 11:10:25

답변 감사드립니다!

 

Year*PIPM의 의미가 그런 의미군요. 결국 "Year:PIPM"이라는 변수가 다중회귀식에 독립변수로 하나 더 들어갔다고 이해하면 될까요. 두 변수간 교호작용을 의미하는 변수라고 이해하면 되는지 여쭤보고싶습니다. "X:Y"라고 했을때 그 의미가 어떤 의미인지도 궁금하네요.

 

 

질문이 많았는데 잘 답변해주셔서 감사드립니다!!

 

WR
Updated at 2020-10-23 11:16:22

네, 맞습니다.

두 변수의 상호작용을 고려하는 interaction term입니다.

y~x1*x2는 실제론 y~x1+x2+x1:x2가 되는 것이죠.

Interaction terms

 

In a regression modeling context, we often need to specify interaction terms. There are two ways to do this. If we want to include two variables and their interaction, we use the star/asterisk ( * ) symbol:

   y~x1*x2
   
   ## y ~ x1 * x2
## <environment: 0x000000001c3d67b0>

   

If we only want their interaction, but not the variables themselves, we use the colon ( : ) symbol:

   y~x1:x2
   
   ## y ~ x1:x2
## <environment: 0x000000001c3d67b0>

   

Note: We probably don't want to do this. This means that some formulae that look different are actually equivalent. The following formulae will produce the same regression:

   y~x1*x2
   
   ## y ~ x1 * x2
## <environment: 0x000000001c3d67b0>

   
   y~x1+x2+x1:x2
   
   ## y ~ x1 + x2 + x1:x2
## <environment: 0x000000001c3d67b0>
   

 

2020-10-23 11:19:19

답변 감사합니다! 많이 배우고 갑니다. 

 

앞으로도 좋은 글 잘보겠습니다. 

2020-10-23 10:49:47

Updated at 2020-10-23 10:52:20

작성자분께 궁금한게 있습니다. 그팀의 에이스 선수가 누구냐도 중요하지만 팀에 가성비가 좋은 선수들이 많아야 우승할 수 있는것은 아닐까라는 생각을 해본적이 있습니다. 가성비(연봉대비퍼포먼스)라는 개념을 주요변수로 종속변인을 우승이나 플옵 순위로 놓고 회귀분석을 돌려보는 것도 재밌는 아이디어일거 같아 공유드려봅니다. 설명량이 상당하지 않을까란 생각을 해봅니다.

WR
2020-10-23 10:52:59

그게 자연스러운 흐름이죠! 실제 다음 글은 각 가성비를 팀별로 합산해서 정규시즌/플옵성적과 연관짓는 것이었습니다. 좋은 말씀 감사합니다

Updated at 2020-10-23 10:55:11

역시 염두에 두고 계셨었군요^^: 인과의 해석이나 공선성의 문제가 있다면 정규시즌의 데이터를 예측으로, 종속은 플옵으로 둔다면 해석이 조금 더 쉽지않을까 하는 생각도 듭니다. n-1년을 독립변수, n년을 종속으로 놓는것도 좋은 방법일것 같아요. 항상 재미있게 보고있습니다 

WR
2020-10-23 11:00:29

네, 좋은 말씀 감사합니다! 좀더 깊이 생각해봐야겠습니다. 

2020-10-23 12:22:55

통계학 공부중인데 저도 나중에 이런 분석하는 일을 해보고싶네요 멋있으십니다

2020-10-24 07:46:36

맥스계약이라는게 르브론 같은 선수에게는 불리한 계약이라고 한 어느 매니아님의 글이 생각이나네요. 맥스 한계가 없다면 르브론 50m로 쓴다고요. 그래서 모든 팀들이 계약하고 싶어한다, 어떠한 풀맥스를 줘도 염가계약이라고 한 말이 생각납니다.

글쓰기
검색 대상
띄어쓰기 시 조건









SERVER HEALTH CHECK: OK