Xp
NBA Maniazine
/ / /
Xpert

순수 마진 스탯과 박스/트래킹-마진 스탯

 
48
  7657
Updated at 2022-12-07 08:19:32

  요새 RAPTOR나 EPM 같은 스탯들이 가벼운 팬들에게도 많이 자리를 잡은 것 같습니다. 그런데 그에 대한 논의들을 보다보면 저것들은 마진 스탯이라서 선수 개인이 잘해도 라인업 때문에 낮게 나올 수 있다거나, 개인이 못해도 라인업에 따라 높게 나올 수 있다는 반응이 나옵니다. 


  여기에는 작은 오해가 깔려 있습니다. 저것들은 마진 스탯이라고 불리긴 하지만, 순수 마진 스탯은 아닙니다. 그리고 순수 마진 스탯이라고 해도 라인업에 따른 노이즈를 최대한 제거하려고 노력합니다. 아래에서는 이에 관해 이야기를 해보려고 합니다.


  제가 이 스탯들의 세부 메커니즘을 전부 이해하고 있는 것이 아니니 다 믿진 마세요. 어디까지나 제가 이해하고 있는 선에서 쉽게 설명하는 글입니다. 더 깊이 있는 설명은 다른 글을 찾아보셔야 합니다.


순수 마진 스탯 - APM과 RAPM

  여기서 말하는 마진이란 득실 마진의 줄임말입니다. 어떤 선수가 0-0에서 경기를 시작해서 29-23에서 교체되었다면 그 시간 동안 그 선수의 마진은 +6입니다. 경기가 끝나고 그 선수가 뛴 시간 동안의 마진을 전부 합하면 선수의 경기별 마진이 나옵니다. 이는 박스 스코어에서 +/-라고 표시됩니다.


  마진은 본질적으로 라인업 단위 스탯입니다. 누가 무엇을 했는지를 묻지 않고 10명이 기록한 득점과 실점이 전부 들어가기 때문입니다. 그래서 마진을 갖고 선수 개개인의 퍼포먼스를 평가하려고 하면 노이즈가 말도 못하게 낍니다. 이 글을 쓰고 있는 시점에서 샘 하우저가 시즌 누적 마진 리그 1위인데, 하우저가 이번 시즌 리그 최고의 선수라고 평가하는 사람은 아무도 없을 겁니다. 


  그럼에도 불구하고 마진 스탯에는 거부할 수 없는 매력이 있습니다. 박스 스코어에 맺히는 숫자가 선수의 경기력을 전부 반영하지 못한다는 비판은 예전부터 있었습니다. 선수가 굉장히 큰 역할을 하는데도 박스 스탯은 초라한 경우가 분명히 있습니다. 특히 수비가 그렇죠. 하지만 훌륭한 수비수라면, 박스는 몰라도 마진에는 흔적을 남길 겁니다. 팀의 실점이 줄어들 테니까요.


  문제는 코트 위 10명의 기여가 녹아 있는 마진에서 한 사람 한 사람의 공과 과를 분리해내는 일입니다.


  얘기하기 편하게 2:2 농구를 가정해봅시다. 철수, 지훈, 민섭 조합이 똑같은 팀을 상대로 100포제션씩 뛴 결과 이런 결과가 나왔습니다.


1) 철수-지훈 팀은 8점 차 승리

2) 철수-민섭 팀은 5점 차 승리

3) 지훈-민섭 팀은 3점 차 승리


  만약 선수간 시너지나 상성 같은 요소가 없다고 가정하면, 즉 선수 퍼포먼스가 서로 독립적이라면 이걸 이런 식으로 바꿔서 표현할 수 있습니다.


1) 철수+지훈 = +8

2) 철수+민섭 = +5

3) 지훈+민섭 = +3


  이렇게 데이터가 주어지면 1차 연립 방정식을 풀듯이 각 선수들의 실력을 찾아낼 수 있습니다. 철수가 +5, 지훈이 +3, 민섭이 0이네요. 지훈을 기준으로 삼으면 철수가 +2, 민섭이 -3이라고 말할 수도 있습니다.


  APM(Adjusted Plus Minus)이라는 스탯이 비슷한 요령으로 선수들 각각의 기여를 가려내려고 시도했습니다. 이때는 마진을 한 덩어리로 취급하지 않고 공격과 수비를 분리합니다. 이러면 공격력과 수비력을 따로 알아낼 수 있습니다. 좌측이 공격 우측이 수비입니다


1) A1+A2+A3+A4+A5 -B1-B2-B3-B4-B5 = 20포제션 22득점

2) A1+A2+A3+A4+A6 -B1-B2-B3-B4-B5 = 25포제션 29득점

3) A1+A2+A3+A4+A5 -B1-B2-B3-B4-B6 = 40포제션 42득점

 * 실제 계산 과정에는 홈 어드밴티지 요소와 가비지 조정이 들어갑니다


  1)과 2)가 주어지면 A6의 공격력이 A5보다 더 좋다는 사실을 추론해낼 수 있습니다. 저 데이터만 보면 100포제션당 6점 차이네요. 마찬가지로 1)와 3)을 활용해 B5와 B6의 수비력 차이를 찾아낼 수 있습니다. B5대신 B6가 들어갔을 때, 100포제션당 실점을 5점 줄일 수 있을 것 같습니다.


  이런 데이터가 충분히 많다면 우리는 회귀분석을 통해 모든 데이터를 가장 잘 설명하는 선수들의 공격력/수비력을 찾아낼 수 있습니다. 왜 “가장 잘 설명한다”는 말을 쓰냐면, 모든 데이터와 완벽하게 들어맞는 값은 존재하지 않기 때문입니다. 그리고 이 “가장 잘 설명한다”는 부분이 지금 설명 중인 APM과 이따 나올 RAPM의 중요한 차이입니다.


  모든 데이터를 가장 잘 설명하는 값을 찾은 뒤, 적당한 선수를 골라서 기준으로 삼아주면 선수들 각각이 100포제션당 공수에서 기여하는 바가 얼마인지가 나올 겁니다. 댄 T. 로젠바움이라는 사람이 02-03, 03-04 두 시즌 데이터를 가지고 이 작업을 시도했습니다. 결과는 이랬습니다.

 

Rank
Name Pure Adj. +/- Offensive Defensive
Poss.
Used
Offensive
Efficiency
Total
Minutes
First Last Rating SE Rating Rank Rating Rank
1 Kevin Garnett 19.3 3 113.7 2 94.4 15 28% 108 6,553
2 Richie Frahm 17.3 6.3 114 1 96.7 54 15% 126 466
3 Nene 11.9 2.7 104.3 43 92.4 5 18% 101 4,755
4 Vince Carter 11.1 2.5 108.1 9 97 69 30% 101 4,255
5 Andrei Kirilenko 11.1 2.6 108.6 8 97.5 89 22% 106 5,108
6 Dirk Nowitzki 10.6 2.7 109.8 5 99.2 176 24% 115 6,033
7 Tim Duncan 10.3 3.3 107.2 14 96.8 59 28% 106 5,705
8 Jason Hart 10.1 5.6 100.7 139 90.6 2 15% 99 660
9 Mike Sweetney 10 5.8 106.9 17 97 66 19% 104 495
10 Shaquille O'Neal 9.9 3 107.8 12 97.9 108 27% 110 4,999

 

  케빈 가넷이 1위라는 건 좋습니다. 하지만 2위로 나오는 리시 프람은 누군지도 모르겠습니다. 면면도 그렇거니와, 가넷이 던컨, 샼보다 2배로 좋은 선수라는 수치도 받아들이기 힘듭니다. 


  모든 자료를 잘 설명하려고 들면 무리수를 두게 됩니다. 만약 시즌 내내 딱 하나의 라인업에서 뛰고 들어간 선수 x가 있다고 칩시다. 그럼 이 라인업 데이터는 무시해도 됩니다. 다른 데이터에서 나머지 9명 값부터 찾아내고 나면, 저 라인업 데이터는 x에게 아무 값이나 집어넣어서 맞출 수 있거든요. 하지만 그 값이 30이라면 과연 x가 100포제션에 30점 마진을 벌어주는 선수일까요? 출전 시간이 짧고 조합되는 라인업이 제한될수록 그 선수의 값이 튀기 쉽습니다.


  RAPM(Regularized Adjusted Plus-Minus)은 모든 자료를 가장 잘 설명하려고 노력하기보다, 적당히 설명함으로써 값의 정확도를 높이려고 합니다.

 

  또 이해하기 쉽게, 철수와 지훈이 1:1을 했다고 합시다. 총 다섯 판을 했는데 각각 11분, 17분, 24분, 30분, 40분을 뛰었습니다. 그리고 철수가 각각 5점, 13점, 10점, 15점, 14점 차로 이겼습니다. x축을 시간으로 하고 y축을 점수 차로 하면 결과를 점으로 표시할 수 있겠죠? 이 결과들을 설명하는 추세선을 찾아낼 수 있다면, 그걸 바탕으로 철수와 지훈이 앞으로 1:1을 더 했을 때 몇 점 차이가 날지 예상해볼 수 있습니다.


 

  추세선을 왼쪽처럼 그으면 모든 점을 완벽하게 설명하겠다는 겁니다. 저 추세선이 참이라면 32분쯤 붙으면 20점 차 이상으로 승리할 거고 1시간 쯤 하면 5점 차로 이기기도 버겁겠네요. 오른쪽은 각 점을 완벽하게 설명하는 대신 보다 온건한 추세선을 내놓습니다. 


  어느 선이 둘의 실력 차이를 더 잘 반영할까요? 더 붙어보면 알겠죠. 5판을 더 붙었더니 이런 점이 추가로 찍혔습니다.



  오른쪽이 낫네요. 현실 농구에서 왼쪽 추세선이 옳다고 판명되는 일은 잘 없겠죠. 


  대략 APM이 왼쪽이고 RAPM이 오른쪽이라고 생각하시면 됩니다. 값이 튀는 데이터를 곧이곧대로 받아들이지 않고 각 선수의 기여를 보다 온건하게 뽑아내는 겁니다. 그리고 이 RAPM이 업계 표준으로 대접받고 있습니다.


순수 마진 스탯의 한계를 극복하는 방법 - 표본 확보 혹은 박스/트래킹

  업계 표준이라는 RAPM의 정확도는 어느 정도일까요? 21-22시즌 RAPM을 봅시다. 



  아…


  마진에서 노이즈 제거하기가 쉽지 않네요. 이유야 많습니다. 가령 마진에서 제거해야 하는 노이즈 중 하나가 함께 뛰는 선수들로 인한 노이즈인데, 한 시즌 데이터를 모아봐야 같이 뛰는 선수들은 거기서 거기이기 때문에 기반이 되는 데이터가 모자랍니다. 


  이 노이즈를 해결하는 가장 단순하면서도 효과적인 방법은 표본을 늘리는 겁니다. 표본을 3시즌, 5시즌으로 잡으면 설사 한 팀에 남아 있었다고 해도 동료 선수들의 면면이 꽤 바뀝니다. 팀을 여러 번 옮겨다녔으면 말할 것도 없이 더 풍부한 데이터가 모입니다. 당연히 슛이나 다른 운빨로 인한 노이즈도 줄어들고요.



  17-18시즌부터 21-22시즌까지 5시즌 RAPM입니다. 있어선 안 될 이름들이 싹 사라졌죠. 5년 단위의 RAPM은 업계에서 상당히 높은 신뢰도를 인정받고 있습니다. 다른 구간이 보고 싶으시면 아래 링크를 활용하세요.


  http://nbashotcharts.com/rapm5?id=-1129977058


  그러나 우리가 항상 넓은 표본에만 관심이 있는 건 아닙니다. NBA는 시즌 단위로 진행되고 일단락되기 때문에, 많은 경우 사람들은 그 시즌에 누가 잘했고 누가 못했는지에 관심이 있습니다. 그럼 그 시즌에 누가 잘했는지를 노이즈 없이 파악하려면 어떻게 해야 할까요?


  마진 스탯은 여기서 다시 박스 스탯으로 돌아갑니다. 다년 간의 박스 스탯과 RAPM 데이터를 두고, 어떤 박스 스탯을 찍은 선수가 어떤 RAPM이 나오는지 경향성을 분석한 뒤, 선수의 박스 스탯을 가지고 그 선수가 어느 정도 마진을 가져다주는 선수인지 짐작하는 겁니다.


  이런 스탯을 박스-마진 스탯이라고 부를 수 있을 겁니다. BPM(Box Plus-Minus)이 바로 이런 스탯입니다. 스탯 이름에 Plus-Minus가 들어 있지만 BPM은 계산 과정에서 마진 데이터를 참고하지 않습니다. 확립되어 있는 계산식을 바탕으로 그 선수의 박스 스탯에서 그 선수의 추정 마진을 뽑아낼 뿐입니다. 따라서 라인업으로 인한 교란이 없거나 적습니다.


  그래서 BPM은 안정화를 위한 시간을 필요로 하지 않습니다. 개막 후 한 달쯤 지나야 나오는 EPM이나 두 달쯤 걸리는 LEBRON과 달리, BPM은 며칠만 지나면 바로 수치가 나옵니다. 플레이오프도 똑같이 계산 가능하고, 마진 데이터가 남아 있지 않은 90년대 이전 선수들도 수치가 뽑혀 나옵니다. 당연히 한계도 있지만 그걸 전부 덮을 만한 장점이죠. 레퍼런스에서 제공하는 올인원 2차 스탯 중에는 가장 유용한 스탯입니다. (PER은 쓰임새가 한정적이고 WS는 이제 사라졌으면 좋겠습니다)


  RAPTOR(Robust Algorithm using Player Tracking and On/Off Ratings)는 Box Score RAPTOR와 On/Off RAPTOR의 혼합입니다. 저 박스 (스코어) 랩터가 BPM의 형제뻘 되는 스탯입니다. 원리는 똑같습니다. 어떤 스탯을 찍은 선수가 어떤 RAPM이 나오는지 경향성을 추적해서 공식을 만든 겁니다. 다만 박스 랩터는 전통적인 박스 스탯과 함께 트래킹 스탯을 적극적으로 활용합니다. 이런 스탯을 일컬어 트래킹-마진 스탯이라고 부를 수도 있겠네요. 지난 시즌에 538의 네이트 실버가 요키치가 왜 이렇게 수비 랩터가 잘 나오는지 변명(?)한 적이 있었는데요. 거기서 제시한 이유가 세 가지였습니다.


1) 요키치는 컨테스트 수비 리바운드가 많다

2) 요키치가 컨테스트하는 2점이 많다

3) On/Off data가 좋다


  저 컨테스트 수비 리바나 2점 컨테스트 수치가 트래킹 데이터입니다. 이 트래킹 데이터는 13-14시즌부터 트래킹하기 시작했기 때문에 랩터는 13-14시즌 이전으로는 추적이 불가능합니다. 랩터만이 아니라 트래킹 데이터를 활용하는 모든 스탯은 13-14시즌이 원년입니다. EPM이 13-14부터 제공되는 것도 그 때문입니다.


  온오프 랩터는 538 측에서 자체 개발한 순수 마진 스탯입니다. 오버롤 랩터는 상기했다시피 박스 랩터와 온오프 랩터의 혼합입니다.


  어느 쪽 비중이 더 높을까요?


  랩터 탑10입니다. 대개는 박스 랩터와 온오프 랩터가 비슷하지만, 그렇지 않은 선수들도 보입니다. 가령 1위 커리는 박스 랩터보다 온오프 랩터가 훨씬 높고, 8위 미첼은 온오프 랩터보다 박스 랩터가 훨씬 높습니다. 이 선수들의 오버롤 랩터를 보면 랩터가 어느 쪽을 더 신뢰하는지 알 수 있겠죠. 랩터는 박스 랩터를 훨씬 더 신뢰합니다. 온오프 랩터를 참고한 결과 값이 약간 깎이긴 했지만, 여전히 미첼은 WAR 기준 리그 8위에 올라 있습니다.


  즉, 랩터는 후보들의 퍼포먼스에 되게 큰 영향을 받진 않습니다. 요키치 없는 동안 덴버가 아무리 못해도 요키치의 랩터가 막 뻥튀기되진 않는다는 겁니다. 요키치의 수비 랩터가 지나치게 높은 건 온오프 랩터 탓이 아니라 박스 랩터가 요키치를 고평가하기 때문입니다. 요키치는 근 5년 간 예외없이 박스 수비 랩터가 온오프 수비 랩터보다 높았습니다. (출전 시간 고려 5년 간 박스 수비 랩터 평균 = 3.0 > 0.2 = 온오프 수비 랩터 평균)


  EPM 역시 박스 스탯과 트래킹 데이터를 활용합니다. 단 랩터와 달리 박스 EPM 같은 세부 스탯을 따로 제공하진 않기 때문에 각각의 비중이 어느 정도인지는 확인할 수 없습니다. 그래도 온오프보다 박스 및 트래킹 스탯을 더 비중있게 본다는 건 틀림없습니다.

 

마진 스탯의 한계와 방향

  위에서 APM을 설명할 때 “각 선수의 퍼포먼스가 서로 독립적이라면”이라는 가정이 있었죠. 이 가정은 당연히 거짓입니다. 선수들에게는 궁합과 상성이라는 게 있습니다. 따라서 2:2 대회에서 그린-커리 팀이 브라운-커리 팀보다 더 좋은 성적을 냈다고 해도 그린 > 브라운이라고 단정할 수 없습니다. 커리와의 궁합이 그린이 더 좋았을 수도 있고, 우연찮게 상성이 유리한 팀을 만났을 수도 있으니까요.


  그렇다면 우리는 그린이 있을 때와 없을 때 커리의 퍼포먼스가 어떻게 다른지, 밴블릿을 상대할 때와 스마트를 상대할 때 어떤 차이가 있는지 궁금할 수 있습니다. 시즌 시즌의 결과물들을 뭉뚱그리는 게 아니라, 각 선수가 어떤 환경에서 어떤 플레이를 하는지를 세분해서 보여줄 수 있다면 그 선수에 대한 더 깊은 이해를 도와줄 수 있습니다. 하지만 RAPM은 이런 의문에 답해주지 못합니다. 이렇게 환경에 따른 RAPM을 제공하는 곳이 없기 때문이기도 하지만, 설사 그런 시도를 한다고 해도 그 자료는 믿을 수 없습니다. 커리와 밴블릿, 스마트는 1년에 두 번 만날까 말까라서 충분한 표본을 얻는 게 불가능합니다.


  만약 부족한 마진 데이터라도 올바르게 해석하고 싶다면, 박스 및 트래킹 스탯을 적극적으로 참고해야 합니다.


  아이러니한 일입니다. 마진 스탯은 박스 너머를 보고 싶다는 동기에서 출발했습니다. 그런데 마진을 올바르게 해석하기 위해 박스를 봐야 한다고요? 다른 시각에서 보면, 이러한 아이러니는 선수의 기여를 수치화하는 게 얼마나 어려운 일인지 잘 보여줍니다. 박스만 갖고도 안 되고 마진만 갖고도 안 됩니다. 그렇게 어려운 일이므로 당연히 온갖 자료를 다 찾아서 참고해야 합니다. 그렇게 해도 모자랄 판에 박스나 마진 둘 중 한 쪽만 고집할 이유가 없습니다.


  그렇게 스탯은 발전했습니다. EPM의 신뢰도는 WS 이딴 거랑은 비교가 안 됩니다. 그리고 그 과정에서 마진과 박스, 각각에 대한 이해도 더 깊어졌습니다. 이제는 시합 후 인터뷰 중에 선수나 감독이 마진을 바탕으로 이야기하고 마진에 대한 의견을 표하는 경우를 쉽게 찾아볼 수 있습니다. BPM은 2020년 버전 업하면서 포지션과 역할에 따라 박스 스탯을 다르게 평가하기 시작했습니다. 이러한 이해는 박스와 마진의 활발한 협업이 없었다면 많이 늦어졌을 겁니다.


  문제는 수비입니다. 박스 스탯에는 수비 관련 정보가 극도로 부족합니다. BPM 측은 이렇게 고백합니다.

 

  Box Plus/Minus is good at measuring offense and solid overall, but the defensive numbers in particular should not be considered definitive. Look at the defensive values as a guide, but don't hesitate to discount them when a player is well known as a good or bad defender.

  트래킹 스탯을 활용하는 스탯은 사정이 그나마 낫지만, 본질적으로 해결이 안 되는 부분이 있습니다. 트래킹 스탯은 누가 어디에 있는지 알려줄 뿐, 어디에 있어야 하는지를 알려주지 못합니다. 가령 도움 수비를 가야 할 타이밍에 자기 마크맨한테 한사코 붙어 있으면 자기 마크맨의 야투를 꽤 낮춘다고 해도 좋은 수비수라고 부를 수 없겠죠. 하지만 팀에서 마크맨을 떠나지 말라고 주문했다면? 트래킹 기술이 아무리 발전해도 팀의 기조와 의도를 트래킹할 수는 없습니다. 그 선수가 어디에 있어야 하는지를 모르면 어디에 있는지 알아봐야 그게 좋은 수비인지 나쁜 수비인지 알 수 없습니다. EPM이나 랩터 역시, 공격력을 측정하는 데는 우수하지만 수비 수치는 길잡이로 봐야 합니다.


  하지만 이런 일반적인 난점이 있다고 해서 수비 스탯의 발전을 싸그리 무시할 필요는 없겠죠. 길잡이에 불과하다 해도 더 좋은 길잡이가 있을 수 있으니까요. 앞으로 더 많은 정보를 트래킹할 수 있게 되면 길잡이도 더 나아질 겁니다.


  나아가 만약 리그에서 사용되는 수비 기조들을 전부 범주화할 수 있다면, 트래킹 정보를 통해 각 포제션의 수비 기조를 파악하고 그 기조에 맞춰서 각 선수들의 수비를 평가하는 것도 가능할까요? 이런저런 상상만 해봅니다.

 
이 게시물은 아스카님에 의해 2022-12-03 02:23:18'NBA-Talk' 게시판으로 부터 이동되었습니다.
17
Comments
2022-12-02 16:45:06

시즌 단위 가끔 튀는 값들은 존재하지만 사람들이 관심 가지는 레벨의 선수들은 시즌 초가 아니면 크게 데이터에 노이즈가 생기진 않는거 같습니다.
작년 카루소나 gp2 같은 경우 그렇게 많진 않구요.

WR
2022-12-02 16:47:54

공격은 그렇습니다.

2022-12-02 17:31:43

전 항상 2차스탯 볼 때마다 할러데이의 dpm이 의문이더라고요.
공수겸장 타이틀을 갖고 있지만 커리어 dpm은 고작 0.1이라 커리어 0.4인 커리보다 낮은데... 팀의 수비 스키마가 영향을 끼치는지 궁금합니다.

수비도 좀 더 직관적으로 이해가는 스탯이 개발되면 좋겠습니다. 본문 말씀대로 쉽지 않겠지만요.

2022-12-02 18:39:37

상세한 설명 감사합니다

WR
2022-12-02 19:15:32

다 믿진 마세요! (상세히 설명하며)

2022-12-02 21:05:58

요즘 관심이 점점 커지다보니 +-마진 스탯이 얼만큼의 가치가 있는 스탯인지 궁금증이 많이 생겼는데 글을 읽고 많이 배워갑니다. 어빙이 얼만큼의 가치가 있는 선수인지 궁금했는데 스탯을 확인해봐야겠네요. 위의 스탯들이 수비쪽은 많이 반영하지 않는다고 하니 위닝플레이어인지 아닌지 확인은 좀 힘들 것 같기도 하네요(어빙). 또한 수비쪽 반영을 많이 하지 않는다니 그린, 시몬스 같은 선수들은 기본 +- 마진을 확인해야하는게 아닌지 아이러니하기도 하네요

WR
Updated at 2022-12-03 08:46:26

수비를 반영하지 않는다는 말은 오해의 소지가 있습니다. RAPTOR의 경우 브룩 로페즈가 미첼보다 더 뛰어난 선수라고 평가합니다. 로페즈가 수비에서 줄여주는 점수가 미첼이 공격에서 더해주는 점수보다 더 크다는 겁니다. 이런 걸 보면 랩터는 오히려 수비 반영이 너무 큰 거 아닌가 싶을 때가 많습니다.

 

본문 내용은 수비 수치의 신뢰도가 공격 수치보다 떨어진다는 것이었고, 그런 뜻으로 말씀하신 거라면 맞습니다. 하지만 그렇다고 기본 마진을 확인하는 건 여우를 피하러 호랑이 굴에 들어가는 격입니다. 기본 마진의 신뢰도가 가장 떨어집니다.

2022-12-02 21:09:01

요즘 스탯에 관해 진지하게 공부해보고 싶다는 생각을 했는데 

마침 좋은 글을 올려주셨네요!! 감사합니다

2022-12-03 16:45:55

좋은 글 잘 봤습니다

2022-12-04 04:52:53

좋은 글 정말 감사합니다 많이 배웠습니다!

질문 하나만 드리면요,
랩더는 박스랩터를 온오프랩터보다 신뢰한다고 하셨는데요,
둘 중에 무엇을 더 믿을지도 샘플사이즈에 따라 판단이 달라져야 하지 않을까요?

샘플이 충분히 크다면 마진기반 수치의 노이지가 제거될 수 있을 것이고,
그러면 '마진을 따라한' 박스랩터보다 '마진 그 자체읻' 온오프랩더가 더 신뢰할 수 있을 것 같아서요.

(WPA와 같이 관점이 아예 다른 지표를 제외하고 본다면) 소개해주신 올인원지표들은 '농구는 결국 상대팀 대비 득실마진을 내야 이기는 게임이다'라는 대전제를 깔고 있으니, 노이즈만 없다면 온오프스탯이 더 신뢰할 수 있지 않나 싶습니다.

2022-12-04 05:02:46

한가지 더 궁금한 것이 있는데요 농구에도 스탯별 노이즈가 제거되기 위한 최소한의 샘플사이즈 개념이 있나요?

야구의 경우 예전부터 스탯이 신뢰할 수 있게 수렴(컨버지)되는 샘플사이즈가 논의되었던 것으로 기억해요. 외부요인을 상대적으로 덜받는 투수의 볼넷허용 개수는 작은 샘플사이즈에서도 빠르게 컨버지하고 외부요인이 많은 타율은 큰 샘플사이즈가 필요하다는 식으로요. 농구로 접목하면 자유투 성공률은 빠르게 수렴하고 어시스프 수치는 느리게 수렴할 것 같네요.

올인원스탯의 얘기로 돌아가자면, 순수마진 지표는 정확성은 높지만 느리게 수렴하는 것이 문제인데, 박스-마진 스탯은 정확성을 일부 희생해서라도 수렴속도를 올린 것이 아닌가 하는 생각이 들었습니다. 제 이해가 맞나 모르겠네요.

WR
2022-12-04 06:19:49

  물론 샘플 사이즈가 충분히 많아진다면 박스 랩터보다 온오프 랩터를 더 믿을 수도 있을 것입니다. 하지만 랩터는 시즌 단위로밖에 제공이 안 되고 있고, 한 시즌 데이터를 전부 모아도 온오프 랩터는 아직 모자랍니다. 한 시즌을 넘는 표본의 온오프 랩터는 제공된 적이 없습니다.

 

  모든 스탯은 표본이 많으면 많을수록 더 믿을 만한 것이 될 겁니다. 아래 질문은, 제가 이해한 게 옳다면, "이 정도면 순수 마진을 믿어도 됩니다"라는 어떤 공신력 있는 기준이 있느냐는 질문 같습니다. 저는 그런 공신력 있는 기준을 들어본 바가 없습니다.

 

It’s also worth noting that several who responded also told HoopsHype that this metric is at its most useful when studying multi-year results (e.g. three-year RAPM and five-year RAPM) but that single-season data can be misleading.

“It needs to be considered in [the] context of the player and their role,” said one director of analytics for a team in the West. “But it is a good objective measure when you have multiple seasons.”

2022-12-05 01:24:36

답변 감사합니다!

혹시 관심이 있으실까 싶어서 야구의 샘플사이즈 안정화에 관한 글을 공유 드립니다. 농구에 아직 이런 개념이 없다면, 아마도 조만간 도입되지 않을까 싶네요.
https://library.fangraphs.com/principles/sample-size/

1
2022-12-05 01:30:49

링크의 칼럼을 보면 이렇게 스탯이 안정화되는 샘플사이즈를 말하고 있습니다. 이 칼럼이 2010년에 작성된 것이니 야구에서는 이런 논의가 꽤 오래된 것 같습니다.

“Stabilization” Points for Offense Statistics:

60 PA: Strikeout rate
120 PA: Walk rate
240 PA: HBP rate
290 PA: Single rate
1610 PA: XBH rate
170 PA: HR rate
910 AB: AVG
460 PA: OBP
320 AB: SLG
160 AB: ISO
80 BIP: GB rate
80 BIP: FB rate
600 BIP: LD rate
50 FBs: HR per FB
820 BIP: BABIP
“Stabilization” Points for Pitching Statistics:

70 BF: Strikeout rate
170 BF: Walk rate
640 BF: HBP rate
670 BF: Single rate
1450 BF: XBH rate
1320 BF: HR rate
630 BF: AVG
540 BF: OBP
550 AB: SLG
630 AB: ISO
70 BIP: GB rate
70 BIP: FB rate
650 BIP: LD rate
400 FB: HR per FB
2000 BIP: BABIP

Updated at 2022-12-07 15:01:45

좋은 글 감사합니다.

 

다년간의 표본을 기반으로 한 온-오프 마진 쪽도 문제가 있지 않나요? 선수의 폼은 짧은 기간동안에도 변하기도 하는데 몇 년 단위면 아예 다른 레벨의 선수로 바뀌는 경우도 꽤 볼 수 있으니까요.

 

극단적인 예를 들어 A선수가 신인인 B선수와 1년 동안 같이 뛰고 이적을 한 다음 B선수는 2년차부터 스텝업해서 슈퍼스타 레벨이 되어 버렸다면 A선수는 B선수와 뛴 1년 때문에 조정 온-오프 마진에서 상당한 손해를 입을 수 있을 것 같은데 말입니다.

WR
2022-12-07 15:10:23

말씀하신 문제는 단년 표본에서도 발생할 수 있습니다. 어떤 선수가 폼이 최악이다가 트레이드 후에 살아나는 경우가 있으니까요. 가령 작년 딘위디는 뉴욕에선 37%, 댈러스에선 50%로 쐈죠. 

 

다년 표본은 단년 표본의 문제를 완전히 없애는 게 아니라, 전부 줄어들게 만듭니다. 말씀하신 상황에서도 B는 A가 거쳐간 수많은 선수 중 하나에 불과합니다. A를 떠난 모든 선수들이 슈퍼스타가 되는 게 아니라면 선수 하나의 영향은 크게 축소됩니다. 만약 다른 데선 잘한 많은 선수들이 A랑 뛸 때만 못했다면 그건 A에게 암흑의 기운이 있다고 봐야겠죠.

Updated at 2022-12-12 11:11:31

양질의 분석글 잘보았습니다.
저는 +/- 는 개인 퍼포먼스를 나타내기 보다는 팀단위의 퍼포먼스를 나타낸다고 생각합니다. +/-가 높은 선수들을 보면, 대체로 같은팀 선수들의 순위가 몰려다니는 것을 볼 수 있습니다. 경기력이 뛰어난 선수도 팀이 약체면 좋은 +/-를 얻기 힘듭니다. 그와 반대로 강한팀의 평균적인 선수는 좋은 +/-를 얻기 쉽습니다.

+/-를 개인의 경기력으로 풀어내는 시도는 많이 있지만, 팀의 범주에서 벗어나기 힘들다고 생각하기에, 그 팀내에서만 유의미한 자료라고 생각합니다.

35
4557
23-01-27
41
7922
23-01-26
69
11066
23-01-26
32
4785
23-01-10
53
5610
23-01-25
52
10027
23-01-24
76
11646
23-01-24
41
3935
23-01-21
34
6658
23-01-17
74
9716
23-01-20
46
3797
23-01-19
36
7501
23-01-16
69
9864
23-01-18
55
6793
23-01-18
83
7890
23-01-16
60
12139
23-01-15
177
16580
23-01-14
55
8597
23-01-13
60
3721
23-01-12
103
15824
23-01-12
검색 대상
띄어쓰기 시 조건