[번역/장문] 최고의 2차 스탯은 무엇인가?
* 문맥을 매끄럽게 만들기 위한 의역이 많습니다. 원문이 궁금하신 분들은 아래 링크를 참조하시길 바랍니다.
https://hoopshype.com/lists/advanced-stats-nba-real-plus-minus-rapm-win-shares-analytics/
[번역/장문] 최고의 농구 2차 스탯은 무엇인가?
최근, 농구 관련 논쟁에서는 각자의 주장을 뒷받침하기 위해 2차스탯(advanced analytics)을 인용하는 경우가 많아지고 있습니다. 하지만 그 스탯들은 과연 쓸만한 것일까요?
몇몇은 운동경기에 대해 이야기할 때 숫자를 들먹이는 걸 피하는 반면, 어떤 이들은 통계의 발전을 너그럽게 포용합니다. 여기서 우리는 그 숫자들 중 선수 평가를 위해 무엇을 참조해야하는지 궁금해졌습니다. 승리에 대한 선수의 총체적인(holistic) 영향력을 가장 정확하게 평가하며 가장 좋은 평판을 가진 하나의 올인원 스탯이 존재할까요?
이 질문에 대한 답을 찾기 위해, 우리는 농구 커뮤니티에서 가장 신뢰할 수 있는 분석가들에게 설문 조사를 실시했습니다.
훕스하이프(HoopsHype) 사이트는 약 30인의 참여자로부터 답변을 받았으며, 이들은 다양한 농구 매체 종사자거나 NBA 팀과의 협업 경험이 있는 개인 분석가들이 포함되어 있습니다. 설문은 NBA 구단의 전력 분석팀 디렉터 뿐만 아니라 코칭 스태프 등 다양한 종류의 사람들로부터 수집되었습니다.
익명을 요구한 사람들은 대부분 현재 NBA 구단에서 근무하고 있으며, 공개적인 답변을 통한 소속팀의 고유정보 노출을 피하고 싶어했습니다. 하지만 유타 재즈의 분석팀 팀장인 Cory Jez는 자신들의 분석팀이 선수 평가에 반영하는 주요 원칙에 대해 친절하게 알려주었습니다. .
더욱 대표성 있는 올인원 스탯은 박스스코어에 기록되지 않는 상황에서 선수가 미치는 영향력을 잡아낼 필요가 있습니다(기본적으로 루디 고베어의 모든 포제션과 같이)
디앤써니 멜튼과 같은 선수가 미치는 영향과 루 윌리엄스 같은 선수가 미치는 영향을 비교하기는 훨씬 어렵습니다
좋은 스탯에 대해 Jez가 가지고 있는 나름의 기준은 아래와 같습니다.
- 단순히 박스스코어 스탯만 포함한 것보다는 포제션 기반의 스탯
- 포제션의 결과뿐만 아니라 개인의 공헌을 고려하는 베이지안 방법론
- 트랙킹 데이터를 포함
- 단일시즌의 적은 샘플 문제에 대처하기 위한 이전 시즌의 정보를 포함
Jez 처럼 이 프로젝트에 대해 지대한 관심을 가진 사람이 있는가 하면, 참여 자체를 거절한 사람들도 있었습니다. 몇몇은 종합 올인원 스탯은 그 자체로 결함이 있으며 선수의 활약이나 재능을 측정하기에 정확하지 않다고 여겼습니다.
동부 컨퍼런스에 속한 한 구단 사장은 어떤 수치도 사용하지 않으며 모두 다 상당히 나쁘다고 말하기도 했습니다. 다른 이들은 이보단 덜 비판적이었으며 올인원 스탯이 꾸준히 좋아지고 있다고 보았으나, 향후 분석의 나아갈 방향은 그러한 종합적 능력치 측정과는 동떨어져있다고 보고 있었습니다.
다른 서부 컨퍼런스 NBA팀 관계자의 말은 이러합니다.
만약 내가 당신의 이야기에 한가지 첨언을 하자면, 올인원 스탯은 남용되고 있다는 것입니다. 다음 세대 농구분석은 모두 [맥락] 의존적인 수치(context-dependent numbers)에 관한 것일 겁니다, 이건 내가 할 수 있는 가장 정직한 표현입니다
이 임원은 분석은 장차 회귀분석에 기반한 스탯(*역주: 현재 거의 모든 올인원 스탯은 회귀분석을 사용합니다)에서부터 선수가 소속팀에서 맡는 역할에 기반하여 퍼포먼스를 예측하려는 시도로 옮겨갈 것이라고 하였습니다 (예를 들자면, BBall-index.com과 Backpicks.com에서 제공하는 라인업 스페이싱, 플레이메이킹, 수비 범용성).
또한 "신뢰하는 몇 가지 수치를 평균내어 사용하는 것"이 최고의 평가를 위해 시도해볼 수 있는 방법이라고 덧붙였습니다 (이는 Owen Phillips가 이 글에서 제안하는 방법이기도 하다, *역주: 제가 지난 시즌과 이번 시즌 제공하는 [ 2차 스탯 평균 순위 / 래더 ] 글도 동일한 시도라고 보시면 되겠습니다)
하지만 이 설문에서 가장 많이 받은 피드백은, 대부분의 팀들이 선수 평가에 있어서 독자적으로 개발한 평가 시스템에 더 초점을 둔다는 것입니다. 물론 그러한 측정 방법은 대중이나 언론에 공개되진 않으며 당연히 팬들의 선수 평가에 인용되지는 못합니다. 이번 설문의 궁극적인 목적은 우리가 실제 선수 평가에 활용하는 올인원 스탯에 대한 최신 현장 피드백을 제공하는 것입니다.
농구 분석에서 가장 믿을 만한 사람들과의 대화를 통해, 우리가 첨단 2차 스탯에 대해 배운 것이여기에 기술되어 있습니다. 아래 랭킹은 가장 믿지 못할 스탯에서부터 가장 믿을 만한 스탯 순으로 작성되었습니다.
13위. PER
정식명칭: Player Efficiency Rating
타입: 박스스코어 (선수의 마진을 고려하지 않음)
개발자: John Hollinger
정보제공: ESPN.com
PER은 존 홀린저에 의해 창안된 올인원 스탯입니다.
그는 2007년 처음으로 ESPN.com에 스탯을 소개했지만, 사실 그보다 훨씬 이전부터 이 스탯을 사용했습니다.
홀린저는 독창적인 페이스 보정한 시간당 생산성 수치를 창안하였고, Worldwide Leader of Sports에서 제공하였습니다. PER은 당시 독보적인 지위를 가졌을 뿐만 아니라 해석하기도 쉬웠습니다. 리그 평균 PER 수치는 항상 15.0으로 일정하기 때문에 선수의 경기당 평균 득점과 같은 수치에 비해 이해하거나 선수를 비교하기에 용이했습니다.
PER은 등장 그 자체로 더 많은 2차스탯을 농구 분석의 주류에 끌어들인 거대한 진보였으며, 라이트 팬들에게는 여전히 자주 사용되는 스탯입니다.
홀린저는 자격있는 선구자였고 농구라는 분야에서 오랜 커리어를 향유했습니다. 그는 멤피스 그리즐리스의 프론트에서 일하였으며 현재는 더애쓸레틱의 필진으로 활동하고 있습니다.
비록 이 스탯이 여러가지 단점을 가지고 있음에도 불구하고, PER은 농구분석 역사에 중요한 이정표로 여겨집니다. 덧붙여, PER의 단점에 대한 무수히 많은 설명으로 인해, 스탯의 맹점을 이해하기도 쉬운 편입니다.
한 동부 팀의 분석팀 디렉터는 이렇게 말했습니다.
저는 PER을 신뢰할 수 있는 스탯 리스트에 넣지 않았습니다. 하지만 PER은 널리 퍼져있으며, ‘스탯이 무엇을 의미하는지 또 무엇은 의미하지 않는지’ 알기 쉽기 때문에, 조악하지만 빠른 요약용 스탯으로는 여전히 활용가치가 있습니다.
설문결과: 설문 참여자 29명 중에서 22명은 PER을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 누구도 PER을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
*역주
저 또한 PER은 어시스트 비율이 높은 선수(주로 빅맨)에게 특히 친화적인 특성으로 인해 활용성을 많이 잃었다고 생각합니다. 다만, 같은 포지션 안에서는 어느 정도의 가치가 남아있고, 다른 레퍼런스 제공 박스스코어 스탯 중 Usage%(포제션 점유율)에 가장 큰 영향을 받으면서 역설적으로 원맨 캐리형 선수의 필연적으로 떨어지는 효율을 어느 정도 보정해주는 (의도치 않는) 효과가 있다고 생각합니다.
12. PIE
정식명칭: Player Impact Estimate
타입: 박스스코어 (선수의 마진을 고려하지 않음)
개발자: NBA
정보제공: NBA.com
PER과 매우 유사하게, PIE는 박스스코어를 하나로 합친 올인원 스탯이며, 실제로 리그에 의해 개발되었습니다.
이 스탯에서, 모든 선수의 PIE 스코어를 더하면 100이 됩니다(*역주: 한 경기에서 같은 팀의 PIE수치 의미). 근본적으로, 이 스탯은 한 경기에 발생하는 모든 사건에서 각 선수가 공헌하는 퍼센테이지가 어느 정도인지를 보여주는 것이 목적이라고 할 수 있습니다.
PIE 계산식은 또한 PER에 비해 수비의 가치를 좀더 고려하고자 했으며 집에서 계산할 수 있을 만큼 간단합니다. 수비에 대한 고려 때문에, PIE는 2020-21시즌 조엘 엠비드를 MVP 수상자인 니콜라 요키치보다 더 높게 평가한 몇 안되는 2차스탯 중 하나입니다.
설문결과: 설문 참여자 29명 중에서 20명은 PIE을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 누구도 PIE을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
11. WS/48
정식명칭: Win Shares per 48 minutes
타입: 박스스코어 (선수의 마진을 고려하지 않음)
개발자: Justin Kubatko
정보제공: Basketball-reference.com
마이클 루이스 작 Moneyball (2003년 출판)을 읽은 사람이라면 야구의 윈쉐어 개념이 친숙할 것입니다. 본래 MLB의 빌 제임스에 의해 개발된 것인데, 윈쉐어의 개념은 팀의 성공을 선수 개인의 공으로 할당하는 것입니다.
Basketball on Paper (2004)에서 딘 올리버가 설명한 몇가지 아이디어를 토대로, 바스켓볼 레퍼런스의 저스틴 쿠뱃코는 NBA 버전을 만들었습니다.
더 많은 승리를 얻는 것이 프론트의 궁극적 목적이기에, 윈쉐어는 소속팀의 승수에서 선수가 정확히 얼만큼의 승리에 공헌했는지 책정하는 꽤 재미있는 스탯입니다.
하지만 Nylon Calculus의 벤 테일러의 재현 테스트에 의하면 윈쉐어는 특히나 변덕이 심한 결과를 나타냈습니다.
설문결과: 설문 참여자 29명 중에서 14명은 WS/48을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 오직 한 응답자만이 WS/48을 가장 선호하는 종합 스탯으로 꼽았습니다. 하지만 흥미롭게도 그 사람은 설문지를 작성한 사람들 중 NBA 팀의 가장 높은 지위에 있는 인물이었습니다(but curiously that individual was actually the highest-ranking individual with an NBA team of anyone who filled out our questionnaire *역주: 해석이 매끄럽지 못한 것 같아 원문을 옮겨놓습니다).
10. FIC
정식명칭: Floor Impact Counter
타입: 박스스코어 (선수의 마진을 고려하지 않음)
개발자: Chris Reina
정보제공: RealGM.com
FIC는 PER, PIE의 RealGM 버전입니다. 2007년에 개발되었으며, 다른 스탯에 비해 어시스트, 샷 크리에이션, 공격리바운드에 더 높은 가중치를 줍니다.
종종 FIC40으로 표현되며, 이는 선수의 40분당 FIC 수치를 의미합니다. 이 스탯은 러셀 웨스트브룩처럼 박스스코어를 가득 채우는 선수를 선호합니다. 하지만 최근 몇 시즌의 웨스트브룩을 지켜본 사람들이라면 누구나 박스스코어를 가득 채우는게 항상 승리로 이어지진 않는다는 것을 알고 있습니다.
이 스탯은 널리 활용되고 있지는 않지만, RealGM은 대학농구, G-리그, 그리고 기타 해외리그에 대한 데이터를 제공하기 때문에 이러한 상황에서 활용가치가 있습니다.
설문결과: 설문 참여자 29명 중에서 8명은 FIC을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 누구도 FIC을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
9. Simple Rating
정식명칭: Simple Rating
타입: 박스스코어 (선수의 마진을 고려함)
개발자: Roland Beech
정보제공: 82Games.com
Simple Rating은 로랜드 비치에 의해 개발되었습니다. 그는 2002년 82games.com을 창립하고 이후 댈러스 매버릭스에 채용되어 NBA 최초의 “스탯 코치”가 되었습니다. 비치는 댈러스 Basketball Operations의 부사장이었고 2017년까지 새크라맨토 킹스의 Basketball Strategy의 부사장을 역임하였습니다.
그는 on-off 마진스탯에 대한 선구적인 이론가였으며 Simple Rating의 목적은 선수의 다른 팀 내 상응하는 선수(counterpart player) 대비 온코트 생산성을 측정하는 것입니다.
도움이 될런지 모르겠지만, Simple Rating은 지난 시즌 요키치를 탑5 선수에도 꼽지 않은 유일한 스탯이었습니다.
설문결과: 설문 참여자 29명 중에서 5명은 Simple Rating을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 누구도 Simple Rating을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
8. WPA
정식명칭: Win Probability Added
타입: 박스스코어 (선수의 마진을 고려하지 않음)
개발자: Mike Beuoy
정보제공: Inpredictable.com
2014년, Mike Beuoy는 클러치 샷에 상당히 높은 가중치를 부여하는 승리확률 기여도를 처음 소개했습니다. 방법론에 대한 설명은 아래 링크에 있습니다.
https://www.inpredictable.com/2014/01/nba-player-win-probability-added.html
https://www.inpredictable.com/2013/06/nba-win-probability-added.html
https://www.inpredictable.com/2013/12/nba-win-probability-graphs-and-box.html
이 스탯에서 가장 흥미로우면서 중요한 부분은, 이 스탯이 오직 야투실패와 성공, 턴오버와 자유투만을 고려하고 리바운드, 어시스트, 블락, 스틸을 고려하지 않는다는 것입니다. 그의 홈페이지에서 선수의 퍼포먼스를 클러치 타임과 가바지을 나눠서 확인할 수 있습니다.
Inpredictable은 또하나의 올인원 스탯인 kWPA를 제공하며 이 스탯은 리바운드, 어시스트, 블락, 스틸과 같은 모든 박스스코어 스탯을 고려합니다. 이 사이트는 또한 클러치 슈팅과 플레이 페이스에 대한 좋은 정보를 제공하고 있습니다.
설문결과: 설문 참여자 29명 중에서 5명은 WPA을 효과적인 올인원 스탯으로 신뢰하지 않는다고 응답했습니다. 그리고 응답자 중 누구도 WPA을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
7. RPM
정식명칭: Real Plus-Minus
타입: 박스스코어, 트랙킹 데이터와 온오프 임팩트의 종합 (이전 정보로 RAPM를 활용)
개발자: Jeremias Engelmann, Steve Ilardi
정보제공: ESPN.com
ESPN의 RPM은 2014년 처음 소개되고 종합 스탯의 새 시대를 열었습니다. 이 스탯은 NBA의 play-by-play 데이터를 통하여서 박스스코어의 플러스-마이너스 스탯(마진)을 재현하려는 목적을 가지고 있습니다.
RPM은 2002년 당시 매우 충격적이었던 Wayne Winston과 Jeff Sagarin의 WINVAL ratings, 2004년 Dan Rosenbaum이 개발한 APM (adjusted plus-minus)과 xRAPM의 다음 세대 버전입니다.
특히, ESPN의 독보적인 지위에 힘입어 RPM은 오랜 시간 마진스탯의 골드스탠다드로 여겨졌습니다. 하지만 지난해 뭔가 이상한 일이 벌어졌습니다.
한
서부 컨퍼런스 팀 소속의 응답자의 말입니다.
Jeremias Engelmann이 개발한 RPM은 현재 더 이상 ESPN에서 제공되지 않습니다. 기존 RPM이라면 매우 높게 평가합니다만, 현재 버전은 제 기준 완전히 무용지물입니다(useless)
*역주: 저도 작년에 RPM이 다른 올인원 스탯과 심각한 괴리를 보이는 것을 발견하고 글을 남긴 적이 있었습니다. 아마 비슷한 시기에 현지에서도 문제가 된 것으로 보입니다.
당시 매니아 글: https://mania.kr/g2/bbs/board.php?bo_table=nbatalk&wr_id=7028981
종합적으로 RPM에 대한 의견은 모든 스탯 중에 가장 일관성이 없습니다. 심지어 몇몇은 무엇이든지간에 공식 안에 뭔가 고장난 게 있다고 느끼고 있죠.
설문결과: 설문 참여자 29명 중에서 2명은 RPM을 가장 선호하는 종합 스탯으로 꼽았습니다. 8명은 RPM을 신뢰한다고 응답한 반면 11명은 RPM을 신뢰하지 않는다고 답하였습니다.
6. BPM
정식명칭: Box Plus-Minus
타입: 박스스코어 (마진을 고려함)
개발자: Daniel Myers
정보제공: Basketball-reference.com
BPM은 선수가 코트에 있을 때 공헌하는 정도를 측정하기 위한 목적을 가지고 있습니다. BPM은 박스스코어 퍼포먼스, 팀 퍼포먼스, 그리고 선수의 포지션을 종합하여 100포제션당 리그평균 대비 얼마나 뛰어난 퍼포먼스를 보이고 있는지를 수치화합니다.
BPM은 근본적으로 VORP (Value over replacement player)와 동일한 스탯입니다만 후자는 선수의 출전시간을 고려합니다 (*역주: BPM의 누적이 VORP입니다).
BPM에서 리그 평균 선수는 0.0이며 수치에 따라 선수의 퍼포먼스를 쉽게 평가할 수 있습니다 (예를 들어 10.0은 역대에 손꼽힐 시즌, 8.0은 MVP 수준, 4.0은 올스타급 선수, -2.0은 벤치 등).
Myers가 BPM 2.0을 개발하였을 때, 그는 계산식에 쉽게 구할 수 있는 스탯만 넣길 원했습니다. ESPN의 RPM과는 달리 BPM은 트랙킹 스탯을 포함하지 않으며 상대적으로 간단합니다. 엄밀하게 말해 적은 정보를 기반으로 만들어졌음에도 불구하고, 상당한 사람들이 더욱 복잡한 RPM보다 BPM을 실제로 선호한다는 것은 흥미로운 부분입니다.
BPM은 Basketball-reference 사이트에서 제공됩니다. 또한 Thinking Basketball (2016)의 저자인 벤 테일러가 창안한 고유의 BPM 버전 또한 많은 사람들의 신뢰를 받고 있습니다. 그 결과는 여기에서 확인할 수 있습니다 (https://backpicks.com/metrics/2021-players/).
설문결과: 설문 참여자 29명 중에서 2명은 BPM을 가장 선호하는 종합 스탯으로 꼽았습니다. 11명은 BPM을 신뢰한다고 응답한 반면 3명은 BPM을 신뢰하지 않는다고 답하였습니다.
5. RAPM
정식명칭: Regularized Adjusted Plus-Minus
타입: 박스스코어를 고려하지 않은 순수한 마진 임팩트
개발자: Joe Sill
정보제공: NBAShotCharts.com
RPM 파트에서 언급한 바와 같이, RAPM은 보정 플러스-마이너스(adjusted plus-minus; APM)의 기본 원리에서 출발하였고, APM은 박스스코어에 기록된 플러스-마이너스 (마진) 스탯에 선형대수학을 접목한 것입니다.
하지만 APM과 RAPM의 가장 큰 차이는, Regularization을 위해 선형능선회귀 필터를 적용했는지 여부입니다. 이러한 베이지안 과정이나 RAPM의 역사가 궁금한 분들은 아래 링크를 확인하기 바랍니다
https://fansided.com/2014/09/25/glossary-plus-minus-adjusted-plus-minus/
RAPM의 계산과정에서 알아야하는 가장 중요한 부분은 “이전 정보(prior)”가 주어지는지 여부입니다. RAPM과 같은 마진스탯에서 “이전 정보(prior)”를 활용하는 것은 스탯의 “간이검사(sniff test)”를 한번에 통과하게 해줍니다. 유타의 전 분석팀장이었던 Jez의 쉬운 설명은 아래와 같습니다.
우리는 르브론 제임스가 정말 정말 뛰어나다는 걸 알고 있습니다. 우리는 그 사실을 말하기 위해 수백개의 포제션을 기다릴 필요가 없어야합니다. 대신, 개발자들은 모델이 올바른 방향으로 움직이도록 ‘이전 정보(prior)’를 사용할 수 있습니다
물론 그러한 이전 정보가 어떻게 만들어지는지는 주관적이며, 매우 예측력 있는 모델의 뒤에 숨겨진 “비밀의 묘약”이 될 수 있습니다.
RAPM이 그 자체로 스탯으로 사용될 경우 명백한 몇 가지 문제점이 존재합니다. 그중에서도 가장 큰 것은 이 스탯 안에 리바운드, 어시스트와 같이 진정한 “농구” 수치가 들어가지 않으며 오직 선수의 유무에 따른 경기 스코어만이 고려된다는 것입니다.
비록 RAPM이 전통적인 박스스코어 요소를 무시합니다만, 이 스탯은 EPM과 같은 다른 종합 스탯의 훌륭한 기초성분으로 쓰일 수 있습니다.
몇몇 응답자들은 RAPM은 여러 해에 걸친 결과를 고려했을 때 가장 효과적이며 단일시즌 기록은 오해를 불러일으킬 수 있다고 합니다 (3년/5년 RAPM은 http://nbashotcharts.com/rapm?id=-2146555570에서 제공, 라이언 데이비스 개발).
서부 팀의 분석 디렉터에 표현은 이렇습니다.
“이 스탯은 선수의 맥락과 역할에 기반하여 고려될 필요가 있습니다. 하지만 여러 시즌을 묶어서 봤을 때는 상당히 객관적인 좋은 스탯입니다.”
설문결과: 설문 참여자 29명 중에서 절반이 넘는 15명의 사람이 RAPM을 신뢰한다고 응답한 반면 2명은 신뢰하지 않는다고 답했습니다. 하지만 누구도 RAPM을 가장 선호하는 종합 스탯으로 꼽지 않았습니다.
4. RAPTOR
정식명칭: Robust Algorithm (using) Player Tracking (and) On/Off Ratings
타입: 박스스코어, 트랙킹 데이터와 플러스-마이너스의 종합 (RAPM를 추측)
개발자: Jay Boice, Neil Paine, Nate Silver
정보제공: FiveThirtyEight.com
아마도 데이터 분야에서 가장 유명한 이름이 FiveThirtyEight (이하 538)을 설립한 네이트 실버이기에, 538에서 종합 농구스탯 RAPTOR를 개발한 것은 놀랄 일이 아닐 것 입니다.
538의 기존 농구스탯(Elo와 CARM-Elo)는 계산에 있어 BPM과 RPM에 의존했지만, 2019년 개발된 RAPTOR의 경우 그들이 데이터 과학자들을 통해 개발하여 고유의 인사이트를 제공합니다. 이 측정 기법은 많은 박스스코어 스탯과 play-by-play 스탯, 트랙킹 스탯, 그리고 온오프 수치를 종합합니다.
RAPTOR에 대해 알아야하는 주요점은, 이 스탯이 속공 전개, 아이솔레이션 턴오버, 퍼러미터 수비수가 이동한 거리 등과 같이 세부적인 항목을 굉장히 많이 포함한다는 것입니다.
한 구단 관계자에 의하면, RAPTOR는 다른 스탯에 비해 이처럼 다양한 수치를 고려하여 만들어졌기에 “견고성(robustness)” 측면에서 유용하다고 여겨집니다.
*역주: 견고성이 높다는 것은 모델이 다양한 종류의 샘플에서 예측력이 일관되게 우수하다는 것을 의미합니다.
RAPTOR는 마땅히 좋은 평가를 받고 있습니다. 하지만 어떤 분석에 따르면 RAPTOR는 샘플의 사이즈가 적을 경우 또는 로스터에 심한 변화가 있을 경우에 예측력이 떨어지는 한계가 있다고 보고되었습니다.
설문결과: 설문 참여자 29명 중에서 6명이 RAPTOR를 가장 선호하는 종합 스탯으로 꼽았으며 이는 모든 스탯 중에서 3위에 해당합니다. 나머지 참여자 중 8명은 RAPTOR를 올인원 스탯으로서 신뢰한다고 답한 반면 7명은 그렇지 않다고 응답했습니다.
3. LEBRON
정식명칭: Luck-adjusted player Estimate using a Box prior Regularized ON-off
타입: 박스스코어와 플러스-마이너스의 종합 (이전 정보로 RAPM를 활용)
개발자: Krishna Narsu, Tim/Cranjis McBasketball
정보제공: BBall-index.com
가장 최근에 개발된 스탯 중에서 최근 몇년동안 갈수록 인기를 얻고 있는 것이 바로 BBall-index.com의 LEBRON입니다. 이 분야에 새롭게 등장하여 지금까지 좋은 퍼포먼스를 보여주고 있습니다.
이 수치는 박스스코어 스탯과 온오프 마진스탯(정확히는 운을 보정한 RAPM)을 계산에 활용하여 100포제션 동안의 선수 임팩트를 계산합니다. LEBRON의 박스스코어 구성요소는 기존 PIPM (Player Impact Plus-Minus)의 가중치를 사용합니다.
이젠 더 이상 제공되지 않는 PIPM은 워싱턴 위저즈, Washington Mystics and Capital City Go-Go에 채용되기 전까지 BBall-index에서 일했던 Jacob Goldstein에 의해 개발되었습니다.
스탯 안정화를 목적으로 개발자들은 공격자 롤 (offensive archetypes)의 개념을 도입하였으며 이는 선수를 팀내 역할에 따라 나누는 방식입니다. 홈페이지의 설명에 따르면, LEBRON은 현재까지 “역할 보정, 운 보정, 안정화 작업을 거쳐 실제 RAPM을 계산에 활용”하는 유일한 스탯입니다.
BBall-index에서는 또한 다음 세대 LEBRON은 트랙킹 데이터를 포함할 것이라고 언급하였습니다.
설문결과: 설문 참여자 29명 중에서 4명이 LEBRON을 가장 선호하는 종합 스탯으로 꼽았습니다. 나머지 참여자 중 14명이 LEBRON을 올인원 스탯으로서 신뢰한다고 답하였고 2명은 그렇지 않다고 응답했습니다.
2. EPM
정식명칭: Estimated Plus-Minus
타입: 박스스코어와 플러스-마이너스의 종합 (이전 정보로 RAPM를 활용)
개발자: Taylor Snarr
정보제공: Dunksandthrees.com
이 프로젝트를 수행하면서 알게된 한 가지 당연한 추세는, 최신의 스탯일 수록 오래된 스탯보다 더욱 많은 신뢰를 얻고 있다는 것이었으며 EPM의 인기는 그의 좋은 예시입니다.
EPM은 데이터 과학자이자 유타 재즈의 전 분석 코디네이터인 Taylor Snarr에 의해 개발되었습니다. 그는 2020년 2월에 EPM을 처음 소개하기를, “가장 정확한” NBA 올인원 스탯이라고 기술하였습니다.
이는 과학적인 방법으로 증명되었는데요. 비교분석 연구에서, EPM은 선수에게 임팩트 값을 공헌에 따라 가장 정확하게 할당하는 결과를 보였으며 이는 아래 링크에서 확인할 수 있습니다. 링크의 비교분석 결과가 본 설문조사의 응답결과와 매우 유사하다는 것은 주목할 만한 부분입니다.
링크: https://dunksandthrees.com/blog/metric-comparison
*역주: 링크는 이전 시즌의 선수기록을 가지고 다음 시즌의 팀퍼포먼스를 예측하는 분석 결과를 포함하고 있으며 EPM, RPM, RAPTOR, BPM의 순으로 낮은 예측 에러(=정확한 예측력)를 보였습니다 (꼴찌는 PER). 분석에 포함된 RPM은 망가지기(?) 이전의 수치만이 사용되었습니다. 예측력 1,2위인 EPM과 RPM이 동일하게 RAPM을 “이전 정보(prior)”로 사용하는 베이지안 방법을 사용하는 것이 시사하는 바가 있습니다. 다만, 스탯의 목적이 미래의 “예측”인지 현재 퍼포먼스의 “측정”인지의 측면에서는 이견이 있을 수 있다고 생각합니다.
동부의 현 분석팀 스태프는 해당 연구가 상당히 잘 구성되었으며 EPM과 다른 스탯을 잘 비교하였다고 설명하였습니다.
EPM에서 제일 좋은 부분은 이 개발자가 다른 스탯을 모두 넣어 비교했다는 것입니다. 전 항상 다른 사람들은 왜 이렇게 하지 않는지 모르겠더군요. 만약 자기가 만든 스탯이 제일 뛰어나다면, 그냥 그렇다고 말하지 말고 왜 그런지 보여줘야합니다
개발자는 또한 언급하기를 가장 뛰어난 성능을 보인 것은 보정한 플러스-마이너스 (*역주: RAPM)를 이전 정보로 사용한 스탯들이라고 하였습니다.
앞서 언급된 RPM, RAPTOR와 같이 EPM 역시 트랙킹 데이터를 평가에 활용합니다.
RPM의 공동 개발자이자 피닉스 선즈를 포함한 NBA 팀의 컨설턴트로 활동하고 있는 Steve Ilardi에게 EPM에 대한 생각을 물었을 때 아래와 같이 답변하였습니다.
EPM은 박스스코어 스탯뿐만 아니라 선수의 트랙킹 데이터를 융합하여 스탯의 재료가 되는 RAPM이 내포하는 노이즈를 매우 훌륭하게 제거해냈습니다. EPM은 저와 Jerry Engelmann이 개발한 RPM을 넘어 한발 더 나아갔습니다. 제 생각에 EPM은 명실공히 올인원 스탯 중에 골드 스탠다드 입니다
더욱이, 데이터 자체의 신뢰도뿐만 아니라 스탯을 제공하는 사이트 역시 꽤나 모던하게 구성하였습니다. 이는 훌륭한 시도인데, 기존에 다른 스탯을 제공하는 사이트들은 상당히 구식이고 봐주기 어렵기도 합니다.
Dunksandthrees.com은 또한 사용자에게 환상적인 데이터 시각화와 함께 수비, 볼 핸들링과 같은스킬에 대해 색상 차이를 통한 수치화를 제공합니다.
설문결과: 설문 참여자 29명 중에서 6명이 EPM을 가장 선호하는 종합 스탯으로 꼽았으며 이는 전체 스탯 중에서 2위에 해당합니다. 나머지 참여자 중 11명이 EPM을 올인원 스탯으로서 신뢰한다고 답하였고 오직 1명만이 신뢰하지 않는다고 응답하였습니다.
1. DPM
정식명칭: Daily Plus-Minus
타입: 플러스-마이너스를 추정하는 예측 툴
개발자: Kostya Medvedovsky
정보제공: DARKO.app
우리의 종합 올인원 스탯의 최종 승자는 바로 DARKO입니다. 이 스탯은 Kostya Medvedovsky에 의해 개발되었으며 Andrew Patton이 제공합니다.
그들의 웹사이트는 DARKO를 MLB의 PECOTA 또는 ZIPS와 같은 “머신러닝 기반 박스스코어 예측 시스템”이라고 정의하고 있습니다. 이 소프트웨어는 NBA의 모든 선수들을 매일 업데이트합니다. 이 툴은 NBA.com, Basketball-reference.com, PBPStats.com에서 인풋 데이터를 얻습니다.
DARKO는 기존의 모든 데이터를 고려하기 위해 복잡한 “지수적 감쇠(exponential decay)”와 “칼만 필터(Kalman filter)”를 사용하여 시간의 흐름과 샘플 사이즈를 고려합니다.
유타 재즈의 전 분석팀장인 Jez의 표현에 의하면,
포제션 단위 데이터를 사용할 때 노이즈에서 진정한 시그널을 골라내는 것은 매우 어렵고, 종종 한 시즌의 데이터조차 충분하지 않을 때가 있습니다. Medvedovsky의 이 방법은 대단한 탈출구이며 DPM을 통해 노이즈 문제를 해결하였습니다. 이 스탯은 선수의 성장이 노이즈보다 더 강한 시그널이라는 것을 제대로 보여줍니다
DARKO는 박스스코어의 모든 구성성분을 예측하는 베이지안 모델입니다. 이 프로그램은 선수의 퍼러미터 슈팅과 기타 박스스코어 요소의 시간에 따른 변화 예측 커브를 보여줍니다.
특히, 우리는 DPM 2.0에 집중하였는데, 이는 DARKO의 올인원 스탯 버전입니다. DPM을 다른 스탯과 비교했을 때 가장 큰 차이는, DPM은 오직 미래를 예측하는 것에만 집중한다는 것입니다.
이 스탯은 누가 MVP를 받았어야 했는지에 대해 답하지 않으며 오직 미래 예측을 위해서만 효과적인 툴입니다. DPM은 RMSE 수치 기준 공개된 다른 모든 수치들보다 뛰어난 예측력을 보였습니다(https://twitter.com/kmedved/status/1355310193131872258). 그 다음으로 뛰어난 수치는 EPM과 LEBRON입니다.
비록, 라이트한 팬들에게 PER과 같은 인지도를 가지고 잇지는 않지만, 만약 NBA 선수 평가에 관심이 있다면 DARKO의 DPM을 당신의 스탯 리스트에 올려야할 시간입니다. 특히, Dunksandthree.com처럼 DARKO도 훌륭한 데이터 시각화 툴을 가지고 있습니다.
많은 사람들이 어떤 스탯을 봐야할 지 고려하기 시작함에 따라, 이러한 예측 모델이 전통적인 측정법보다 훨씬 뛰어나다는 것을 알아차릴 필요가 있습니다.
설문결과: 설문 참여자 29명 중에서 8명이 EPM을 가장 선호하는 종합 스탯으로 꼽았으며 이는 전체 스탯 중에서 가장 높은 수치입니다. 나머지 참여자 중 10명이 DPM을 올인원 스탯으로서 신뢰한다고 답한 반면 오직 1명만이 그렇지 않다고 응답하였습니다.
#---------------------------------#
정리 테이블
가장 신뢰한다
신뢰한다 (가장 신뢰 포함)
신뢰하지 않는다
DPM
8
18
1
EPM
6
17
1
LEBRON
4
18
2
RAPTOR
6
14
7
RAPM
0
15
2
BPM
2
13
3
RPM
2
10
11
WPA
0
NA
5
Simple Rating
0
NA
5
FIC
0
NA
8
WS/48
1
NA (1+?)
14
PIE
0
NA
20
PER
0
NA
22
정말 좋은 글 잘봤습니다