MLB 칼럼

사이영 포인트의 문제점과 통계학의 한계

econphd 2013. 11. 8. 07:26


(손오공과 사오정은 사이영상 받은 적이 있다. 저팔계도 힘내자.)


# 메이저리그 최고의 투수에게 수여하는 사이영상 (Cy Young Award)은 미국 시간으로 다음주 수요일, 13일에 발표된다. 후보 세 명이 나오긴 했지만, 올해는 AL은 맥스 셔져, NL은 클레이튼 커쇼가 성적이 워낙 우수해서, 수상이 99% 확실시된다. 여기에서는 '사이영 포인트'에 대해서 이야기하려고 한다. 사이영 포인트라는 것은 투수의 성적에 기반해서 사이영 포인트라는 점수를 계산하고, 이 점수가 앞서는 사람이 사이영상을 받을 것이라고 예측하는 시스템이다. 이것이 처음 제시된 것은 2004년 빌 제임스/랍 네이어의 책에서였고 빌 제임스는 80% 정도 적중한다고 이야기했다. 공식이 어렵지는 않다.


((5-방어율)/9*이닝)) + (삼진/12) + (세이브*2.5) + 완봉승숫자 + (승리*6)-(패배*2) + 지구우승 보너스 12점


즉 투수의 성적을 판가름하는, 방어율, 이닝, 삼진, 세이브, 완봉, 승리, 패배 등의 숫자에 가중치를 부여하여 합산하고, 여기에 팀이 지구우승을 한 경우 12포인트를 더 준다. 이게 사이영 포인트다. 올해 셔져는 202.1점, 커쇼는 194.4점으로 각각 1위다. ESPN에서는 이 사이영 포인트를 따로 제공한다. 아래에 링크한다.


http://espn.go.com/mlb/features/cyyoung



# 그런데 사이영 포인트의 적중률은 그렇게 높지가 않다. 최근 10년간 20번의 투표에서 실패한 것이 7번. 더 깊이 들어가면, 사실 올해처럼 모든 사람이 사이영상을 누가 받을지 예상하는 해에 사이영 포인트는 별로 의미가 없지 않을까? 그래서 사이영 투표 결과, 1위가 1위표를 75% 이상을 받고 압도적 1위를 한 경우를 제외해 보자. 이 경우는 총 8번이었다. 결과는 8번 중 4번 맞았다. .50%. 이럴 거면 동전 던져서 앞/뒤를 하지. 그런데 실패한 케이스 2004, 2006년은 사이영 포인트 1위가 투표 5위에도 못 들었으니, 우연히 틀렸다기엔 좀 많이 민망하다. 


2012년 AL 성공.

2009년 NL 실패

2008년 NL 성공

2007년 AL 성공

2006년 NL 실패

2005년 AL 실패 NL 성공

2004년 NL 실패


# 게다가, AL 2003년, 2009년, 2010년 세 차례는 투표는 압도적 1위가 나왔지만, 사이영 포인트는 틀렸다. 최근 65%의 성공률은 파고들수록 더 신뢰성이 낮아진다. 사실 나는 세이버매트릭스를 체계적으로 공부하지는 않았고 이미 많은 사람들이 사이영 포인트의 문제점을 분석하고 보완했으리라고 생각한다. 하지만, 아무튼, 이 사이영 포인트는 단순한 통계, 단순선형회귀분석이 가져올 수 있는 대표적인 잘못된 문제점 세 가지를 명확하게 보여주고 있다. 또한 이 사이영포인트는 '인간의 선택'을 통계로 나타내어 예측에 활용하는 것이기에, 경제학의 통계, 계량경제학과도 밀접한 관련이 있다. 통계용어는 최대한 자제하고 쉽게 설명해 보겠다. 



1. 시간이 가면 사람들의 생각이 변한다.


# 실험결과를 통계로 나타낸다면 한 곳에서 수백 수천개의 실험을 하여 그 결과를 통계적으로 이야기할 수 있다. 하지만 사이영상은 1년에 AL, NL 두 번 뽑기 때문에 충분한 결과가 없고, 따라서 과거의 투표 결과를 주욱 종합해야 통계가 나온다. 하지만, 사람들의 생각은 시간이 가면 변한다. 즉, 사이영 포인트는 2-30년 전의 사람들/기자들이 투표한다면 모를까, 시간이 갈수록 사람들의 평가가 달라진다면 예측이 틀릴 가능성이 높아진다. 내가 알기론, 사이영 포인트 공식은 2004년 책이 발간된 이래 아직 바뀌지 않았다. 


# 대표적인 케이스는 2010 아메리칸리그 사이영상이다. 이 해 시애틀의 펠릭스 에르난데즈는 이닝, 탈삼진, 방어율에서 1위를 했다. 그런데 시애틀 물타선 덕분에 13승 12패에 그쳤고, 사이영 포인트에서 7위를 했다. 하지만 사이영상 투표 결과는, 1위표 28표 중 21표를 가져온 넉넉한 승리였다. 2009년의 잭 그레인키 역시 삼진, 방어율에서 펠릭스를 넉넉하게 앞서면서 사이영을 차지했지만 승수 때문에 사이영 포인트는 펠릭스에 밀려 2위에 그쳤다. 최근 사람들의 투표 경향이 승/패와 팀 성적에서, 점차 선수 본인의 성적으로 옮겨가고 있는 가운데 사이영 포인트는 과거 결과에 근거했으므로, 현재의 결과를 예측하지 못하고 있다. 


# 이것을 해결하기 위해서는 지나친 과거의 결과는 버리고, 현재에 가까운 결과에 가중치를 두어 10~20년 정도만 분석한다면 더 나은 값을 얻을 수 있다. 아마도 방어율의 가중치는 높아지고 승수, 패배수, 우승팀 보너스는 줄어들 것이다.



2. 예외는 버리는 게 낫다.


# 모든 결과를 반영한 통계예측은, 모든 결과가 사람들이 타당하게 생각한 결과라는 가정을 반영한다. 하지만 사람들이 한번쯤 뭔가에 홀려서(?) 다르게 투표했다면 어떨까? 그 예외적인 결과를 사람들이 타당하게 생각한 결과로 받아들인 결과 전체적인 예측값이 설득력을 잃어버리고 만다. 예외적인 결과는 버리거나 가중치를 줄여버리는 게 낫다. 그러면 그 예외적인 결과는 예외로, '아웃라이어'로 남고 대신 전체적인 예측의 설득력은 올라간다.


# 사이영 포인트에서 이 문제는 불펜투수에 대한 평가로 나타난다. 불펜투수가 사이영상을 받은 건 1992년의 AL 데니스 애커슬리, 2003년 NL 다저스의 에릭 가니에 뿐이다. 사이영 포인트 계산은 이 두 결과는 예측해 냈다. 대신, 모든 예측에서 불펜투수의 사이영 포인트가 지나치게 높다는 단점을 껴안게 되었다. 여기에 대한 문제는 수도 없이 많지만 대표적으로 2006년 NL 사이영상. 포인트 1위는 애틀랜타 마무리 빌리 와그너. 하지만 실제 투표에서 그는 6위를 했고, 같은 마무리인 트레버 호프만에게도 밀렸다. 2013년 AL 사이영 후보는 셔져, 다르비슈, 이와쿠마 세 명이다. 아마도 투표 결과 다르비슈/이와쿠마가 2,3위가 아닐까 싶은데, 이들의 사이영 포인트는 이와쿠마갸 8위, 다르비슈는 순위에도 없다. 대신 2,4,5,6위가 모두 불펜투수다. 이외에 2003년, 2004년의 예측실패도 모두 불펜투수 문제에서 비롯되었다.


# 이 문제는 불펜투수의 역할이 현대 야구에서 1이닝 마무리로 한정되고 있기에, 1번 항목과도 깊은 연관이 있다. 2006년 사이영 2위를 한 트레버 호프만 이후, 사이영 투표에서 1위표를 하나라도 받은 마무리는 작년 0점대 마무리였던 페르난도 로드니, 62.2이닝 동안 116삼진이라는 탈삼진 신기록을 세운 크렉 킴브렐. 그들도 1표밖에 못 받았다. 올해 사이영 포인트 AL, NL의 2위는 역시 마무리인 조 네이선과 크렉 킴브렐인데 이들이 1위표를 받을까? 못 받을 거다. 사실 불펜투수 문제는 빌 제임스 역시 사이영 포인트의 한계로서 언급을 하고 있다. 하지만, 이렇게 된 이상 정확한 예측을 위해 포인트 계산법을 좀 바꿔야 하지 않을까 생각한다.



3. 투표하는 사람들의 심리.


# 투표는 사람이 한다. 그런데 인간이 합리적인 판단을 내리는 데는 한계가 있어서 심리적인 요인에 영향을 받는다. 개개인의 심리적 경향 상당수는 평균을 내면 사라져서 통계학적으로 의미가 없어지지만, 몇몇 심리적인 요인은 전반적인 인간 선택의 경향이 되어 통계에 오차로서 그대로 남는다. 행동경제학에서는 predictably irrational 하다고 하는 부분. 예를 들면 소개팅에서 A라는 사람이 이성에게 애프터 신청을 받을 가능성은, A가 그보다 못한 B라는 이성과 함께 갔을 때 더 올라간다. 그냥 둘 다 애프터 신청 안 할 수도 있는데도, 사람의 판단은 그렇게 된다.


# 이것이 미묘하게 드러난 투표가 2009년 NL 사이영상 투표라고 생각한다. 당시 유력한 후보는 린스텀, 카펜터, 웨인라이트. 이 세 선수가 각종 지표에서 교묘하게 엉켜서 누가 받을지 예측하기 힘든 상태. 사이영 포인트는 비교적 여유있는 차이로 웨인라이트의 승리. 카펜터 2위. 린스컴은 마무리 브록스턴에 밀려서 4위라고 보았다. 그런데 사이영 포인트에 반영되지 않은 한가지 문제가 있었으니, 카펜터와 웨인라이트가 똑같은 카디널스 소속이었다는 점이다. 투표 결과는? 린스컴이 사이영을 받았다. 문제는 투표 결과인데...


http://www.cbssports.com/mlb/story/12535921/-cy-young-award-voting-results


# 웨인라이트가 1위표를 제일 많이 받고도, 2위표가 모자라서 3위에 그쳤다. 1위표12개, 2위표 5개, 3위표 15개. 이에 대한 내 생각은 그렇다. 사람들의 심리가, 같은 팀인 카펜터, 웨인라이트 모두에게 1,2위를 주기는 좀 꺼림찍하게끔 했다는 것이다. 카펜터와 웨인라이트가 다른 팀이었다면 결과는 달라지지 않았을까? 사실 저 투표 결과는 기자단 중 한두사람만 마음이 바뀌어도 결과가 달라지는 아주 적은 차이이긴 하다.


# 이건 '센셔이셔널'한 선수가 등장할 때도 나타난다. 한 선수가 예상과는 다른 방향에서 엄청난 활약을 하고 미디어에서 띄워주면 사람들의 심리가 그쪽으로 쏠리는 것이다. 사람들의 투표 경향이 한 번 다르게 나타난 점에서 이건 2번 항목과 연관이 높다. MVP의 경우 2001년 이치로가, 실제 선수가치인 WAR로는 4위였지만 투표 1위를 했고, 2003년 마무리투수 가니에의 사이영상 수상도 그런 효과가 크다. 가니에는 2004년에도 그에 못지않은 성적을 올리고 사이영 포인트 1위를 했지만 투표에서는 7위를 했다. 또한 불펜투수의 가치는 사이영상 받을만한 선발투수가 보이지 않을 대 올라가는 것도 사실이다. 이건 통계학적으로 제거하기 쉽지 않은 부분이지만, 아무튼 예측에 있어서 반드시 염두에 둘 부분 중의 하나이다.



# 경제학에서 모델을 만들 때 간과하기 쉬운 중요한 점은, 쉬운 모델이 좋다는 점이다. 특히 이 '사이영 포인트'처럼 대중을 대상으로 하는 예측이라면 그 모델은 더욱 쉬워야 한다. 그 점에서 사이영 포인트는 분명 좋은 도구이지만, 최근 업데이트가 되지 않음으로 인해 오히려 일반 사람들로 하여금 통계학을 불신하게끔 만들 수준이 되어 버렸다. '통계로는 보이지 않는 것이 있다.'는 말도 일리가 있지만, 그 말보다는 '간단한 통계로는 보이지 않는 것이 있다.'는 말이 더 적절하다고 본다. 최근 불펜투수 부분을 수정하고, 최근 경향을 반영하여 매해 새로운 가중치를 발표하기만 해도 사이영 포인트는 쓸만해질 것이다.



# 의견이 있거나 틀린 부분을 보셨다면 댓글로 남겨 주시면 감사하겠습니다.