Home » 2017 » April

Monthly Archives: April 2017

Hvem er best til å tippe Tippeligaen 2017, ekspertene eller modellen?

Foran hver sesongstart er det god underholdning for fotballtørste sjeler å lese om hvordan favorittlaget vil gjøre det i årets sesong. I år er intet unntak. VG har gjort oss den tjenesten å samle tippeligatips fra hele 10 ulike eksperter i en artikkel. Jeg kjenner ikke alle lagene i tippeligaen så godt, og jeg liker ikke å tippe, derfor benytter jeg meg av en Bradley-Terry (1952) modell til å tippe tabellplasseringen i Tippeligaen 2017.

Bradley-Terry Modell

Bradley-Terry modeller benyttes for å modellere sportsbegivenheter, der utgangspunktet er at lag i slår lag j. Vi er interessert i lag i‘s prestasjoner, sammenlignet med lag j‘s. Utgangspunktet er:

    \[\texttt{Prob}(i \; \texttt{vinner over} \; j)= \frac{\alpha_i}{\alpha_i+\alpha_j}\]

der \alpha_i er den relative dyktigheten, eller “skills” til lag i. I praksis modellerer vi på logaritmen til “skills”, dvs:

    \[\texttt{logit}[\texttt{Prob}(i \; \texttt{vinner over} \; j)]= \texttt{log}(\alpha_i)- \texttt{log}(\alpha_j)=\lambda_i - \lambda_j\]

Denne typen modell har blitt umåtelig populær. Allerede i 1976 viste Davidson og Farquhar (1976) til et par hundre applikasjoner. Opprinnelig tar modellen bare høyde for vinst eller tap. Rao og Kupper (1967) og Davidson (1970) utvidet den klassiske Bradley-Terry modellen til å inkludere uavgjort. I vår analyse tar vi også med et parameter for hjemmebane som ble introdusert av Agresti (1990).

Vi modellerer hjemmeseier som følger:

    \[\texttt{Prob}(X_{ij} = 1 ) \propto \exp(\eta + \theta_i)\]

Borteseier er:

    \[\texttt{Prob}(X_{ij} = 0 ) \propto \exp(\theta_j)\]

Uavgjort er:

    \[\texttt{Prob}(X_{ij} = 0.5) \propto \exp(\delta + (\eta + \theta_i + \theta_j )/2 )\]

der parameteret \theta måler lagets “skills”, \eta indikerer hjemmebanefordelen, mens \delta måler tendensen for uavgjort. Vi benytter oss av en MM algoritme for estimeringen (se Hunter (2004) for detaljer).

Analyse

Vi benytter data fra Tippeligaen for 2007 til 2016, og data fra OBOS-ligaen fra 2013 til 2016 for å få med data på alle lag. Jeg kommer tilbake til innhenting av data og estimering i en senere blogg. De estimerte “skills” per lag ble som følger:

individual theta se.theta
1 Rosenborg 2.02 0.16
2 Molde 1.46 0.16
3 Odd 1.12 0.15
4 Strømsgodset 1.11 0.15
5 Viking 1.00 0.14
6 Haugesund 0.89 0.17
7 Vålerenga 0.87 0.14
8 Brann 0.87 0.15
9 Tromsø 0.85 0.15
10 Stabæk 0.82 0.15
11 Lillestrøm 0.74 0.14
12 Aalesund 0.69 0.14
13 Sogndal 0.46 0.19
14 Sarpsborg 08 0.41 0.20
15 Kristiansund 0.28 0.23
16 Sandefjord -0.02 0.18

Det er 16 lag som skal spille mot hverandre to ganger (hjemme og borte). Dette gir 240 kampkombinasjoner.
Til disse 240 kampkombinasjonene blir det beregnet en sannsynlighet for hjemme, uavgjort og borte, basert på “skills”, hjemmebanefordel og tendens til uavgjort. Summen av sannsynlighetsvektoren per kamp er en. Kamputfallet simuleres som en binomisk prosess, der hver kamp “spilles” 5000 ganger, poeng blir tildelt etter utfall (3 ved seier, 1 ved uavgjort, og 0 ved tap). Alle 240 kampene blir omgjort til en tabell (5000 ganger), og gjennomsnittet av de 5000 tabellene blir den endelige tabellen.

Resultat

Resultatet av Bradley-Terry modellen finner vi i følgende tabell sammen med eksperttipsene:

Lag VG Aftenposten Bergens Tidene Adressa TV 2 Eurosport Nordlys Dagbladet Dagsavisen Nettavisen Bradley-Terry
1 Rosenborg 1 1 1 1 1 1 1 1 1 1 1
2 Odd 2 3 2 2 2 2 2 4 4 2 3
3 Molde 3 4 3 5 3 3 4 2 2 3 2
4 Vålerenga 4 5 4 3 6 5 3 3 3 7 7
5 Sarpsborg 08 5 6 5 7 4 7 7 5 7 5 14
6 Brann 6 7 7 6 7 6 6 7 6 6 8
7 Strømsgodset 7 2 6 4 5 4 5 6 8 4 4
8 Lillestrøm 8 10 12 9 11 11 8 10 5 13 11
9 Tromsø 9 8 11 10 9 10 9 11 11 11 9
10 Haugesund 10 9 8 8 8 8 11 8 9 8 6
11 Viking 11 11 9 11 10 9 10 9 12 9 5
12 Aalesund 12 12 13 14 12 14 12 13 13 12 12
13 Sogndal 13 13 10 13 13 12 13 12 15 10 13
14 Kristiansund 14 15 14 16 14 13 14 14 14 15 15
15 Stabæk 15 14 15 12 15 15 15 16 10 14 10
16 Sandefjord 16 16 16 15 16 16 16 15 16 16 16

Vi ser at alle de 10 ekspertene er svært enige om sluttresultatet. En bedre måte å se dette på er å beregne rang korrelasjonen til tabellrangeringene.
plot of chunk unnamed-chunk-4

Det er kun Bradley-Terry modellen som avviker fra de ekspertene. Ellers er det stor konsensus. En av årsakene til dette er at ekspertene ikke ser så langt tilbake. De tar kanskje utgangspunkt i forrige sesong, ser på hvilke spillere som har kommet og gått, hvor mye ressurser klubben har, trenere, osv.

Vår modell tar kun utgangspunkt i historiske kampdata, også kamper som er spilt mot lag som ikke er med i årets Tippeliga. Det er dermed en gjennomsnittsbetraktning over tid som ligger til grunn for vår modell.

Så da blir det i praksis modellen mot ekspertene. Så får vi se hvem som blir best ved sesongslutt. Fortsettelse følger.

Referanser

Agresti, A. 1990. Categorical Data Analysis. 1st ed. Wiley Series in Probability and Statistics. Wiley-Interscience.

Bradley, Ralph Allan, and Milton E. Terry. 1952. “Rank Analysis of Incomplete Block Designs: I. the Method of Paired Comparisons.” Biometrika 39 (3/4). [Oxford University Press, Biometrika Trust]: 324–45. http://www.jstor.org/stable/2334029.

Davidson, Roger R. 1970. “On Extending the Bradley-Terry Model to Accommodate Ties in Paired Comparison Experiments.” Journal of the American Statistical Association 65 (329). [American Statistical Association, Taylor & Francis, Ltd.]: 317–28. http://www.jstor.org/stable/2283595.

Davidson, Roger R., and Peter H. Farquhar. 1976. “A Bibliography on the Method of Paired Comparisons.” Biometrics 32 (2). [Wiley, International Biometric Society]: 241–52. http://www.jstor.org/stable/2529495.

Hunter, David R. 2004. “MM Algorithms for Generalized Bradley-Terry Models.” Ann. Statist. 32 (1). The Institute of Mathematical Statistics: 384–406. http://dx.doi.org/10.1214/aos/1079120141.

Rao, P. V., and L. L. Kupper. 1967. “Ties in Paired-Comparison Experiments: A Generalization of the Bradley-Terry Model.” Journal of the American Statistical Association 62 (317). [American Statistical Association, Taylor & Francis, Ltd.]: 194–204. http://www.jstor.org/stable/2282923.

913 total views, no views today