Home » 2017

Yearly Archives: 2017

Hvem er best til å tippe Tippeligaen 2017, ekspertene eller modellen?

Foran hver sesongstart er det god underholdning for fotballtørste sjeler å lese om hvordan favorittlaget vil gjøre det i årets sesong. I år er intet unntak. VG har gjort oss den tjenesten å samle tippeligatips fra hele 10 ulike eksperter i en artikkel. Jeg kjenner ikke alle lagene i tippeligaen så godt, og jeg liker ikke å tippe, derfor benytter jeg meg av en Bradley-Terry (1952) modell til å tippe tabellplasseringen i Tippeligaen 2017.

Bradley-Terry Modell

Bradley-Terry modeller benyttes for å modellere sportsbegivenheter, der utgangspunktet er at lag i slår lag j. Vi er interessert i lag i‘s prestasjoner, sammenlignet med lag j‘s. Utgangspunktet er:

    \[\texttt{Prob}(i \; \texttt{vinner over} \; j)= \frac{\alpha_i}{\alpha_i+\alpha_j}\]

der \alpha_i er den relative dyktigheten, eller “skills” til lag i. I praksis modellerer vi på logaritmen til “skills”, dvs:

    \[\texttt{logit}[\texttt{Prob}(i \; \texttt{vinner over} \; j)]= \texttt{log}(\alpha_i)- \texttt{log}(\alpha_j)=\lambda_i - \lambda_j\]

Denne typen modell har blitt umåtelig populær. Allerede i 1976 viste Davidson og Farquhar (1976) til et par hundre applikasjoner. Opprinnelig tar modellen bare høyde for vinst eller tap. Rao og Kupper (1967) og Davidson (1970) utvidet den klassiske Bradley-Terry modellen til å inkludere uavgjort. I vår analyse tar vi også med et parameter for hjemmebane som ble introdusert av Agresti (1990).

Vi modellerer hjemmeseier som følger:

    \[\texttt{Prob}(X_{ij} = 1 ) \propto \exp(\eta + \theta_i)\]

Borteseier er:

    \[\texttt{Prob}(X_{ij} = 0 ) \propto \exp(\theta_j)\]

Uavgjort er:

    \[\texttt{Prob}(X_{ij} = 0.5) \propto \exp(\delta + (\eta + \theta_i + \theta_j )/2 )\]

der parameteret \theta måler lagets “skills”, \eta indikerer hjemmebanefordelen, mens \delta måler tendensen for uavgjort. Vi benytter oss av en MM algoritme for estimeringen (se Hunter (2004) for detaljer).

Analyse

Vi benytter data fra Tippeligaen for 2007 til 2016, og data fra OBOS-ligaen fra 2013 til 2016 for å få med data på alle lag. Jeg kommer tilbake til innhenting av data og estimering i en senere blogg. De estimerte “skills” per lag ble som følger:

individual theta se.theta
1 Rosenborg 2.02 0.16
2 Molde 1.46 0.16
3 Odd 1.12 0.15
4 Strømsgodset 1.11 0.15
5 Viking 1.00 0.14
6 Haugesund 0.89 0.17
7 Vålerenga 0.87 0.14
8 Brann 0.87 0.15
9 Tromsø 0.85 0.15
10 Stabæk 0.82 0.15
11 Lillestrøm 0.74 0.14
12 Aalesund 0.69 0.14
13 Sogndal 0.46 0.19
14 Sarpsborg 08 0.41 0.20
15 Kristiansund 0.28 0.23
16 Sandefjord -0.02 0.18

Det er 16 lag som skal spille mot hverandre to ganger (hjemme og borte). Dette gir 240 kampkombinasjoner.
Til disse 240 kampkombinasjonene blir det beregnet en sannsynlighet for hjemme, uavgjort og borte, basert på “skills”, hjemmebanefordel og tendens til uavgjort. Summen av sannsynlighetsvektoren per kamp er en. Kamputfallet simuleres som en binomisk prosess, der hver kamp “spilles” 5000 ganger, poeng blir tildelt etter utfall (3 ved seier, 1 ved uavgjort, og 0 ved tap). Alle 240 kampene blir omgjort til en tabell (5000 ganger), og gjennomsnittet av de 5000 tabellene blir den endelige tabellen.

Resultat

Resultatet av Bradley-Terry modellen finner vi i følgende tabell sammen med eksperttipsene:

Lag VG Aftenposten Bergens Tidene Adressa TV 2 Eurosport Nordlys Dagbladet Dagsavisen Nettavisen Bradley-Terry
1 Rosenborg 1 1 1 1 1 1 1 1 1 1 1
2 Odd 2 3 2 2 2 2 2 4 4 2 3
3 Molde 3 4 3 5 3 3 4 2 2 3 2
4 Vålerenga 4 5 4 3 6 5 3 3 3 7 7
5 Sarpsborg 08 5 6 5 7 4 7 7 5 7 5 14
6 Brann 6 7 7 6 7 6 6 7 6 6 8
7 Strømsgodset 7 2 6 4 5 4 5 6 8 4 4
8 Lillestrøm 8 10 12 9 11 11 8 10 5 13 11
9 Tromsø 9 8 11 10 9 10 9 11 11 11 9
10 Haugesund 10 9 8 8 8 8 11 8 9 8 6
11 Viking 11 11 9 11 10 9 10 9 12 9 5
12 Aalesund 12 12 13 14 12 14 12 13 13 12 12
13 Sogndal 13 13 10 13 13 12 13 12 15 10 13
14 Kristiansund 14 15 14 16 14 13 14 14 14 15 15
15 Stabæk 15 14 15 12 15 15 15 16 10 14 10
16 Sandefjord 16 16 16 15 16 16 16 15 16 16 16

Vi ser at alle de 10 ekspertene er svært enige om sluttresultatet. En bedre måte å se dette på er å beregne rang korrelasjonen til tabellrangeringene.
plot of chunk unnamed-chunk-4

Det er kun Bradley-Terry modellen som avviker fra de ekspertene. Ellers er det stor konsensus. En av årsakene til dette er at ekspertene ikke ser så langt tilbake. De tar kanskje utgangspunkt i forrige sesong, ser på hvilke spillere som har kommet og gått, hvor mye ressurser klubben har, trenere, osv.

Vår modell tar kun utgangspunkt i historiske kampdata, også kamper som er spilt mot lag som ikke er med i årets Tippeliga. Det er dermed en gjennomsnittsbetraktning over tid som ligger til grunn for vår modell.

Så da blir det i praksis modellen mot ekspertene. Så får vi se hvem som blir best ved sesongslutt. Fortsettelse følger.

Referanser

Agresti, A. 1990. Categorical Data Analysis. 1st ed. Wiley Series in Probability and Statistics. Wiley-Interscience.

Bradley, Ralph Allan, and Milton E. Terry. 1952. “Rank Analysis of Incomplete Block Designs: I. the Method of Paired Comparisons.” Biometrika 39 (3/4). [Oxford University Press, Biometrika Trust]: 324–45. http://www.jstor.org/stable/2334029.

Davidson, Roger R. 1970. “On Extending the Bradley-Terry Model to Accommodate Ties in Paired Comparison Experiments.” Journal of the American Statistical Association 65 (329). [American Statistical Association, Taylor & Francis, Ltd.]: 317–28. http://www.jstor.org/stable/2283595.

Davidson, Roger R., and Peter H. Farquhar. 1976. “A Bibliography on the Method of Paired Comparisons.” Biometrics 32 (2). [Wiley, International Biometric Society]: 241–52. http://www.jstor.org/stable/2529495.

Hunter, David R. 2004. “MM Algorithms for Generalized Bradley-Terry Models.” Ann. Statist. 32 (1). The Institute of Mathematical Statistics: 384–406. http://dx.doi.org/10.1214/aos/1079120141.

Rao, P. V., and L. L. Kupper. 1967. “Ties in Paired-Comparison Experiments: A Generalization of the Bradley-Terry Model.” Journal of the American Statistical Association 62 (317). [American Statistical Association, Taylor & Francis, Ltd.]: 194–204. http://www.jstor.org/stable/2282923.

1,755 total views, no views today

Her er analysen som viser at Ap-nestleder Hadia Tajik har feiltolket totalt

Dette er en lett omskrivning av tittelen til artikkelen i NRK med overskriften “Her er tallene Ap mener beviser at Erna og Siv har mislyktes totalt”.

SSB publisert nylig tall for nasjonalregnskapet. Tallene det refereres til er hentet herfra. Ulempen med NRK's fremstilling og Tajik's tolkning er at de baserer seg på endring i tall på nivåform. Dette er en fremstilling som mange økonomer ikke er spesielt glad i. Når en gjør det, er det enkelt å benytte disse til en “jeg er bedre enn deg” tolkning. Vi vet også at økonomiske makrotall og konjukturer spiller inn på sysselsettingen, kanskje mer enn hvilken regjering som sitter ved kongens bord. Dette er Jan Petter Sissener inne på i bloggen sin. La oss se nærmere på tallene.

Data

Vi benytter oss av kvartalsvise nasjonalregnskapstall fra SSB, der totsyssel er kategorien “I alt” fra Tabell 39. “Sysselsatte personer”. Videre er totinv kategorien “I alt” fra Tabell 24. “Bruttoinvestering i fast realkapital”. Vi tar også med Brent oljepris fra Quandl (se tidligere blogg). Jeg har laget en tabell over norske regjeringer per kvartal, basert på Wikipedia. Selve dataryddingen tar jeg ikke med her, men det endelige datasettet kan lastes ned fra lenken under.

Modell

La z_0 være antall sysselsatte når den rødgrønne regjeringa tiltrådte, og z_1 være antall sysselsatte når den rødgrønne regjeringa gikk av. Endring i løpet av perioden er \Delta z=z_1-z_0. Vi gjør det samme for den nåværende regjeringen, og sier at \Delta w=w_1-w_0, der w_1 er det siste sysselsettingstallet fra SSB. Tajik, konstaterer at \Delta z \gg \Delta w, ergo har Erna og Siv mislyktes totalt. Feiltolkningen i dette tilfellet er kun å se på \Delta z og \Delta w som frikoblet fra den økonomiske virkeligheten. Endringen tilskrives kun den spesifikke regjeringen i perioden, og ingen andre forhold taes med i betraktningen. Dette blir en for enkel fremstilling.

Dersom en ønsker å se på vekst, og vekstrater, i dette tilfellet i antall sysselsatte y, så kan en benytte seg av en vekstmodell:

    \[y_t=y_0(1-r)^t\]

Der r er vekstraten over tid (t) i antall sysselsatte. Vi kan ta den naturlige logaritmen på begge sider, og skrive:

    \[log(y_t)=log(y_0)+t\times log(1-r)\]

Vi kan estimere dette som en regresjonsmodell:

    \[log(y_t)=\beta_0+\beta_1 t+u_t\]

der \beta_1 \times 100 kan tolkes som den konstante vekstraten (i prosent per tidsenhet på et gitt tidspunkt). Dette kan endres til den kontinuerlige vekstraten (i prosent per tidsenhet over en tidsperiode), ved å ta 100 \times(e^{\beta_1}-1).

Vi utvider den generelle vekstmodellen som følger:

    \[log(\texttt{totsyssel}_t)=\beta_0+\beta_1 t+\beta_2\texttt{H-FRP}+\beta_3\texttt{H-FRP}\times t+\beta_4log(\texttt{pbrent})+\beta_5log(\texttt{totinv})+u_t\]

Det er den rødgrønne regjeringa som er i basis (\beta_0), og som har vekstraten \beta_1. \texttt{H-FRP} er en dummyvariabel for den nåværende regjeringa. Det interessante parameteret er \beta_3. Dette måler om vekstraten til den nåværende regjeringa er signifikant forskjellig fra den rødgrønne regjeringa. Effekten av oljeprisen måles ved \beta_4, og effekten av bruttoinvesteringer i fast realkapital måles ved \beta_5. Begge er en elastisitet som måler den prosentvise effekten på syssselsetting i prosent.

Resultatene av analysen sees i tabellen under.

Avhengig variabel
log(Sysselsatte)
Konstantledd 6.320
t = 23.500
p = 0.000
t 0.002
t = 4.810
p = 0.00003
H og FRP 0.007
t = 0.070
p = 0.945
log(brentpris) 0.011
t = 1.420
p = 0.164
log(bruttoinvesteringer) 0.117
t = 4.800
p = 0.00003
t x (H og FRP) -0.0002
t = -0.179
p = 0.859
Observations 45
R2 0.935
Adjusted R2 0.926
Residual Std. Error 0.011 (df = 39)
F Statistic 111.000*** (df = 5; 39)
Note: no notes.

Vi ser at den kontinuerlige vekstraten i sysselsettingen for den rødgrønne regjeringa var på 0.18 prosent per kvartal, eller omlag 0.72 prosent per år, alle andre variabler i modellen holdt konstant. Det interessante her er at vekstraten til den nåværende regjeringa ikke er signifikant forskjellig fra vekstraten til den rødgrønne regjeringa. Det er bruttoinvesteringer i fast realkapital som er den store driveren på sysselsetting. Oljepris har litt å si, men er marginalt ikke signifikant.

Moralen må være at en ikke skal forenkle sammenligninger av tall til det meningsløse. Men da hadde det vel ikke blitt mange sensasjonelle nyheter basert på tall?

1,228 total views, no views today

Påvirker prisen på råolje prisen på bensin og diesel?

Det er synset mye om sammenhengen mellom råoljeprisen og prisen du og jeg betaler for drivstoff ved pumpen. Oljeselskapene gjør et poeng av at avgiftene utgjør omlag 60% av pumpeprisen.

Knut Hilmar Hansen i Statoil sier til til E24:
Det er ikke direkte sammenheng mellom prisen på råolje i dollar og pumpepris i kroner. Vi kjøper inn ferdigraffinerte produkter i eget marked, og prisen påvirkes ikke bare av råoljepris og valutakurser, men også av tilbud og etterspørsel, raffineringskapasitet, for å nevne noe. Jeg forstår at folk sliter med å se forskjellen på råoljepris og pumpepris, men det er en forskjell.

Oljeanalytiker Thina Saltvedt i Nordea Markets ser en rekke variabler, blant annet høyere oljepris og avgifter, som trekker i retning av høyere bensinpris i 2017. Ingen påstår å vite i hvor stor grad disse faktorene slår ut på bensin og dieselprisen. Det vil vi forsøke å finne ut av. Og som du vil se på slutten av bloggen så har råoljeprisen litt å si, men avgiftsøkningen er omlag tre ganger viktigere.

Data

For å kunne svare på disse spørsmålene, trenger vi data og en analyse. Vi starter med å laster nødvendige R pakker.

I en tidligere blogg benyttet jeg SSB’s API for å laste ned månedlige data på salg av bensin og diesel. Først ut er salg av petroleumsprodukter (mill. liter) fra tabell 03687.

Deretter laster vi ned priser på drivstoff (kr per liter) fra tabell 09654.

Vi benytter Brent oljepris fra Quandl som representant for råoljeprisen.

Vi ønsker også å bruke valutakursen mellom norske kroner og US dollar. Denne laster vi ned fra Oanda. Det er begrensninger for hvor lang tidsserie en kan laste ned per gang (5 år). Derfor gjør vi dette i flere omganger.

Vi ønsker å ha med konsumprisindeksen fra SSB. Denne vil fungere som en proxy på inntekt i modellen.

Vi kan med rimelighet anta at drivstoffavgifter påvirker prisen, så vi tar med disse også. Vi benytter oss av data fra Norsk Petroleumsinstitutt. Vi leser dataene inn direkte. Dette er summen av CO_{2} avgift og veibruksavgift, populært kalt drivstoffavgift.

Til sist lager vi et datasett som vi kaller fuel. Vi benytter funksjonen ts.intersect som fusjonerer tidsserier av ulik lengde mhp dato, og fjerner manglende observasjoner.

plot of chunk unnamed-chunk-8

Vi har nå en dataserie på 258 observasjoner, fra jan 1995 til jun 2016. Kvantumstallene til SSB er ikke tilgjengelig for slutten av 2016 enda. Vi ser videre at i perioden så har volatiliteten til oljeprisen vært betydlig større enn volatiliteten til bensin og dieselprisen.

plot of chunk unnamed-chunk-10

Analyse

Vi benytter oss av en enkel invers etterspørselsmodell, der pris er avhengig variabel. Modellen er på logaritmisk form, slik at parametrene kan tolkes som elastisiteter, eller mer nøyaktig som prisfleksibiliteter. Det er ikke noen substitutter i modellen, da jeg benytter meg av antagelsen om at en bensinbil går dårlig på diesel, og vise versa. Kvantum antas å være endogent, derfor benyttes en 2SLS algoritme til estimeringen. Pris er en funksjon av etterspurt kvantum. Dynamikk er ivaretatt med en lagget avhengig variabel, et trendledd med et andre ordens polynom og et sett av dummyvariabler på måneder (januar er basis). Videre er konsumprisindeksen en proxy på inntekt. Vi har med våre tre økonomisk variabler av interesse i form av råolje med bruk av Brent oljepris, valutakursen mot US dollar, og de respektive drivstoffavgiftene er med.

Resultatene av analysen sees i tabellen under.

Avhengig variabel
log(Dieselpris) log(Bensinpris)
2SLS 2SLS
log(Pris Diesel)(t-1) 0.669***
log(Kvantum Diesel) -0.100**
log(Pris Bensin)(t-1) 0.557***
log(Kvantum Bensin) -0.118*
Trend -0.0003 0.0005
Trend x Trend 0.00000 -0.00000
Feb -0.016** -0.007
Mars 0.002 0.018*
April -0.018** 0.021**
Mai -0.011 0.030**
Juni 0.001 0.033**
Juli -0.007 0.043**
Aug -0.005 0.025
Sept 0.001 0.013
Okt 0.010 0.006
Nov 0.003 -0.006
Des -0.003 -0.001
log(Konsumprisindeks) 0.276 -0.070
log(Brentpris) 0.087*** 0.089***
log(USD/NOK) 0.036* 0.079***
log(Dieselavgift) 0.244***
log(Bensinavgift) 0.327***
Konstantledd -1.842** -0.577
Observations 257 257
R2 0.989 0.991
Adjusted R2 0.988 0.991
Residual Std. Error (df = 237) 0.023 0.021
Note: *p<0.1; **p<0.05; ***p<0.01

Resultat

Ettersom modellen inneholder en lagget avhengig variabel med parameter, \lambda, blir de langsiktige effektene i modellen
lik en estimert koeffisient multiplisert med (1-\lambda)^{-1}. Median lag, dvs den tiden det tar for et sjokk i en av de
eksogene variablene å påvirke prisen med 50% av den langsiktige effekten er for dieselprisen lik 1.72 måneder.
For bensin tar det 1.18 måneder. Vi ser at bensinprisen er marginalt mer dynamisk enn dieselprisen.

For råoljeprisen ser vi at en økning på 10% gir en økning i dieselprisen på 2.63%, mens effekten på bensin er 2%. Dieselprisen har altså en litt mer elastisk respons sammenlignet med bensinprisen.

Dollarkursen slår ulikt ut på de to prisene. En svekkelse på 10% av kronekursen mot US dollar gir en økning i dieselprisen på 1.08%, mens effekten på bensin er 1.77%. Her er bensinprisen marginalt mer elastisk enn dieselprisen.

Til sist ser vi på avgiftsøkningen. En 10% økning i (samlet) dieselavgift gir en økning i dieselprisen på 7.37%, mens effekten på bensin er 7.38%. Begge priser responderer altså likt i forhold til avgiftsøkningen.

Et interessante poeng er at effekten av avgiftsøkningen er større enn kostnadsandelen til avgiften (60%). Dette er forsåvidt ikke et uventet funn. I mikroøkonomi lærer vi våre studenter at en ‘skatt’ i et marked belastes den mest uelastiske delen av markedet. I dette tilfellet er etterspørselen etter drivstoff mer uelastisk sammenlignet med tilbudet. Dette kalles tax incidence.

Prognose for 2017

Saltvedt venter at råoljeprisen vil stige fra 45 dollar fatet i snitt i 2016 til 57 dollar fatet i 2017.
Dette er en økning på 26.67%. Det er vanskelig å si hvor kronekursen skal, men for prognosen vår kan vi f.eks. anta at krona svekker seg med 15% mot US dollar (gjennomsnitt av de to siste årene).

Regjeringen bestemte at veibruksavgiften på drivstoff i 2017 skulle øke med 20 øre per liter bensin,
mens økningen for diesel er 36 øre per liter. Økningen i av CO_{2}-avgift er på henholdsvis 7 øre og 8 øre for bensin og diesel. Dette tilsvarer samlet en 9.65% avgiftsøkning på diesel og 4.7% avgiftsøkning på bensinprisen.

Hvilken effekt har disse endringene på drivstoffprisen?

La oss se på en prognose basert på antagelsene over, og resultatene fra analysen.

Variabel %-vis Endring 2017 Effekt på Dieselpris Effekt på Bensinpris
Råolje 26.67 7.02 5.34
Valuta 15 1.61 2.66
Avgift 9.65 og 4.7 7.11 3.47
Sum 15.74 11.46

Med en gjennomsnittspris på diesel i 2016 på kr 11.66 pr liter utgjør disse antagelsene en økning i dieselprisene på kr 1.84. For bensin, som hadde en gjennomsnittspris på 13.55 utgjør dette kr 1.55. Avgiftsøkningen alene utgjør kr 0.83 og kr 0.47 på henholdsvis diesel og bensin. Ikke rart at det ble dyrere å tanke på nyåret!

1,647 total views, no views today

Tallet er…

Årets formtall er 17 påstår Norsk-Tipping i en annonse

Faksimile Norsk-Tipping

Tallet 17 ble trukket ut hele 18 ganger i fjorårets lottotrekninger. Annonsen er selvfølgelig ment å være markedsføring for lotto, men dersom det stemmer at noen tall er i “bedre form” enn andre, strider ikke dette mot lotto som et sannsynlighetsspill?

Den første lottotrekningen fant sted i 19 april 1986. På Norsk-Tipping sine nettsider kan en finne statistikk over antall ganger hvert tall er trukket https://www.norsk-tipping.no/tjenester/tallet-er?. Vi laster inn data fra første trekning til og med 9 januar i år.

I henhold til mine beregninger er det holdt 1603 lottotrekninger til nå. Ved hver trekning trekkes det 7 hovedtall. Alle tall skal ha lik sannsynlighet for å bli trekt ut, og sannsynligheten for at ett bestemt tall blir trukket i en trekning er da \frac{7}{34}.

Forventningsverdien i løpet av alle disse 1603 trekningene blir da:

Vi kan benytte en kji-kvadrattest for å teste hypotesen om at alle tallene er likt fordelt over trekningene.
Formelen er:

    \[\chi ^{2}=\sum \frac{(Observert-Forventet)^{2}}{Forventet}\]

Vi får da følgende kji-kvadratverdi.

Den tilhørende p-verdien er:

Ettersom p-verdien er større en et valgt signifikansnivå (f.eks. 5%) konkluderer vi med at frekvensen av lottotall er lik. Siden starten har ingen tall blitt trukket oftere eller sjeldnere ut sammenlignet med antagelsen at frekvensen er lik for alle tall.

Denne testen er bygget inn i R funksjonen chisq.test.

La oss bare se på trekningene i 2016.

plot of chunk unnamed-chunk-6

Også denne testen indikerer at frekvensen av alle tall er lik. p-verdien er det skraverte lilla området under fordelingen.

Vi ser at til tross for Norsk-Tippings påstand om at 3 og 33 er årets store tapere, ser vi at noen tall ligger over forventningsverdien, mens andre ligger under. Slik vil det alltid være. En må trekke ganske mange ganger før at fordelingen blir uniform.

plot of chunk unnamed-chunk-7

Det er altså (heldigvis) ingen grunn til å tro at noen tall er i bedre “form”“ enn andre. Kulene har ikke hukommelse, og neste lørdag er det like stor sannsynlighet for at hvert av tallene blir trekt, uavhengig av tidligere trekninger.

11,921 total views, 11 views today