Inledning

Det börjar närma sig avgörandet i Superettan 2019 och tyvärr är GAIS i allra högsta grad med i bottenstriden och riskerar att åka ur. I denna text kommer jag redovisa flera lags trender och uppskattningar av dess slutpoäng. All data kommer från wyscout. För att kunna göra kvalificerade gissningar för lagens poäng i återstående matcher har jag satt ihop en relativt enkel statistisk modell. Jag antar att varje lags sannolikhet att vinna, spela oavgjort eller förlora varierar slumpmässigt från match till match men inte ändras systematiskt under året. Vid speciella händelser, eg tränarbyten, tillåts sannolikheterna dock ändras. Innan första matchen antar vi att sannolikheten för att vinna, spela oavgjort och förlora är 1/3 för alla lag. Efter varje match uppdateras dessa sannolikheter enligt en vedertagen statistisk metod för att får en bättre uppfattning kring sannolikheten för vinst, oavgjort och förlust. Detta upprepas för varje spelad match och efter sista spelade matchen kan vi gör an kvalificerad gissning på sannolikheten för alla möjliga slutpoäng.

Teknisk beskrivning

I följande text förekommer begreppet slumpvariabel återkommande. En slumpvariabel är inte ett tal utan beskrivning av något som vi inte har exakt kunskap om. Att kasta en 6-sidig kan beskrivas som en slumpvariabel med 6 möjliga utfall. 1 av dessa 6 utfall realiseras när vi kastar tärningen och varje utfall inträffar med sannolikhet 1/6. Realiserade utfall brukar benämnas med små bokstäver. T ex är utfallet \(x = 3\) ett möjligt utfall för slumpvariabeln \(X\) som beskriver ett tärningskast. Vi kan förvänta oss att genomsnittet av oändligt många tärningskast kommer att var \(25/6 = 3.5\). Detta förväntade, teoretiska, genomsnittet kallas slumpvariabelns väntevärde och brukar skrivas \(EX\) men kommer här att skrivas som \(\overline{x}\) för att påminna om tolkningen som ett teoretiskt genomsnittet.

Givet ett visst lag beskriver slumpvariabeln \(\pmb{Q} =(\pmb{Q} _W, \pmb{Q} _D, \pmb{Q} _L)\) sannolikheten att vinna, spela oavgjort respektive förlora. För en given match kan \( \pmb{Q} _W \), \( \pmb{Q} _D \) och \( \pmb{Q} _L \) anta vilka värden som helst, \( q=( q _W, q _D, q _L)\), mellan 0 och 1, men \( q _W + q _D + q _L = 1\) gäller alltid. Innan första matchen kan vi bara gissa mera eller mindre kvalificerat vilka egenskaper \( \pmb{Q} \) har. Efter första matchen kan vi med Bayes teorem revidera \( \pmb{Q} \). Efter nästa match kan vi återigen revidera \( \pmb{Q} \) o s v. På så sätt kan vi över tiden erhålla en bättre och bättre uppfattning om \( \pmb{Q} \), d v s sannolikheten för att laget skall vinna, spela oavgjord, eller förlora. Ju fler matcher som spelas desto säkrare blir vår kunskap om \( \pmb{Q} \).

Givet \( \pmb{Q} \) går det att simulera resten av årets matcher genom att för varje kvarvarande match slumpmässigt dra sannolikheterna för vinst, oavgjort och förlust. Sannolikheten att dra en viss kombination ges av \( \pmb{Q} \). Givet dessa sannolikheter, en kombination per återstående match, slumpas vinst, oavgjort, eller förlust baserat på respektive sannolikhet. Sedan läggs poängen i varje match till lagets initiala poäng. Upprepas detta väldigt många gånger kommer sannlikheten för att lagets slutpoäng vara proportionerligt mot antalet gånger slutpoängen erhålls.

Det finns flera svagheter med denna model. Först och främst tar den inte hänsyn till all information, t ex motståndare, hemma-, bortamatch, avstängda spelare m m. Fördelen är att den är enkel och inte är beroende av godtyckliga antagenden eller modellformuleringar.

Kärnan i modellen är slumpvariabeln \( \pmb{Q} \) som sammanfattar sannolikheterna för de tre olika utfallen vinst, oavgjord förlust. Inför ett lags första match kan vi göra bättre eller sämre gissningar kring \( \pmb{Q} \). Här antar vi att alla möjliga sannolikheter för vinst, oavgjort, och förlust har samma sannolikhet. Det innebär i praktiken att sannolikheten för vinst, oavgjort och förlust är lika med 1/3, för alla lag första matchen. D v s vi tror, innan säsongen, att alla lag har lika stor chans att vinna, spela oavgjort eller förlora sina matcher.

GAIS resultat 2019

För att göra det lite tydligare börjar vi med det mest intressanta laget, GAIS. Figur 1 visar modellens uppskattning av den förväntade sannolikheten för vinst (\( \bar{ q } _W)\), oavgjort (\( \bar{ q } _D)\) och förlust (\( \bar{ q } _L)\) efter varje match. Eftersom GAIS började säsongen med två oavgjorda matcher sticker också den förväntade sannolikheten för oavgjort upp mot 1 direkt samtidigt som som de förväntade sannolikheterna för vinst och förlust dyker ner mot noll. Längre in på säsongen när GAIS också vunnit och förlorat går sannolikheterna mot mera rimliga värden.

Figur 1: GAIS - Superettan 2019

Förklaring: \( \bar{ q } _W\) - Förväntad sannolikhet för vinst (grön). \( \bar{ q } _D\) - Förväntad sannolikhet för oavgjort (blå). \( \bar{ q } _L\) - Förväntad sannolikhet för förlust (röd). För alla 3 sannolikheterna ger de tunnare linjerna det 95% konfidensintervallet. Källa: wyscout.

Modellen ger inte bara de förväntade sannolikheterna för vinst, oavgjort och förlust (de tjocka linjerna i figuren ovan). Modellen ger hela fördelningen, d v s sannolikheten för varje möjlig kombination av sannolikheterna för vinst, oavgjort och förlust. Här är blir det lite klurigare, men \( \bar{ q } _W\), \( \bar{ q } _D\) och \( \bar{ q } _L\) är det teoretiska genomsnittliga sannolikheten (eg väntevärdet) över väldigt många (hypotetiska) matcher vid en given tidpunkt. Kurvorna \( P( q _W) \le 2.5\% \) och \( P( q _W) \le 97.5\%\) ger tillsammans ett ett 95%-igt konfidensintervall. D v s sannolikheten för att vinst i vilken match som helst ligger med 95%s säkerhet mellan dessa kurvor. Konfidensintervallet för vinst är ett mått på hur mycket sannolikheten för vinst varierar mellan varje match. Denna variation fångar alla de faktorer modellen inte tar hänsyn till, t ex motståndarlag, avstängda spelare m m.

Ett exempel kan förtydliga. Efter GAIS 4e match är \( P( q _W) \le 97.5\% \approx 0.9 \) och \(P( q _W) \le 2.5\% \approx 0.1 \) vilket skall tolkas som att vi kan vara 95% säkra på att sannolikheten för oavgjort är större än 10% men mindre än 90% för GAIS i de matcher de spelar. Följer man kurvorna för \( P( q _W) \le 97.5\% \) och \( P( q _W) \le 2.5\% \) krymper avståndet. Vid tidpunken då Bosko Orovic fick lämna hade konfidensintervallet för oavgjort minskat från ca [0.10, 0.90] till ca [0.1 - 0.6]. Minskningen i konfidensintervallet visar bara att ju flera matcher vi ser resultatet i, desto mer precisa blir modellens gissningar av sannolikheten för vinst, oavgjort och förlust. Notera dock att vi inte kan förvänta oss ett exakt värde på dessa sannolikheter. All information som modellen ignorerar och som varierar mellan matcher, som t ex motståndarlag, hemma-, bortamatch, avstängda spelare m m gör att vi aldrig kan få ett exakt mått på sannolikheterna för vinst, oavgjort och förlust.

Efter de två vertikala streckade linjerna, som visar när Patrik Ingelsten tog över efter Bosko Orovic, gör sannolikheten för vinst ett stort hopp efter vinsten mot Degerfors i Ingelstens första match. Att hoppet är så stort är för att jag gör antagandet att när Patrik Ingelsten tar över har han samma förväntade sannolikheter att vinna spela oavgjort eller förlora som Bokso Orovic efter hans sista match, men vi "rensar modellens minne" av alla tidigare matcher. På samma sätt som konfidensintervallet för Boskos sannolikheter är stort i börjar av säsongen är också konfidensintervallet för Patrik Ingelsten sannolikheter stora initialt.

GAIS slutpoäng 2019

Givet \( \pmb{Q} \) vid en given tidpunkt går det att simulera lagets slutpoäng enligt följande: 1) För varje återstående match slumpa fram en realiserad sannolikhet, \( q=( q _W, q _D, q _L)\), där sannolikheten för ett visst värde på \( q\) ges av \( \pmb{Q} \). 2) För varje återstående match och tillhörande \( q\), simulera resultatet av matchen enligt sannolikheterna \( q _W\), \( q _D\) och \( q _L\). 3) Summera antalet poäng från matcherna och lägg till lagets nuvarande poäng. Upprepa punkterna 1) - 3) väldigt många gånger och räkna hur många gånger varje slutpoäng simulerats fram. Sannlikheten för att laget skall få en av dessa slutpoäng är proportionerligt mot antalet gånger samma slutpoäng erhålls. Denna procedur ger alltså sannolikheten för varje möjlig slutpoäng. Figur 2 visar resultatet av sådana simuleringar för GAIS vid lite olika tillfällen under säsongen.

Figur 2: GAIS - Slutpoäng 2019

Förklaring: I varje figur ger de blå staplarnas höjd sannolikheten för alla (rimliga) slutpoäng. Källa: wyscout.

Det första stapeldiagrammet i Figur 2 visar GAIS uppskattade sannolikheten för varje slutpoäng i intervallet 15 till 50 poäng efter två matcher. Första och andra matchen slutade oavgjort. Vår modell uppskattar sannolikheten att GAIS skall nå 31 poäng till ca 10%. Denna slutpoäng är också den mest troliga Den förväntade sannolikheten för oavgjort efter två matcher är ca 80% och den förväntade sannolikheten för vinst och förlust är ca 10%. Det är därför rimligt att anta att modellen har simulerat många oavgjorda matcher och ett mindra antal vunna och oavgjorda matcher och på sätt oftast hamnat på slutpoängen 31.

Efter 5 spelade matcher har GAIS vunnit en match, spelat tre oavgjorda och förlorat en match. Den förväntade sannolikheten för oavgjort har minskat till ca 55% och både sannolikheten för vinst och oavgjort har ökat till ca 27-28% vardera. P g a 3 poängssystemet är det bättre att vinna en match och förlora en match än att spela två oavgjorda. Därför har staplarna flyttats till höger jämfört med staplarna efter 2 matcher. D v s sannolikheten för en högre slutpoäng har ökat. Den troligaste slutpoängen är 35 poäng och ges av den högsta stapeln.

När Bosko Orovic fick lämna GAIS återstod det 16 matcher. GAIS svit med 5 raka förluster och 6 raka matcher utan vinst syns tydligt i stapeldiagrammet med 16 matcher kvar. De högsta staplarna är nu centrerade runt 27-28 poäng. En slutpoäng som i 2 av de 3 senaste säsongerna definitivt skulle innebära degradering utan kvalspel. I skrivande stund har Bosko Orovics ersättare, Patrik Ingelsten lett GAIS till 2 initiala segrar följt av 4 raka förluster. Detta ger ett snitt på ca 6/7 poäng per match. Med 10 matcher kvar ger det en slutpoäng på 19+10*6/6=29 vilket modellen och ger som den troligaste slutpoängen. Modellen har inte sett GAIS spela oavgjort sedan Patrik Ingelsten togöver och simulerar nästan enbart vinser och förluster och slutpoängen är därför centrerade kring multipler av 3.

Bottenlagens slutpoäng

I Figur 3 visas alla bottenlagens trender för sannolikheten för vinst, oavgjort och förlust. Analysen är gjord med samma statistiska modell som beskrevs i mera detalj för GAIS tidigare. I de fall lagen har bytt tränare har jag börjat om med en ny modell men använt föregående modells förväntade sannolikheter för vinst, oavgjort och förlust som startvärden.

Figur 3: Bottenlagens trender

Förklaring: \( \bar{ q } _W\) - Förväntad sannolikheten för vinst (grön). \( \bar{ q } _D\) - Förväntad sannolikheten för oavgjort (blå). \( \bar{ q } _L\) - Förväntad sannolikhet för förlust (röd). Källa: wyscout.

Sannolikheterna för GAIS och Öster är de som variera mest efter sommarfönstret. Detta är förväntat då båda lagen har bytt tränare och vi börjat om med en ny modell. När det gäller sannolikheten att vinna matcher kan man inte se något klart trendbrott för något av bottenlagen. Sannlikheten att vinna faller mer eller mindre stadigt för alla lagen. När det gäller sannolikheten att förlora finns det bara ett lag som uppvisar en tydlig trend. GAIS förväntade sannolikhet att förlora har stadigt ökat i och med 4 raka förluster.

I Figur 4 visas alla bottenlagens förväntade slutpoäng. Ordningen följer placering med 10 omgångar kvar. De senaste 3 åren har laget på översta negativa kvalplatsen skrapat ihop i genomsnitt (32+36+32)/3=33.3 poäng. Från Figur 4 framgår det att Syrianska FC troligen når upp till 33 poäng i år (d v s minst 50% av staplarnas area ligger till höger om 33 poäng). Övriga lag ser ut att få det tufft att nå 33 poäng. Skall vi tro våran modell kommer årets lag på översta negativa kvalplatsen vara GAIS med ca 30 poäng. Notera dock att GAIS har en relativt stor osäkerhet i slutpoängen (stapelpyramiden är mindre spetsig).

Figur 4: Bottenlagens slutpoängen

Förklaring: I varje figur ger de blå staplarnas höjd sannolikheten för slutpoängen på x-axeln. Källa: wyscout.

Värt att notera är att modellen säger att det är troligt att Öster kommer passera Brommapojkarna och knipa en av kvalplatserna, medan Brommapojkarna och Frej åker direkt ner i Division 1. GAIS ser ut att få försöka kvala sig kvar tillsammans med Öster.

MED RESERVATION FÖR FEL!

Skapad 2019-08-24 11:28:33 av Positively 4th.

Lägg till ny kommentar

  • Tillåtna HTML-taggar: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Rader och stycken bryts automatiskt.
  • Webbadresser och e-postadresser görs automatiskt om till länkar.