Inledning

I min förra text Bosko vs Westman framgick det att GAIS under Boskos Orovic ledning systematiskt gör färre mål än förväntat utifrån de chanser man skapar. I denna text tänkte jag försöka undersöka närmare vad det kan bero på. All data kommer från wyscout.

Förväntat antal mål (xG), är ett mått sannolikheten att en målchans skall resultera i mål. I de första versionerna av xG togs bara hänsyn till var på planen, i relationen till motståndarmålet, försöket gjordes. Jag har inte lyckats hitta någon riktig förteckning av vad wyscout inkluderar i sin modell för att beräkna xG. Exempel på faktorer som är vanliga finns i denna blogpost och en icke-teknisk text från wyscout finns här.

Boskoeffekten

Som framgår av Figur 2 i Bosko vs Westman har GAIS under alla säsonger som Bosko Orovic lett laget gjort klart färre mål en vad som kan förväntas utifrån xG. Det är detta vi i denna text kallar Boskoeffekten. Störst gap har det varit våren 2019 då GAIS igenomsnitt gjort 0.5 färre målen än vad förväntade mål förutsäger. Minst gap har det varit hösten 2018 då motsvarande gap var ca 0.1 mål. Syftet med denna text är att försöka undersöka orsaken till Boskoeffekten,

I enskilda matcher går det att förklar avvikelse mellan gjorda mål och förväntat antal mål med tur eller otur. Att Boskoeffekten skulle bero på otur är dock tveksamt då man under 4 raka säsonger alltid gjort färre mål än förväntat.

En förklaring är att de spelare som får målschanser i GAIS är för dåliga avslutare. Detta är tolkningen som Anno 1904 gjorde i sin genomgång av xG för alla lag efter omgång nio av Superettan 2019, här.

En andra möjlig förklaring är att det verkligen är något speciellt med Bosko eller Boskos spelstil som inte xG kan fånga. Det skulle t ex kunna vara ett aggressivt pressspel som gör att spelarna är för trötta när de får chans att avsluta, eller ett ledarskap som sätter för hög press på spelarna. Ev skulle det också kunna vara att Boskos anfallsspel är ovanligt och att wyscouts modell därför inte tränats tillräckligt ofta med data för denna typ av anfallsspel.

En tredje möjlighet skulle kunna vara att det är något med GAIS som klubb Kanske "sitter det i väggarna" på GAIS-gården. Kanske är det GAIS-klacken som med verbala tillrop sätter för stor press på spelarna så att de presterar sämre i avgörande lägen. Kanske är det GAIS supportrars eldande av bengaler och den giftiga röken skapar hjärnskador med försämrad koncentrationsförmåga...

Lite mera om xG

För att kontrollera att wyscouts xG fungerar har jag plockat ut alla matcher för de flesta lag som spelat i Allsvenskan eller Superettan åren 2016 - 2019. Det blev totalt 3372 matchrader (varje match är med på som 2 rader, 1 rad per lag). För varje år och lag räknade jag ut genomsnittet av xG och antal gjorda mål. Sedan ritade jag in detta i Figur Figur 1.

Figur 1: xG och Mål

Förklaring: Mål - Antal gjorda mål i snitt per år och lag. xG - Förväntade antal mål i snitt per år och lag. Källa: wyscout.

Lite mera om xG

För att lättare kunna prata om hur bra xG är som mått, jämför med gevärsskytte. Varje match är som ett gevärsskott där mitt i prick motsvaras av att xG är lika med antal gjorda mål för spelaren eller laget. Två grundläggande faktorer påverkar resultatet: Inställningen av siktet och skyttens kompetens. Är siktet felaktigt inställt avviker skyttens träffar från mitten systematiskt åt något håll, d v s genomsnittspoängen över många skott blir lägre. En sämre skytt har en mer utspridd träffbild men genomsnittet av alla träffar, vid många skott, bör är ändå vara nära mitten av tavlan. Ett felaktigt inställt sikte går att upptäcka och korrigera genom att titta på den genomsnittliga avvikelsen från centrum. Skyttens förmåga kan bedömmas genom att titta på träffarnas spridningen, men är är svårare att förbättra.

Använder vi samma resonemang kring xG skall genomsnittsfelet vara nära noll och spridningen i skillnaden mellan antal mål och xG vara liten. Den streckade gröna linjen Figur Figur 1 motsvarar mitt i prick för en skytt. Om wyscouts xG sikte är korrekt inställt skall xG ligga jämnt fördelade runt denna linje. Med blotta ögat ser det bra ut och de bekräftas också av den heldragna röda linjen som visar minsta kvadraten passningen för punkterna i figuren (d v s den räta linje som minimerar det vertikala "avståndet" mellan linjen och punkterna). Det faktum att den heldragna röda linjen ligger mycket nära den streckade gröna visar att felet wyscouts xG i genomsnitt är nära noll. Alltså verkar wyscout ställt in sitt sikte korrekt! Eftersom jag inte har tillgång till någon annan xG modell är det svårt att utvärdera spridningen i wyscouts xG, men ett mera kompetent xG skulle ha punkterna samlade tätare kring den streckade gröna linjen.

Mål och xG för GAIS spelare 2016 - 2019

För att undersöka Boskoeffekten har jag plockat ut matchdata för matcher med spelare som har spelat i GAIS. Detta gör det möjligt att jämföra, för varje spelare, hur skillnaden i antal mål och förväntade antal mål (Goal - xG) skiljer sig år med och utan Bosko som tränare. Genomsnittsfelet i xG har räknats ut för matcher med och utan Bosko som tränare. Resultatet illustreras i I Figur Figur 2. Som föväntat hamnar anfallare (högre snittvärde för xG) längre till höger än försvare (lägre snittvärde för xG). Det framgår också att den GAIS spelare som har högst xG är Ašćerić medan Lindberg, jämfört med andra offensiva spelar, har ett lågt xG. Notera också att spelare som ofta är avbytare natuligtvis får ett lägre xG.

Figur 2: Analys av spelare i GAIS

Förklaring: Goal - xG - Skillnaden mellan förväntat antal mål och gjorda mål. Genomsnittet är taget för varje spelares matcher med och utan Bosko som tränare. Källa: wyscout.

Vill man söka stöd för att Boskoeffekten verkligen kommer från Bosko kan man titta närmare på Edin Hamidovic. Här finns 3 intressanta observationer: 1) Både med och utan Bosko som tränare har han ett högt xG, igenomsnitt 0.4 mål per match. Om han vore en genomsnittssplelar bör han då göra ca 12 mål under en säsong i Superettan om han spelar alla matcher. 2) Edin verkar dock inte vara en genomsnittlig eftersom han i genomsnitt gör mellan 0.06 och 0.27 mera mål per match än förväntat från hans xG. 3) Med Bosko som tränare har Edin ett individuellt xG per match på drygt 0.4 men med andra tränare drygt 0.65. Om Edin spelade alla matcher en säsong i Superettan motsvarar de då ca 7-8 färre mål med Bosko som tränare. För ett lag som GAIS med många oavgjorda och många uddamålsförluster kan det bli en hel del tappade poäng. På samma sätt kan man i figuren titta på J Westermark, L. Mijaljevićs, L. Pllanas som alla gör färre mål, jämfört med xG med Bosko som tränare.

Ett problem med ovanstående sätt att resonera är att vi bara kan ta hänsyn till en faktor, i detta fall huruvida Bosko var tränare för spelaren. Även om xG i teorin bör täcka in många faktorer finns det flera faktorer förutom Bosko som kan påverka sannolikheten för att en spelare gör mål på sina målchanser. Är det tillexempel så att det är lättare eller svårare att förvalta en målchans i Division 1 jämfört med en liknande målchans i Allsvenskan. Om vi fortsätter att fokuserar på Edin så kommer hans genomsnitts xG med Bosko som tränare från matcher i bl a Divison 1. Hans genomsnitts xG utan Bosko som tränare kommer från matcher i Superettan och Division 1. Är det verkligen Bosko som gör att Edin har lägre xG-fel under sin tid i GAIS? Eller beror det på att han i flera matcher spelat i en lägre division och det är både lättare att förvalta målchanser i lägre divisioner?

Statistisk analys

Att för varje spelare jämföra felet i xG med och utan Bosko som tränare är tidskrävande och komplicerat. Med detaljerad matchdata för matcher i Allsvenskan - Division 1 och Svenska Cupen under perioden 2016-2019 kan vi ta hjälp av regressionsanalys för att analysera Boskoeffekten: Att GAIS med Bosko som tränare konsekvent har gjort färre mål en förväntat utifrån xG. Vi utgår från att skillnaden mellan gjorda mål och xG beror på flera parametrar enligt en förutbestämd formel linjär och en slumpfaktor. Har vi valt korrekt formell och gjort rätt antaganden om slumpfaktor kan vi uppskatta hur mycket och på vilket sett varje faktor påverkar skillnaden mellan gjorda mål och xG. Parametrarna är i denna analys t ex i vilken division spelades matchen, var det en bortamatch, var Bosko tränare, spelade spelaren i GAIS m f l. Det som begränsar oss i hur många parametrar vi kan uppskatta är hur många matcher vi har data för. Har vi för få matcher jämfört med antal parametrar får vi resultat som är osäkra och inte kan säkerställas statistiskt

Varje observation/rad i datasetet är detaljerad data för en spelare i en match. Här finns bland annat antal gjorda mål, xG, tävling (t ex Svenska Cupen, Allsvenskan m m), spelarens position m m. Följande faktorer skall vara med för att undersöka orsaken till Boskoeffekten: 1) Vilken spelare är det (individeffekt). 2) Har spelaren Bosko som tränare. 3) Spelar spelaren i GAIS. Dessa är våra primära faktorer för att förklara Boskoeffekten. Vilken spelare det är har jag begränsat mig till offensiva spelare som spelat i GAIS (offensiva spelare har högre xG och bidrar mera till lagets xG). För att "kontrollera" för andra effekter som kan påverka felet i xG tar vi också med: A) Division/tävling. B) Spelarens position under matchen. C) Bort eller hemmamatch.

Resultat 1: Boskoeffektens faktorer

                            OLS Regression Results                            
==============================================================================
Dep. Variable:        Q('Goals - xG')   R-squared:                       0.002
Model:                            OLS   Adj. R-squared:                  0.001
Method:                 Least Squares   F-statistic:                     2.777
Date:                Mon, 15 Jul 2019   Prob (F-statistic):           3.08e-07
Time:                        22:32:25   Log-Likelihood:                -5121.4
No. Observations:               30892   AIC:                         1.031e+04
Df Residuals:                   30859   BIC:                         1.058e+04
Df Model:                          32                                         
Covariance Type:                  HC0                                         
===========================================================================================
                              coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------------
Intercept                   0.0057      0.006      0.933      0.351      -0.006       0.018
Q('Defender')              -0.0061      0.006     -1.063      0.288      -0.017       0.005
Q('Borta')                 -0.0021      0.003     -0.645      0.519      -0.008       0.004
Q('A. WEDE (90)')          -0.0444      0.026     -1.679      0.093      -0.096       0.007
Q('J. WESTERMARK (93)')     0.0424      0.069      0.616      0.538      -0.093       0.177
Q('Bosko')                 -0.0007      0.021     -0.033      0.973      -0.043       0.041
Q('GAIS')                  -0.0159      0.020     -0.800      0.423      -0.055       0.023
Q('MAHMOUD EID (93)')       0.0371      0.061      0.605      0.545      -0.083       0.157
Q('N. AŠĆERIĆ (91)')       -0.0950      0.091     -1.046      0.295      -0.273       0.083
Q('J. LINDBERG (89)')      -0.0408      0.062     -0.660      0.509      -0.162       0.080
Q('E. WESTERMARK (92)')    -0.0087      0.015     -0.565      0.572      -0.039       0.022
Q('L. PLLANA (96)')        -0.0726      0.030     -2.435      0.015      -0.131      -0.014
Q('R. ROSENQVIST (96)')    -0.0398      0.014     -2.871      0.004      -0.067      -0.013
Q('Superettan')            -0.0019      0.004     -0.507      0.612      -0.009       0.005
Q('C. WEDE (90)')          -0.0463      0.028     -1.653      0.098      -0.101       0.009
Q('J. SVAHN (84)')          0.0124      0.031      0.404      0.686      -0.048       0.073
Q('A. ANGELIN (90)')        0.0139      0.035      0.401      0.689      -0.054       0.082
Q('A. WÄNGBERG (93)')      -0.0326      0.033     -0.982      0.326      -0.098       0.032
Q('S. SILVERHOLT (93)')     0.1088      0.068      1.611      0.107      -0.024       0.241
Q('Midfielder')            -0.0030      0.006     -0.476      0.634      -0.015       0.009
Q('E. HAMIDOVIC (93)')      0.1440      0.076      1.905      0.057      -0.004       0.292
Q('K. BOHM (95)')          -0.0042      0.044     -0.095      0.924      -0.090       0.082
Q('A. ÖSTLING (93)')        0.0319      0.027      1.187      0.235      -0.021       0.085
Q('L. MIJALJEVIĆ (91)')     0.0661      0.060      1.102      0.270      -0.051       0.184
Q('J. BARNY (89)')         -0.0346      0.017     -2.082      0.037      -0.067      -0.002
Q('Winger')                 0.0095      0.008      1.198      0.231      -0.006       0.025
Q('A. HARVEY (98)')        -0.0252      0.022     -1.161      0.246      -0.068       0.017
Q('N. ANDERSÉN (92)')      -0.0145      0.013     -1.114      0.265      -0.040       0.011
Q('D. DJURIC (84)')         0.0139      0.037      0.380      0.704      -0.058       0.086
Q('A. KABASHI (97)')        0.0664      0.071      0.932      0.351      -0.073       0.206
Q('Division 1')             0.0225      0.006      3.680      0.000       0.011       0.034
Q('P. RANĐELOVIĆ (90)')    -0.0047      0.023     -0.202      0.840      -0.050       0.041
Q('Svenska Cupen')          0.0059      0.007      0.906      0.365      -0.007       0.019
==============================================================================
Omnibus:                    14727.127   Durbin-Watson:                   2.022
Prob(Omnibus):                  0.000   Jarque-Bera (JB):           170906.748
Skew:                           2.003   Prob(JB):                         0.00
Kurtosis:                      13.804   Cond. No.                         63.5
==============================================================================

Warnings:
[1] Standard Errors are heteroscedasticity robust (HC0)

Förklaring: Kolumnen coef ger varje faktors uppskattade effekt på felet i xG (Goal - xG) men endast om kolumnen P>|z| är liten (säg < 0.05) är effekten (statistiskt) signifikant.

Om vi börjar med att titta på faktorn Division 1 så är är koefficienten positiv och signifikant. Det skall tolkas som att wyscouts xG tenderar att underskatta förväntat antal mål i matcher i Division 1. Genom att addera på Division 1 koefficienten värde till xG om matchen är en Division 1 skulle vi generellt minska skillnaden i xG och antal mål. Det finns alltså utrymme att förbättra wyscouts xG mått, i all fall för svenska Division 1 matcher. Notera dock att vi inte har stöd för samma slutsats för om matchen är en cupmatch. Även om koefficienten för Svenska Cupen är positiv är den inte signifikant skilt från 0 (P>|t| >> 0.05). Vilket skall tolkas att koefficienten positiva värde är mycket osäker. Samma sak gäller för matcher i Superettan och matcher på bortaplan. Inte heller spelarens position verkar påverka felet i xG och därför inte kunna användas för att minska felet i förväntat antal mål.

Nu till Boskoeffekten! Vår första hypotes var att GAIS spelare är för dåliga avslutare och därför match efter match gör färre mål än förväntad, d v s Goals - xG är generellt negativt. Av de spelare som spelat i GAIS med Bosko tränare är det 3 spelare vars koefficienter är signifikanta, J. Barny, P. Rosenqvist och L. Pllana. Alla dessa spelar har negativa koefficienter d v s de är sämre avslutare än genomsnittsspelaren. Om vi är lite mera generösa med våra tolkningar och släpper kravet på 5% signifikans (P>|t| < 0.05) och istället sätter gränsen t ca 10% (P>|t| < 0.1) så har vi istället 2 (+ S. Silverholt och E. Hamidovic) bättre och 5 (+A. Wede och C. Wede) spelare som verkar vara sämre än genomsnittet när det gäller att förvalta målchanser. Noterbart är att av de spelare som idagsläget spelar i GAIS har 7 spelare än negativ koefficient (sämre avslutare) och 3 positiv koefficient (bättre avsliutar). Av de senare tre är 2 skadade (Angelin och Östling) och Kabashi har lämnat klubben. Det bör här noteras att det finns en viss godtycklighet i valet av spelare, jag valde spelare som jag tycker bidrar offensivt. Från data tillgänglig verkar alltså hypotesen att GAIS låga antal gjorda mål i förhållande till xG beror på dåliga avslutare rimlig.

Vår andra hypotes var att det är Bosko som på grund av spelsätt eller ledarskap är orsaken till att antal gjorda mål inte når upp till förväntat antal enligt xG. Den klart insignifikanta koefficienten för Bosko ger inget stöd för denna hypotes. Inte heller hypotesen att det är något med klubben GAIS får något vidare stöd från data. Koefficienten för GAIS är visserligen negativ men insignifikant.

Den statistiskt bevandrade kanske noterar det låga R^2 värdet. Förutom att det troligen är svårt att förklara felet, annars skulle wyscout själva förbättrat sin modell, så har vi fokuserat på faktorer som är kopplade till GAIS. Eftersom GAIS matcher bara utgör bara en liten andel av alla matcher som är med i datan kan vi inte förvänta oss någon högre förklaringsgrad.

Tidigare i texten tittade vi närmare på Edin Hamidovics xG och fel i xG. Det spekulerades i huruvida hans höga men underskattade xG berodde på att en del av hans matcher är i Division 1. Genom att titta på Edins xG säsong för säsong står det klart att hans höga xG inte beror på hans Division 1 matcher. Hans xG per säsong är: 0.34 i Husqvarna 2017, 0.49 i GAIS 2018 och 0.66 i GAIS/Jönköping Södra 2019. Tittar vi på Edins koefficient är den nästan signifikant på 5% nivån och klart positiv. En kvalificerad gissning är därför att Edin är den bästa målgörare GAIS haft de senaste åren.

Slutsats och reservationer

Syftet med denna statistiska analys var att förstå anledningen till att GAIS under Boskos Orovic i två och ett halvt år gjort färre mål än förväntat utifrån xG. Tre förklaringar föreslogs: 1. GAIS spelare är dåliga avslutare. 2. Bosko Orovic spelsätt eller ledarstil gör att hans spelare underpresterar i avgörande lägen eller inte "passar" inte wyscouts xG-mått. 3. Det "sitter något i väggarna på GAIS-gården" som gör att GAIS spelare prestera sämre i avgörande lägen.

Först verifierades att xG i genomsnitt är rätt. I genomsnitt varken överskattar eller underskattar xG antal mål. Sedan användes en linjär regressionsmodell för se vilken av de 3 förklaringarna som kan verkar mest rimlig. Resultatet från regressionsanalysen gav bara stöd åt den första förklaringen, att GAIS spelare är för dåliga avslutare. Tillåter man sig att spekulera lite och gissar på att GAIS spelare inte bara är sämre målgörare utan sämre i allmänhet kan man fundera på om Bosko, trots dåliga spelare, lyckats skapa ett spel som skapar tillräckligt många målchanser för att klara sig kvar i Superettan.

Notera dock följande: Jag har inte jobbat med statistik och regressionsanalys på drygt 20 år. Mina kunskaper är dimmiga och mina formuleringar inte kristallklara. Jag är medveten om att analysen har sina brister men jag hoppas att jag undvikit de största statistiska fallgroparna.

MED RESERVATION FÖR FEL!

Skapad 2019-07-15 22:32:25 av Positively 4th.

Lägg till ny kommentar

  • Tillåtna HTML-taggar: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Rader och stycken bryts automatiskt.
  • Webbadresser och e-postadresser görs automatiskt om till länkar.