Dai polpi per Brasile 2014 alle foreste per Russia 2018: l’evoluzione dell’arte di predire… la Germania vincitrice dei mondiali (di nuovo)

I mondiali di calcio sono l’evento sportivo più seguito del pianeta. E, nonostante l’assenza dell’Italia, Russia 2018 non fa eccezione. Riuscire a prevedere chi potrebbe vincerlo è di enorme interesse, soprattutto nell’ambito delle scommesse.

Un modo per farlo potrebbe essere quello di aggregare le previsioni dei vari bookmaker, ovvero il “bookmark consensus”, che ha spesso ottenuto buoni risultati. È ciò ha fatto, ad esempio, l’Università di Innsbruck, simulando i singoli incontri tramite albero decisionale, basandosi per l’appunto sulle percentuali di 26 bookmaker online.

Come evidenziato dal grafico, questo metodo ha previsto una vittoria del Brasile al 16,6%, seguita a breve distanza dalla Germania al 15,8%. Questo metodo aveva correttamente previsto Francia e Portogallo come finalisti degli scorsi Europei 2016, fallendo solo il risultato della finale: era favorita la Francia al 69%, ma vinse il Portogallo, anche se solamente ai rigori. Tuttavia oggi siamo nell’era dei Big Data. Potrebbe aver senso sperimentare l’uso degli analytics anche in questo campo.

Quattro anni fa infatti la Germania non trascurava nulla per vincere i mondiali, e oltre alle macumbe del polpo Paul, aveva portato avanti una preparazione rigidamente seguita e analizzata dai data scientists, facendo uso estensivo di SAP.

Dagli analytics sul campo agli analytics per le previsioni il passo è breve, e stavolta invece dei polpi  di Groll et al., con questo studio i tedeschi hanno pensato di farsi aiutare da uno degli algoritmi di classificazione più utilizzati nell’ambito del machine learning: ovvero le foreste casuali (più comunemente Random Forest). I risultati sono poi stati comparati ad altri metodi come regressione e ranking.

Alberi decisionali e Random Forest

Le random forest appartengono alla famiglia degli alberi decisionali, i quali sono algoritmi che prendono il nome dalla caratteristica struttura ad albero, nel quale ogni ramo (nodo) rappresenta una scelta binaria (si/no), e in cui le foglie che si trovano in fondo sono il risultato ottenuto dalla concatenazione di tali decisioni.

Un grosso problema degli alberi decisionali però è che con l’aumentare della profondità, aumentano la distorsione e l’overfitting: ottimi risultati con i dati di training, ma scarsa capacità di generalizzare. Le random forest approcciano il problema creando una quantità di alberi (la Random Forest appunto), utilizzando sottoinsiemi casuali dei dati (bootstrap dataset) e variabili. Una volta creata la foresta, si può determinare la precisione del modello facendo passare attraverso gli alberi tutti i dati non inclusi nel bootstrap dataset (dati Out-Of-Bag) e calcolando la proporzione dei risultati corretti rispetto a quelli attesi.

Una volta tarato l’albero, la previsione viene fatta immettendo i dati decisionali a disposizione per lo scenario (stavolta non abbiamo il risultato) attraverso tutti gli alberi della foresta, conteggiando il numero di “voti” per ciascun risultato. Alla fine il risultato con il maggior numero di voti è considerato il risultato finale.

Random Forest

Metodologia

I dati della ricerca comprendono i risultati delle partite nelle precedenti quattro edizioni del mondiale, dal 2002 al 2014. Inoltre per ogni anno preso in considerazione, sono anche rilevati altri parametri per ciascuna squadra, quali:

  • il rapporto tra PIL locale e PIL mondiale (fonte: National Accounts Main Aggregates Database)
  • popolazione in relazione alla popolazione mondiale (fonte: worldbank)
  • probabilità “ufficiali” di vittoria dell’agenzia monopolistica di stato tedesca (fonte: ODDSET)
  • ranking FIFA (fonte: sito ufficiale FIFA)
  • vantaggio casalingo: variabili sintetiche indicanti se il paese è organizzatore, se fa parte del continente del paese organizzatore, e la confederazione di appartenenza (CAF, AFC, UEFA, CONCACAF, CONMEBOL, OFC)
  • massimo numero di giocatori appartenenti allo stesso club
  • numero di giocatori partecipanti alle semifinali dell’ultima Champions League e degli ultimi Europei
  • numero di giocatori in competizioni estere
  • età media dei giocatori
  • età dell’allenatore, nonché durata del mandato e provenienza o meno dallo stesso paese

Dopo la costruzione e l’applicazione della Random Forest, il predittore apparentemente (ma non sorprendentemente) più influente è quello che include le abilità di cui sopra. La metodologia delle Random Forest, insieme alle abilità risultava quella più accurata tra tutte quelle comparate.

Importanza delle variabili usate
Importanza delle variabili usate

Quindi chi vince il mondiale?

Seguendo gli stessi principi, sono simulati tutti gli incontri del mondiale di Russia 2018, cosa che permette tra l’altro l’applicazione delle regole FIFA riguardo il passaggio del turno (differenza reti etc.), determinando per ciascun team la probabilità di accedere a ciascuna fase (sotto), aggregando i risultati di 100.000 ripetizioni integrali del torneo.

chances-stages

 

Senza addentrarci troppo nei dettagli dell’esperimento (chi vuole approfondire può leggere l’articolo originale), la struttura particolare del torneo influisce in misura considerevole sugli esiti, a seconda della forza dei team nella propria metà del tabellone. In altre parole, la Spagna risulta avere una probabilità leggermente maggiore a priori di vincere il mondiale, dovuta alla difficoltà teoricamente maggiore per i tedeschi di arrivare ai quarti: alla Spagna viene infatti attribuito l’87% di probabilità di eliminare la Russia agli ottavi, mentre alla Germania solo il 61% di battere la Svizzera.

wc2018-stages2
Andamento ritenuto più probabile dall’algoritmo

È però interessante notare che, proprio in virtù della struttura del torneo, qualora la Germania dovesse raggiungere i quarti diventerebbe la favorita, con una probabilità del 64% di vincere la finale contro il Brasile.

Conclusioni

Come ammettono gli stessi autori, l’esito delle partite è legato spesso a fattori imponderabili: un palo, un infortunio, un’espulsione, un rigore sbagliato. Perciò, nonostante in base ai parametri scelti quello di cui sopra sia l’andamento più probabile, il verificarsi di questo esatto schema è comunque difficile. In effetti, ad esempio le previsioni per il gruppo F davano per qualificate Germania e Svezia ai danni del Messico, già con i risultati verificatisi al momento di scrivere questo articolo, la Germania ha esordito perdendo a sorpresa 1-0 con il Messico, alterando notevolmente le percentuali.

 

LINKS

A. Groll, C. Ley, G. Schauberger, H. Van Eeetvelde: Prediction of the FIFA World Cup 2018 – A random forest approach with an emphasis on estimated team ability parametersarXiv:1806.03208v3

AI Predicts World Cup Winners

The Amazing Tale of Paul the Psychic Octopus: Germany’s World Cup Soothsayer

Calcio in evoluzione: lo tsunami degli analytics sta arrivando

Strictly Proper Scoring Rules, Prediction, and Estimation