Antiguamente, para saber qué equipo ganaría el Mundial, teníamos que recurrir a videntes con bolas de cristal, a la adivinación con hojas de té o esperar a que el pulpo Paul nos dijera qué pasaría.
Pero la ciencia de datos moderna ofrece una mejor alternativa. Como parte de un equipo de estadísticos, ayudé a entrenar un algoritmo de aprendizaje automático para predecir el desarrollo más probable del torneo.
Pronósticos probabilísticos y dados trucados
El algoritmo que desarrollamos consta de dos pasos.
En el primero, se combinan modelos estadísticos sofisticados y la información de expertos de casas de apuestas y mercados de fichajes para determinar las fortalezas de todos los equipos y sus jugadores. En el segundo paso, un algoritmo de aprendizaje automático decide cómo combinar mejor las estimaciones de fortaleza con otra información sobre los equipos.
Esto generó un pronóstico probabilístico para cada posible partido del torneo. Se puede comparar con un par de dados trucados: en lugar de tener los números del 1 al 6 con la misma probabilidad, estos dados trucados tienen probabilidades diferentes para el número de goles de cada equipo.
Por ejemplo, según nuestro pronóstico, México tiene un promedio de 1.9 goles en el partido inaugural, mientras que su rival, Sudáfrica, tiene un promedio de solo 0.7. Pero esto no significa que México vaya a ganar con seguridad. Más bien, una victoria para México es el resultado más probable, con un 65% de probabilidad. Un empate es menos probable (21%), y una victoria para Sudáfrica es el resultado menos probable (14%).
Lee más: Maximus, el gato viral del primer ministro belga que acierta resultados del Mundial
‘¡Vuelve a casa, el fútbol vuelve a casa!’
Mediante el uso de diferentes pares de dados trucados, se puede simular el resultado de cada partido del Mundial. Se tuvo en cuenta el sorteo oficial del torneo y todas las reglas de la FIFA, incluyendo la posibilidad de prórroga y tanda de penaltis. Se realizó la simulación 100,000 veces para determinar el desenlace más probable del torneo.
Los resultados muestran que España es la favorita al título con una probabilidad de victoria del 14.5%, seguida de cerca por Inglaterra y Francia, cada una con un 12.4%, y Alemania con un 11.2%.
Debido a la ampliación del torneo —este Mundial cuenta con 48 equipos y cinco rondas en la fase eliminatoria—, este grupo de favoritos está muy igualado. Portugal y Argentina también tienen buenas posibilidades de ganar el título, con un 8.9% y un 8.2%, respectivamente.
Por su parte, Estados Unidos tiene una buena probabilidad de llegar a dieciseisavos de final: un 78%. Esta es la más alta de su grupo, que cuenta con otros tres equipos. En la fase eliminatoria, donde cada partido es decisivo, las probabilidades de que el equipo estadounidense “sobreviva” disminuyen con relativa rapidez. La probabilidad de una victoria local en la final en el MetLife Stadium de Nueva Jersey el 19 de julio es del 1%.
Un análisis más profundo del funcionamiento interno
Nuestro algoritmo de aprendizaje automático y las simulaciones posteriores se basan en datos, conocimiento experto y modelos estadísticos.
Primero, todos los partidos de selecciones nacionales de los últimos ocho años sirven de base para una estimación retrospectiva de la fortaleza de los equipos. Segundo, se obtiene una estimación prospectiva de la fortaleza a partir de las cuotas ofrecidas por diversas casas de apuestas internacionales, que reflejan sus opiniones expertas sobre el próximo torneo.
Tercero, se elaboran valoraciones de los jugadores individuales en función de su contribución a los goles a nivel de club y selección nacional. Finalmente, la calidad actual y el potencial futuro de los jugadores se reflejan en sus valores de mercado esperados. Estos datos están disponibles en el sitio web Transfermarkt, que utiliza un enfoque de inteligencia colectiva para estimar los valores reales de mercado desconocidos.
Estas cuatro variables se combinan con una amplia gama de datos relevantes que reflejan la situación actual de los diferentes equipos y sus países de origen. Esto incluye detalles específicos de cada equipo, como su clasificación FIFA y el número de jugadores en las semifinales de la Liga de Campeones de este año. También se consideraron factores socioeconómicos específicos de cada país, como el PIB per cápita.
Para determinar si estas características son relevantes para los resultados reales de un Mundial y de qué manera, se utilizó un algoritmo de aprendizaje automático.
En este caso, se entrenó un bosque aleatorio, compuesto por numerosos árboles de decisión que capturan subconjuntos ligeramente diferentes de los datos. El algoritmo se entrenó con todos los partidos disputados en los principales torneos de fútbol desde el Mundial de 2006. De esta forma, vincula la fuerza, el valor de mercado y otros factores de un equipo con el número de goles marcados en los partidos de los Mundiales. Esta es la información que determina el resultado de nuestras simulaciones.
También lee: Sheinbaum felicita a la Selección Mexicana tras su triunfo ante Sudáfrica
Más información
Esta no es la primera vez que nuestro equipo, integrado por Andreas Groll y Rouven Michels, junto con sus colegas de la Universidad Técnica de Dortmund (Alemania), Lars Magnus Hvattum de la Universidad de Molde (Noruega), Gunther Schauberger de la Universidad Técnica de Múnich (Múnich) y yo, colaboramos para pronosticar un Mundial.
En el Mundial Femenino de 2019, acertamos al predecir la victoria de Estados Unidos. En el Mundial Femenino de 2023 y en el Mundial Masculino de 2022, los ganadores —España y Argentina, respectivamente— no eran nuestros favoritos, aunque sí los consideramos serios aspirantes al título.
En definitiva, los pronósticos se basan en probabilidades. Nuestro programa no predice al ganador con un 100 % de certeza, pero podría ser más preciso que un molusco de ocho extremidades.
*Achim Zeileis es catedrático de Estadística en la Universidad de Innsbruck.
Este texto fue publicado originalmente en The Conversation
Suscríbete a nuestro canal de YouTube y no te pierdas de nuestro contenido











