Architecture Logique de la Prédiction par IA dans les Paris Sportifs

Alors que les temps continuent d'évoluer, nous inaugurons ce qui est salué comme l'année de l'intelligence artificielle - 2023. La technologie de l'IA change rapidement nos vies à un rythme sans précédent. Mysports.AI exploite activement des technologies avancées, notamment l'intelligence artificielle, l'apprentissage automatique et l'intégration de données sportives professionnelles, pour pousser le domaine de l'analyse prédictive à de nouveaux sommets.

Les prédictions traditionnelles de paris sportifs reposent souvent sur des données statistiques historiques et des analyses manuelles. Bien que cette approche ait sa propre valeur unique, ses limites ont soulevé une nouvelle question : existe-t-il un moyen plus supérieur ? L'avènement de la technologie de l'IA a fondamentalement modifié ce paysage. Elle fournit non seulement des prédictions plus précises des résultats des jeux, mais approfondit également le niveau d'informations des données pour aider les parieurs à prendre des décisions plus avisées.

AI stands out from traditional methods due to its exceptional data processing capabilities and self-learning ability. AI can identify every element in the data, extract key information, and then predict future match results based on this information. This automated analytical process has surpassed human potential and achieved significant success in multiple fields.

With the continuous updating of game data, Mysports.AI also provides predictive data for major renowned leagues, including but not limited to the NBA, MLB, English Premier League, Ligue 1, La Liga, Bundesliga, MLS, European leagues (Champions League, Europa League), NHL, and NFL. It will gradually expand to cover predictive services for more minor leagues in the future.

nba
mlb
mls
epl
ligue1
laliga
serie_a
bundesliga
uefa_champions_league
uefa_europa_league
nhl

Machine learning has been widely applied across various sectors in the international market, but what is particularly noteworthy is the continuous upgrading and performance improvement of artificial intelligence tools. This is a trend that deserves high attention from professional analysts and bettors. Our testing results indicate that, relative to relying solely on human professional analysis, using AI machine learning has made significant improvements in accuracy, with an average increase of 15% in predictive precision.

En tant qu'analyste professionnel ou parieur, vous pouvez désormais parier avec plus de confiance.

La formule de profit utilisant l'apprentissage automatique IA nécessite trois éléments clés : le taux de réussite prédictif de l'apprentissage approfondi, les plateformes de cotes de paris en temps réel et les stratégies de paris post-test. Avec le taux de réussite des prédictions IA et les cotes en temps réel, vous pouvez calculer la valeur attendue de vos paris, où une valeur positive indique que les paris à long terme peuvent générer des rendements correspondants, et une valeur négative suggère des pertes potentielles à long terme. Cette approche est applicable à divers sports, y compris le basket-ball, le baseball, le football, le hockey sur glace, le tennis, le cricket et d'autres prédictions sportives.

Prenant la NBA comme exemple, pour utiliser l'apprentissage automatique pour la prédiction du taux de victoire, vous devez suivre les prérequis clés suivants :

1.

Collecte de données : Rassemblez les données de jeu pertinentes pour la NBA.

2.

Nettoyage et prétraitement des données : Nettoyez les données pour éliminer les erreurs ou les incohérences, et normalisez les caractéristiques des données.

3.

Feature Engineering : Isoler les caractéristiques significatives qui peuvent aider le modèle à prédire les résultats des matchs.

4.

Data Analysis : Utiliser des modèles d'apprentissage automatique pour analyser les données, affiner les caractéristiques pour obtenir des résultats de backtesting plus précis.

Récupération des données de la saison NBA

Nous avons accès à une ressource de données NBA étendue et détaillée à partir de Basketball-Reference et Stats.nba.com Cette ressource couvre chaque match de 1946 à 2023, fournissant des statistiques détaillées sur les équipes et les joueurs. Ces sites de ressources de données prennent en charge des plages de dates personnalisables pour les données statistiques, ce qui signifie que vous pouvez obtenir les informations dont vous avez besoin selon des exigences spécifiques. Cette base de données comprend plus de 3 millions d'entrées de données, englobant diverses statistiques critiques telles que les victoires, les défaites, les points totaux, les rebonds, les passes décisives, les pertes de balle, les interceptions, le pourcentage de tirs à trois points, les lancers francs, et plus encore. C'est une source de rêve pour les analystes de données sportives et les passionnés, vous permettant de plonger profondément dans la performance des jeux et des joueurs. 

    'PName': 'Player_Name',

    'POS': 'Position',

    'Team': 'Team_Abbreviation',

    'Age': 'Age',

    'GP': 'Games_Played',

    'W': 'Wins',

    'L': 'Losses',

    'Min': 'Minutes_Played',

    'PTS': 'Total_Points',

    'FGM': 'Field_Goals_Made',

    'FGA': 'Field_Goals_Attempted',

    'FG%': 'Field_Goal_Percentage',

    '3PM': 'Three_Point_FG_Made',

    '3PA': 'Three_Point_FG_Attempted',

    '3P%': 'Three_Point_FG_Percentage',

    'FTM': 'Free_Throws_Made',

    'FTA': 'Free_Throws_Attempted',

    'FT%': 'Free_Throw_Percentage',

    'OREB': 'Offensive_Rebounds',

    'DREB': 'Defensive_Rebounds',

    'REB': 'Total_Rebounds',

    'AST': 'Assists',

    'TOV': 'Turnovers',

    'STL': 'Steals',

    'BLK': 'Blocks',

    'PF': 'Personal_Fouls',

    'FP': 'NBA_Fantasy_Points',

    'DD2': 'Double_Doubles',

    'TD3': 'Triple_Doubles',

Basketball-Reference Il s'agit d'un site Web statique qui fournit des données riches sur la NBA (ce qui signifie que le contenu des données est directement intégré dans le frontend), et notre plateforme offre une méthode simple mais efficace pour récupérer et analyser facilement ces précieuses données. Nous utilisons la bibliothèque requests de Python pour récupérer facilement les fichiers HTML dans notre plateforme, puis utilisons Pandas pour analyser et extraire les données dont nous avons besoin. Cela signifie que vous n'avez pas à vous soucier de la manipulation d'informations sur les pages Web ; nous avons déjà pris en charge cette tâche fastidieuse. BeautifulSoup, pd.read_html (...)

Nettoyage des Données:

Dans le domaine de l'apprentissage automatique, le nettoyage des données est une étape extrêmement importante qui impacte directement les performances des modèles et la précision des prédictions. Le nettoyage des données fait référence au traitement et à la transformation des données brutes afin d'assurer la qualité, la fiabilité et la cohérence des données. Les données brutes peuvent contenir divers problèmes de qualité, qui peuvent découler de plusieurs facteurs, notamment des erreurs de saisie de données, des données manquantes, des données en double, des valeurs aberrantes, et plus encore. Ces problèmes peuvent avoir un impact néfaste sur les performances des modèles d'apprentissage automatique et doivent donc être traités.

Nous nettoyons rigoureusement les statistiques des joueurs et des équipes pour chaque saison de la NBA afin d'assurer la qualité et la fiabilité des données. Nous éliminons les données qui pourraient révéler les résultats des matchs afin d'éviter une influence indue de certaines valeurs caractéristiques sur les prédictions. De plus, nous éliminons les caractéristiques de données en double pour éviter les fortes corrélations entre les caractéristiques, y compris les corrélations entre des statistiques telles que le pourcentage de tirs de champ, le pourcentage de tirs à deux points et le pourcentage de tirs à trois points. Ce processus de nettoyage des données est à la fois long et intensif en main-d'œuvre, mais il est crucial pour le succès de l'apprentissage automatique.

Étapes de Nettoyage des Données:

Étape 1 :  Gestion des données manquantes :  Pour les données manquantes, diverses méthodes peuvent être utilisées, notamment la suppression des valeurs manquantes, le remplissage des valeurs manquantes et l'utilisation de modèles d'apprentissage automatique pour la prédiction.

Étape 2 :  Normalisation des données :  La normalisation des données est un processus qui transforme les données en une échelle commune sans déformer les différences dans la plage des valeurs. Ce processus est particulièrement important pour les modèles d'apprentissage automatique qui reposent sur des calculs de distance, tels que KNN et SVM.

Étape 3 :  Standardisation des données :  La standardisation des données est un processus qui transforme les données en une distribution normale standard avec une moyenne de zéro et un écart type de un. Ce processus est particulièrement important pour les modèles d'apprentissage automatique qui reposent sur la descente de gradient, tels que la régression linéaire et la régression logistique.

Étape 4 :  Encodage des données :  Le codage des données est un processus qui transforme les données catégorielles en données numériques. Ce processus est particulièrement important pour les modèles d'apprentissage automatique qui reposent sur des calculs de distance, tels que KNN et SVM.

Ingénierie des caractéristiques

L'ingénierie des caractéristiques revêt une importance primordiale dans le domaine de l'analyse sportive. Elle consiste à comparer diverses métriques de performance des équipes pour identifier les facteurs clés et les ratios de poids dans la détermination des victoires et des défaites. Cette approche peut être assimilée à des batailles de monstres, quel que soit le type de monstres impliqués. Nous utilisons leurs attributs tels que la puissance d'attaque, la défense, l'agilité, la magie, les compétences, et plus encore comme base d'analyse. À l'avenir, sans connaître l'identité spécifique des monstres, nous pourrons comparer leurs valeurs d'attribut pour prédire de quel côté le monstre a le plus de chances de gagner. Cette méthode transcende les réputations individuelles et se concentre sur des prédictions absolues purement basées sur les données. À titre d'exemple, dans le cadre de nos efforts d'apprentissage approfondi pour la NBA, nous avons déjà identifié plusieurs caractéristiques clés cruciales pour prédire les résultats des matchs :

1.

Notation Elo

La notation Elo est considérée comme le meilleur moyen de mesurer la force d'une équipe basée sur les résultats des matchs. Son concept est simple, avec les scores finaux de chaque match, ainsi que la localisation et l'heure du match comme seuls éléments d'entrée. La notation Elo d'une équipe est ajustée en fonction du résultat du match. Lorsqu'une équipe gagne un match, elle gagne des points Elo, et si elle est en situation de sous-chien ou gagne avec une marge plus importante, elle gagne plus de points Elo. Cependant, il convient de noter que la notation Elo est un jeu à somme nulle, ce qui signifie qu'une équipe gagnant des points Elo implique que d'autres équipes perdent la même quantité de points Elo. Les scores Elo initiaux de toutes les équipes sont généralement fixés à un score médian, tel que 1500 points. Le changement de notation pour chaque match est influencé par le score final du match, la situation du sous-chien et la localisation du match. En résumé, la notation Elo est un enregistrement de victoires et de défaites plus complexe qui tente de capturer les résultats des matchs de manière plus globale.

Formule de Notation Elo fournie:

En supposant que Ri représente la notation Elo actuelle d'une équipe, la notation Elo après le prochain match peut être définie comme suit:

Elo_nouveau = Elo_vieux + K * (Résultat - Probabilité_de_Victoire)

Elo_nouveau est la nouvelle notation Elo de l'équipe après le match.

Elo_vieux est la notation Elo précédente de l'équipe.

K est une constante qui détermine l'impact du résultat du jeu sur l'ajustement de la notation Elo.

Résultat est le résultat réel du jeu (1 pour une victoire, 0 pour une défaite).

Probabilité_de_Victoire est la probabilité estimée que l'équipe remporte le match.

Cette formule nous permet d'ajuster la notation Elo d'une équipe en fonction des résultats réels après chaque match, fournissant ainsi une réflexion plus précise de leur force réelle. Cette méthode peut être utilisée pour mesurer les victoires et les défaites de qualité et fournit un système de notation équitable, même en tenant compte des différentes forces des équipes.

Il est également essentiel de noter que les cotes Elo changent avec la progression de la saison (car tous les équipes ne sont pas égaux, les excellentes équipes maintiennent souvent leur force, ou du moins diminuent progressivement, peu d'équipes disparaissent ou entrent en jeu). Si R représente l'Elo final d'une équipe pour une saison, l'Elo au début de la saison suivante est approximativement:

(R x 0.75) + (0.25 x 1505)

En pratique, vous pouvez suivre cet indicateur au fil du temps en sélectionnant trois équipes au hasard à surveiller. Ce faisant, vous pouvez rapidement obtenir des informations précieuses sur la force globale des équipes tout au long de la saison.

elo_rating w-100

Ici, nous pouvons en fait voir une forte corrélation entre les cotes Elo et les performances d'une équipe au cours d'une saison spécifique. Les pics dans les cotes Elo des Golden State Warriors et des Cleveland Cavaliers pendant les années où ils se sont affrontés lors des finales de la NBA sont évidents. Nous pouvons également observer ce qui a été largement confirmé par la plupart des analystes de basketball à l'époque: la Conférence de l'Ouest était significativement plus difficile que la Conférence de l'Est, comme l'indique l'impact des victoires de qualité contre les Cavaliers sur les cotes Elo. Nous pouvons également voir comment ces équipes ont rapidement décliné après des saisons de championnat et ont eu du mal avec les changements d'effectif et les blessures.

2.

Performance récente de l'équipe (Statistiques moyennes des 10 derniers matchs)

Pour calculer les statistiques moyennes des dix derniers matchs, nous devons obtenir des données de jeu, y compris les points, les rebonds, les passes décisives, les pertes de balle, les contres, les interceptions et diverses autres statistiques. Ces données peuvent être acquises à partir des enregistrements de jeu ou des bases de données. Ensuite, nous utilisons une fonction simple pour calculer la valeur moyenne de chaque caractéristique et stocker ces valeurs dans un nouveau cadre de données. Ce nouveau cadre de données contiendra les caractéristiques statistiques moyennes pour chaque équipe.

Lors du calcul de ces statistiques moyennes, il est essentiel de sélectionner quelles caractéristiques inclure. Certaines statistiques peuvent mieux refléter les performances d'une équipe que d'autres. Pendant la sélection des caractéristiques, diverses méthodes peuvent être utilisées, telles que l'analyse de corrélation, l'analyse en composantes principales (ACP) et le gain d'information. Ces méthodes aident à déterminer quelles caractéristiques ont la plus grande valeur d'information et les sélectionnent pour calculer les statistiques moyennes. En plus de calculer les statistiques moyennes, des modèles de séries temporelles plus complexes peuvent être appliqués pour analyser plus en détail les performances de l'équipe. Ces modèles peuvent inclure AutoRegressive Integrated Moving Average (ARIMA) et les réseaux Long Short-Term Memory (LSTM). Ces modèles tiennent compte de l'impact du temps, capturent les tendances et les variations saisonnières et fournissent des prédictions plus précises.

L'analyse de la performance récente de l'équipe peut également être réalisée à l'aide de modèles d'apprentissage automatique. Ces modèles peuvent se référer aux résultats de l'ingénierie des caractéristiques et prendre en compte les relations complexes entre différentes variables de manière plus complète. Les options pour de tels modèles incluent les Machines à Vecteurs de Support (SVM), les arbres de décision, les forêts aléatoires et les modèles d'apprentissage profond. Ces modèles peuvent être utilisés pour prédire les résultats des matchs, analyser les tendances de performance de l'équipe et formuler des recommandations stratégiques.

3.

Performance récente des joueurs (Statistiques moyennes des 10 derniers matchs)

Dans le monde compétitif de la National Basketball Association (NBA), comprendre la performance récente d'un joueur est l'une des clés du succès d'une équipe. Les statistiques de performance des joueurs offrent des informations approfondies sur leurs compétences, tendances et forces, et aident à prédire les résultats futurs des matchs. Cet article explorera comment évaluer la performance des joueurs de la NBA en utilisant les statistiques moyennes de leurs 10 derniers matchs, et nous analyserons quelques joueurs de la NBA comme exemples.

Pour calculer les statistiques moyennes des 10 derniers matchs pour les joueurs de la NBA, nous devons rassembler des données détaillées de chaque match, y compris les points, les rebonds, les passes décisives, et plus encore.

Ces données peuvent généralement être obtenues à partir du site Web ou des fournisseurs de données.  nba.com/stats Nous organisons ces données dans un cadre de données, où chaque ligne représente un jeu et chaque colonne représente une caractéristique statistique comme les points, les rebonds, et ainsi de suite. Ensuite, nous utilisons une fonction simple pour calculer la valeur moyenne de chaque caractéristique et sauvegarder ces moyennes dans un nouveau cadre de données. Ce nouveau cadre de données contiendra les caractéristiques statistiques moyennes pour chaque joueur. Par exemple, jetons un coup d'œil aux statistiques moyennes des 10 derniers jeux pour deux joueurs de la NBA, LeBron James et Stephen Curry. Ces statistiques peuvent nous aider à comprendre leurs tendances de performance.

Les Statistiques Moyennes des Derniers 10 Matchs de LeBron James :

Points Moyens : 28,5 points

Rebonds Moyens : 7,8 rebonds

Passes Décisives Moyennes : 7,2 passes décisives

Pertes de Balle Moyennes : 2,3 pertes de balle

Contres Moyens : 1,1 contres

Interceptions Moyennes : 1,5 interceptions

Les Statistiques Moyennes des Derniers 10 Matchs de Stephen Curry :

Points Moyens : 31,2 points

Rebonds Moyens : 5,6 rebonds

Passes Décisives Moyennes : 6,8 passes décisives

Pertes de Balle Moyennes : 2,1 pertes de balle

Contres Moyens : 0,3 contres

Interceptions Moyennes : 1,7 interceptions

Lors du calcul des statistiques moyennes, le choix des caractéristiques à inclure est crucial. Différentes caractéristiques peuvent refléter différentes compétences et forces des joueurs. Certains joueurs excellent dans le scoring, tandis que d'autres peuvent se concentrer davantage sur les rebonds ou les passes décisives. Par conséquent, dans la sélection des caractéristiques, nous pouvons envisager de sélectionner les caractéristiques les plus représentatives pour mieux comprendre la performance d'un joueur. Cela peut être réalisé grâce à des méthodes telles que l'analyse de corrélation, l'Analyse en Composantes Principales (ACP) et le gain d'information.

4.

Performance Saisonnière du Joueur (Saison Précédente & Saison Actuelle)

Pour avoir une compréhension globale de la performance d'un joueur tout au long de la saison, divers facteurs doivent être pris en compte, notamment les statistiques moyennes d'un joueur, les blessures et le temps de jeu. Ces facteurs jouent un rôle crucial dans l'évaluation de la valeur réelle d'un joueur et de sa contribution à l'équipe. Dans cet article, nous explorerons comment synthétiser et analyser au mieux ces données pour mieux comprendre la performance sur le terrain d'un joueur.

Statistiques Moyennes :

Les statistiques moyennes d'un joueur sont un indicateur clé pour évaluer sa performance. Ces statistiques incluent généralement les points, les passes décisives, les rebonds, les interceptions, les contres et les pertes de balle, entre autres. Bien que ces chiffres fournissent des informations sur la performance globale d'un joueur dans les matchs, ils doivent être interprétés avec précaution car ils peuvent être influencés par le temps de jeu et la position d'un joueur. Par exemple, un meneur de jeu axé sur le scoring peut avoir une moyenne plus élevée en points, tandis qu'un pivot peut exceller dans les rebonds et les contres. De plus, les statistiques moyennes peuvent être affectées par l'approche tactique et les ajustements d'une équipe. Si une équipe se concentre sur le travail d'équipe et la passe, la moyenne d'assists d'un joueur peut être plus élevée. Ainsi, ces facteurs doivent être pris en compte lors de l'analyse des statistiques moyennes d'un joueur pour garantir une évaluation précise.

État des Blessures :

Les blessures sont un problème courant auquel les joueurs sont confrontés pendant une saison et peuvent avoir un impact significatif sur leur performance. Il est essentiel de prendre en compte l'état des blessures d'un joueur lors de l'évaluation de sa performance. Dans certains cas, un joueur peut manquer plusieurs matchs en raison d'une blessure, ce qui réduirait ses statistiques moyennes. Dans d'autres cas, un joueur peut revenir d'une blessure mais ne pas performer aussi bien qu'avant. Comprendre l'état des blessures d'un joueur est crucial pour une évaluation précise de sa valeur réelle. Les équipes rapportent généralement l'état des blessures d'un joueur, y compris les parties du corps affectées et le temps de récupération estimé. Ces informations sont précieuses pour les fans et les analystes car elles fournissent des informations sur la capacité d'un joueur à participer aux matchs et à retrouver sa meilleure forme.

Temps de Jeu

Le temps de jeu d'un joueur pendant une saison est un autre facteur critique. Différents joueurs peuvent recevoir des quantités variables de temps de jeu, ce qui impacte leurs statistiques moyennes. Les titulaires reçoivent généralement plus de temps de jeu, ce qui se traduit par des moyennes plus élevées en points, passes décisives et rebonds. En revanche, les joueurs remplaçants peuvent ne recevoir qu'un temps de jeu limité sur le terrain, ce qui entraîne des statistiques plus faibles. Le temps de jeu peut également être influencé par les situations de jeu. Si une équipe mène dans un match, elle peut choisir de reposer ses titulaires et de donner plus de temps de jeu aux remplaçants. Dans de tels cas, la performance d'un joueur peut s'améliorer en raison de l'augmentation du temps de jeu. L'analyse du temps de jeu d'un joueur aide à mieux comprendre sa performance. Parfois, un joueur peut exceller dans un temps de jeu limité, ce qui indique une haute efficacité. En revanche, un joueur peut avoir une performance moyenne dans un temps de jeu prolongé, ce qui peut nécessiter une analyse supplémentaire pour déterminer si sa performance est cohérente.

Position et Style de Jeu :

La position d'un joueur et le style de jeu de son équipe ont également un impact sur sa performance. Différentes positions nécessitent des compétences et des responsabilités différentes. Par exemple, les meneurs sont généralement responsables du scoring et de l'assistance en attaque, tandis que les pivots se concentrent sur les rebonds et la défense. Ainsi, la position d'un joueur doit être prise en compte lors de l'évaluation de sa performance. De plus, les différentes équipes adoptent diverses tactiques et styles de jeu. Une équipe peut mettre l'accent sur le travail d'équipe et la passe, tandis qu'une autre peut privilégier le scoring individuel. Ces différences affectent également la performance d'un joueur. Un joueur qui excelle dans une équipe peut avoir une performance moyenne dans une autre, car ses compétences et son style peuvent mieux correspondre à une équipe. Nous essayons également d'inclure les statistiques moyennes de la saison du joueur. Contrairement aux équipes, les joueurs subissent eux-mêmes des blessures ou des rotations dans et hors de l'alignement, et pour nous, il est plus important de comprendre comment un joueur se comporte dans des matchs individuels par rapport à son niveau moyen. Nous l'utiliserons plus tard dans notre modèle pour voir s'il peut faire des prédictions précises au niveau de l'équipe.

Bilan Victoires-Défaites :

Le bilan victoires-défaites d'une équipe influence également la performance d'un joueur. Dans une équipe gagnante, les joueurs se sentent généralement plus confiants et jouent mieux. À l'inverse, dans une équipe en série de défaites, les joueurs peuvent ressentir une pression supplémentaire, ce qui peut affecter leur performance. Le bilan victoires-défaites impacte également les statistiques d'un joueur. Dans un match où une équipe mène, elle peut choisir de ralentir le rythme, ce qui peut réduire les statistiques de points et d'assistances d'un joueur. En revanche, si une équipe est en retard, elle peut intensifier ses efforts offensifs, ce qui entraîne des statistiques plus élevées pour les joueurs. Analyser la performance d'un joueur dans différentes situations de jeu fournit des insights plus approfondis. Nous pouvons examiner les statistiques d'un joueur dans les matchs gagnés et perdus pour comprendre s'il existe des différences significatives dans sa performance. Cela aide à mieux comprendre la mentalité et l'adaptabilité d'un joueur.

En tenant compte des statistiques moyennes d'un joueur, de son état de blessure, de son temps de jeu, de sa position et de son style de jeu, ainsi que de la situation du match, nous pouvons obtenir une compréhension plus complète de la performance d'un joueur tout au long de la saison. Ces facteurs sont interconnectés et ont un impact collectif sur la valeur réelle et la contribution d'un joueur à l'équipe.

5.

Indice d'Efficacité du Joueur :

Il est important de créer un indicateur qui combine des données statistiques apparemment non liées pour normaliser et comparer les performances des joueurs, tout comme nous l'avons fait avec le classement Elo pour les équipes. Nous visons à utiliser l'Indice d'efficacité du joueur (PER) de Hollinger pour comparer et prédire les performances de l'équipe basées sur le score PER total d'un joueur. Dans la NBA, les joueurs peuvent facilement subir une exagération ou une réduction statistique significative en raison de facteurs tels que le jeu contre des joueurs de banc ou des titulaires, le nombre de matchs et même le temps de jeu alloué par l'équipe (par exemple, les points par minute). Nous ne voulons pas nous fier uniquement à leurs moyennes en raison des écarts dans les capacités des joueurs. PER aborde ce problème en pondérant certaines statistiques de jeu par rapport aux minutes jouées, créant un indicateur qui définit la performance du joueur par rapport aux minutes jouées.

Pour chaque joueur, nous ajoutons une colonne PER dans un jeu donné selon la formule suivante :

PER = (FGM x 85.910 + Steals x 53.897 + 3PTM x 51.757 + FTM x 46.845 + Blocks x 39.190 + Offensive_Rebounds x 39.190 + Assists x 34.677 + Defensive_Rebounds x 14.426 - Turnovers x 53.897) x (1 / Minutes)

Analyse des données

Notre analyse de données tourne principalement autour de l'utilisation du classement Elo comme notre métrique de test. Essentiellement, pouvons-nous avoir confiance en ce que Elo se corrèle et s'aligne correctement avec d'autres données statistiques ? De plus, est-il plus approprié d'utiliser les données statistiques de l'équipe (classement Elo) ou les données statistiques moyennes des joueurs (classement PER) pour prédire les résultats des matchs ?

Tout d'abord, explorons la densité du classement Elo pour chaque saison de la NBA dans son ensemble. Cela nous donne des informations sur le niveau de parité dans toute la ligue : si nous voyons des classements Elo proches d'une distribution normale, cela indique des équipes relativement équilibrées dans la ligue. Sinon, nous observerons des disparités significatives et le développement de super équipes.

elo_desities

Illustration : Douze saisons de la densité Elo de la ligue

Nous ne regardons plus le classement Elo du point de vue de la ligue, mais nous nous efforçons de comprendre comment le classement Elo suit la performance des équipes individuelles au sein d'autres données statistiques.

En fait, nous pouvons voir qu'il existe une certaine corrélation entre le score moyen d'une équipe et sa cote Elo - plus le score moyen dans la fenêtre de jeu est élevé, plus la cote Elo semble être élevée. Cependant, nous pouvons également observer qu'Elo peut présenter des différences significatives à des nombres de points similaires. Pour mieux comprendre comment la cote Elo suit la relation de marquage, nous avons étudié la comparaison des scores moyens par rapport aux scores moyens de la saison dans toute la ligue - à partir de là, nous pouvons déterminer si le marquage augmente Elo, à condition que les scores élevés soient relatifs à d'autres scores dans la ligue. À cette fin, examinons le cas de la même équipe dans la même saison et tracions la distribution des scores par rapport à leurs adversaires.

last_ten_avg_point

Cela confirme notre hypothèse, car nous pouvons voir que lorsque la distribution des scores moyens est plus grande que celle des adversaires ou plus concentrée aux mêmes niveaux ou supérieurs, l'Elo pour cette saison est plus élevé. Étant donné que les équipes dans les saisons avec des valeurs proches ou plus petites dans le groupe, leurs scores Elo sont plus bas. Par conséquent, les scores moyens sont un déterminant fiable pour prédire les résultats du match, mais ils fonctionnent mieux lorsqu'ils sont relativisés. Cela nous démontre qu'en prédisant notre côté gagnant, Elo fonctionne mieux que les scores car il est relatif aux données statistiques.

Nous ne nous concentrons plus sur les statistiques de l'équipe, mais nous essayons de comprendre si Elo peut mieux suivre les performances des joueurs plutôt que celles de l'équipe. Pour cela, nous avons utilisé une méthode similaire pour tracer la cote Elo ainsi que les scores moyens des mêmes équipes aléatoires, cette fois en utilisant la cote PER.

elo

À partir des données tracées, nous pouvons voir que le PER total n'a pas de corrélation significative avec la force déterminée de l'équipe par rapport aux adversaires. Au lieu de cela, le score se traduit mieux - cela a du sens car l'efficacité d'un joueur ne se corréle pas nécessairement directement avec le plus grand nombre de points, et concourir contre les points des adversaires est le facteur déterminant dans les jeux gagnants, affectant ainsi l'Elo.

Nous pouvons mieux comprendre cela en traçant la cote PER moyenne relative de l'Orlando Magic par rapport à celle des adversaires lors de la même saison donnée et constater que la moyenne ou la médiane PER de l'équipe n'a presque aucun rapport avec la force de l'équipe.

elo_1
Prédire les résultats des matchs en fonction des statistiques individuelles des joueurs et des scores.

Avant d'exécuter le modèle, nous devons nettoyer un peu les données. Pour certains jeux dans cet ensemble de données, nous avons des statistiques des joueurs pour une équipe mais pas pour l'autre - souvent juste le premier match de la saison pour cette autre équipe. Nous allons donc supprimer tous ces jeux de l'ensemble de données.

Pour les évaluations des joueurs, nous utiliserons un modèle de régression linéaire au lieu de la régression logistique car nous voulons prédire une plage de valeurs possibles (scores) plutôt que de prédire simplement une victoire ou une défaite. Le RMSE (Root Mean Square Error) pour tous nos joueurs est de 5,56, ce qui signifie que les joueurs marquent ou manquent généralement environ 2-3 tirs par jeu autour de leur moyenne.

Lors du test des résultats, nous regrouperons les scores prédits pour chaque équipe dans chaque jeu et les comparerons aux scores réels. En calculant le nombre de victoires basé sur les scores prédits et le vainqueur, la précision est de 58,66%, avec 1483 victoires sur 2528 jeux. De toute évidence, comme nous l'avons réalisé précédemment lorsque nous avons examiné la distribution PER des équipes contre leurs adversaires, la variabilité de la performance des joueurs en tant que déterminant est trop grande pour prédire avec précision les résultats des matchs - surtout comparé à la performance de l'équipe, qui est souvent plus cohérente pendant les matchs.

Conclusion et Optimisation Future

Bien sûr, cela ne s'applique pas seulement à la NBA mais peut également être utilisé dans divers sports. Cependant, pour ceux d'entre nous qui suivent la NBA depuis longtemps, créer un modèle pour prédire les résultats des matchs de la NBA serait un projet intéressant. Cela pourrait offrir une opportunité passionnante pour des résultats de profit précis.

Notre modèle de régression de forêt aléatoire, optimisé via RandomSearchCV, nous a fourni la meilleure précision de test de 67,15%. Il a légèrement surpassé le modèle de régression logistique et a nettement surpassé le modèle de régression linéaire basé sur les statistiques individuelles des joueurs. L'utilisation de GridSearchCV et de RandomizedSearchCV pour l'optimisation des paramètres était chronophage et coûteuse en termes de calcul, ne produisant que des changements mineurs dans la précision du test. Si nous avions plus de temps, nous pourrions passer moins de temps à optimiser les paramètres et plus de temps à sélectionner le modèle.

Les meilleurs modèles de prédiction de matchs de la NBA ne peuvent prédire avec précision les gagnants que environ 70% du temps. Par conséquent, notre modèle de régression logistique et le classifieur de forêts aléatoires sont très proches de la limite de prédiction actuelle. Si nous avions plus de temps, nous explorerions d'autres modèles pour voir quel niveau de précision de test nous pourrions atteindre. Certains des candidats pourraient inclure le classifieur SGD, l'Analyse Discriminante Linéaire, les Réseaux Neuronaux Convolutifs ou les classifieurs Naive Bayes.