एआई पूर्वानुमान का तार्किक वास्तुकला खेल बेटिंग में

समय के साथ अग्रसर होते हुए, हम वह साल ला रहे हैं जिसे कृत्रिम बुद्धिमत्ता का वर्ष माना जाता है - 2023। एआई प्रौद्योगिकी अअवाधारणीय गति से हमारे जीवन को तेजी से बदल रही है। Mysports.AI पेशेवर खेल डेटा एकीकरण, आर्टिफिशियल इंटेलिजेंस, मशीन लर्निंग, और नई ऊचाइयों तक पूर्वानुमान विज्ञान के क्षेत्र को बढ़ावा देने के लिए उन्नत प्रौद्योगिकियों का उपयोग कर रहा है।

पारंपरिक खेल बेटिंग की पूर्वानुमान अक्सर ऐतिहासिक सांख्यिकीय डेटा और मैनुअल विश्लेषण पर आधारित होती है। जबकि इस दृष्टिकोण का अपना अनूठा महत्व है, उसकी सीमाएँ एक नई सवाल को उत्प्रेरित करती हैं: क्या एक बेहतर तरीका है? एआई प्रौद्योगिकी का उदय ने इस परिदृश्य को मौलिक रूप से बदल दिया है। यह न केवल खेल परिणामों की अधिक सटीक पूर्वानुमान प्रदान करता है, बल्कि डेटा अनुसंधान के स्तर को गहरा करता है ताकि बेटर्स को बुद्धिमान निर्णय लेने में सहायता मिल सके।

एआई पारंपरिक तरीकों से अतिरिक्त डेटा प्रसंस्करण क्षमताओं और स्व-सीखने की असाधारण क्षमता के कारण अलग होता है। एआई डेटा में हर तत्व की पहचान कर सकता है, मुख्य जानकारी निकाल सकता है, और फिर इस जानकारी के आधार पर भविष्य के मैच परिणाम का पूर्वानुमान कर सकता है। यह स्वचालित विश्लेषण प्रक्रिया मानव क्षमता को पार कर चुकी है और कई क्षेत्रों में महत्वपूर्ण सफलता प्राप्त की है।

खेल डेटा के निरंतर अपडेट के साथ, Mysports.AI ने मुख्य नामी लीगों के लिए पूर्वानुमानी डेटा भी प्रदान किया है, जिसमें शामिल हैं, लेकिन इससे सीमित नहीं हैं, एनबीए, एमएलबी, इंग्लिश प्रीमियर लीग, लिग 1, ला लीगा, बुंडेसलीगा, एमएलएस, यूरोपीय लीग (चैंपियंस लीग, यूरोपा लीग), एनएचएल, और एनएफएल। यह धीरे-धीरे भविष्य में अधिक छोटी लीगों के लिए पूर्वानुमानी सेवाओं को कवर करने के लिए विस्तारित होगा।

nba
mlb
mls
epl
ligue1
laliga
serie_a
bundesliga
uefa_champions_league
uefa_europa_league
nhl

अंतरराष्ट्रीय बाजार में मशीन लर्निंग का व्यापक रूप से उपयोग किया गया है, लेकिन विशेष रूप से यह ध्यान देने योग्य है कि कृत्रिम बुद्धिमत्ता उपकरणों का निरंतर अपग्रेड और प्रदर्शन सुधार हो रहा है। यह एक प्रवृत्ति है जिस पर पेशेवर विश्लेषकों और बेटरों को उच्च ध्यान देने योग्य है। हमारे परीक्षण परिणाम दर्शाते हैं कि, मानव पेशेवर विश्लेषण पर पूरी तरह से निर्भर करने के बजाय, एआई मशीन लर्निंग का उपयोग योगदान में महत्वपूर्ण सुधार किया है, जिसमें पूर्वानुमानी निश्चितता में औसतन 15% की वृद्धि होती है।

इस परिणाम के रूप में, एक पेशेवर विश्लेषक या बेटर के रूप में, आप अब अधिक आत्मविश्वास के साथ सट्टा लगा सकते हैं।

एआई मशीन लर्निंग का उपयोग करके लाभ सूत्र में तीन प्रमुख तत्वों की आवश्यकता होती है: गहरे सीखने से पूर्वगणना की पूर्वानुमानी वितरण, वास्तविक समय पर बाजार की कोटियों प्लेटफ़ॉर्म और पोस्ट-परीक्षण दांव की रणनीतियाँ। एआई पूर्वानुमानों की सफलता दर और वास्तविक समय पर कोटियों के साथ, आप अपनी बाजी की अपेक्षित मूल्यांकन की गणना कर सकते हैं, जहां एक सकारात्मक मूल्य इसका संकेत देता है कि दीर्घकालिक दांव संबंधित लाभ को पैदा कर सकता है, और एक नकारात्मक मूल्य इसका सुझाव देता है कि दीर्घकालिक हार के लोगों की संभावना है। यह दृष्टिकोण विभिन्न खेलों के लिए लागू होता है, जैसे कि बास्केटबॉल, बेसबॉल, फुटबॉल, आइस हॉकी, टेनिस, क्रिकेट और अन्य खेल की पूर्वानुमान।

NBA को उदाहरण के रूप में लेते हुए, जीत दर की पूर्वानुमान के लिए मशीन लर्निंग का उपयोग करने के लिए निम्नलिखित मुख्य आवश्यकताओं का पालन करना होगा:

1.

डेटा संग्रहण: NBA के लिए प्रासंगिक खेल डेटा एकत्र करें।

2.

डेटा क्लीनिंग और पूर्वसंस्करण: डेटा को त्रुटियों या असंगतियों को हटाकर साफ करें, और डेटा विशेषताओं को सामान्य बनाएं।

3.

Feature Engineering: अर्थपूर्ण सुविधाओं को अलग करें जो मॉडल को खेल के परिणाम की पूर्वानुमान में मदद कर सकती हैं।.

4.

Data Analysis: डेटा का विश्लेषण करने के लिए मशीन लर्निंग मॉडल का उपयोग करें, अधिक सटीक परीक्षण परिणाम प्राप्त करने के लिए विशेषताओं को संशोधित करें।

NBA सीजन डेटा प्राप्त करना

हमारे पास से एनबीए के विस्तृत और विस्तृत डेटा स्रोत तक पहुंच है Basketball-Reference और Stats.nba.com यह स्रोत 1946 से 2023 तक हर खेल को कवर करता है, टीम और खिलाड़ियों के विस्तृत सांख्यिकियों प्रदान करता है। ये डेटा स्रोत वेबसाइट्स आंकड़ीय डेटा के लिए अनुकूलित तिथि सीमाओं का समर्थन करते हैं, जिससे आप विशिष्ट आवश्यकताओं के अनुसार आवश्यक जानकारी प्राप्त कर सकते हैं। यह डेटाबेस लगभग 3 मिलियन डेटा एंट्रियों को शामिल करता है, जिसमें जीतें, हारें, कुल अंक, रिबाउंड्स, असिस्ट, टर्नओवर्स, स्टील्स, थ्री-प्वाइंट शूटिंग प्रतिशत, फ्री थ्रोज और अधिक जैसी विभिन्न महत्वपूर्ण सांख्यिकियों को शामिल किया गया है। खेल डेटा विश्लेषकों और प्रशंसकों के लिए सपना स्रोत है, जो आपको खेलों और खिलाड़ियों के प्रदर्शन में गहराई से डूबने की सुविधा प्रदान करता है। 

    'PName': 'Player_Name',

    'POS': 'Position',

    'Team': 'Team_Abbreviation',

    'Age': 'Age',

    'GP': 'Games_Played',

    'W': 'Wins',

    'L': 'Losses',

    'Min': 'Minutes_Played',

    'PTS': 'Total_Points',

    'FGM': 'Field_Goals_Made',

    'FGA': 'Field_Goals_Attempted',

    'FG%': 'Field_Goal_Percentage',

    '3PM': 'Three_Point_FG_Made',

    '3PA': 'Three_Point_FG_Attempted',

    '3P%': 'Three_Point_FG_Percentage',

    'FTM': 'Free_Throws_Made',

    'FTA': 'Free_Throws_Attempted',

    'FT%': 'Free_Throw_Percentage',

    'OREB': 'Offensive_Rebounds',

    'DREB': 'Defensive_Rebounds',

    'REB': 'Total_Rebounds',

    'AST': 'Assists',

    'TOV': 'Turnovers',

    'STL': 'Steals',

    'BLK': 'Blocks',

    'PF': 'Personal_Fouls',

    'FP': 'NBA_Fantasy_Points',

    'DD2': 'Double_Doubles',

    'TD3': 'Triple_Doubles',

Basketball-Reference यह एक स्थिर वेबसाइट है जो धनी एनबीए (जिसका मतलब है कि डेटा सामग्री सीधे फ्रंटएंड में सम्मिलित है) को प्रदान करती है, और हमारा प्लेटफ़ॉर्म आपको इन मूल्यवान डेटा को आसानी से प्राप्त और विश्लेषित करने के लिए एक सरल लेकिन प्रभावी तरीका प्रदान करता है। हम अपने प्लेटफ़ॉर्म में एचटीएमएल फ़ाइलें आसानी से प्राप्त करने के लिए पायथन की अनुरोध पुस्तकालय का उपयोग करते हैं, और फिर हम उन्हें विश्लेषित और आवश्यक डेटा को निकालने के लिए पांडा का उपयोग करते हैं। इसका मतलब है कि आपको वेब पृष्ठों पर जानकारी को संभालने के बारे में चिंता करने की आवश्यकता नहीं है; हमने पहले ही इस कठिन कार्य का ध्यान रखा है। BeautifulSoup, pd.read_html (...)

डेटा सफाई:

मशीन लर्निंग के क्षेत्र में, डेटा क्लीनिंग एक महत्वपूर्ण चरण है जो मॉडलों के प्रदर्शन और पूर्वानुमानों की सटीकता पर सीधा प्रभाव डालता है। डेटा क्लीनिंग का मतलब रॉ डेटा की प्रसंस्करण और परिवर्तन है ताकि डेटा की गुणवत्ता, विश्वसनीयता, और संगतता सुनिश्चित की जा सके। रॉ डेटा में विभिन्न गुणवत्ता समस्याएँ हो सकती हैं, जो कई कारकों से उत्पन्न हो सकती हैं, जैसे कि डेटा इनपुट त्रुटियाँ, गायब डेटा, डुप्लिकेट डेटा, आउटलायर्स, और अधिक। ये समस्याएँ मशीन लर्निंग मॉडलों के प्रदर्शन पर हानिकारक प्रभाव डाल सकती हैं और इसलिए इन्हें संबोधित किया जाना चाहिए।

हम प्रत्येक एनबीए सीजन के लिए खिलाड़ी सांख्यिकियों और टीम सांख्यिकियों को संशोधित करते हैं ताकि डेटा की गुणवत्ता और विश्वसनीयता सुनिश्चित की जा सके। हम डेटा को हटा देते हैं जो खेल के परिणामों को प्रकट कर सकता है ताकि पूर्वानुमानों पर विशेष फीचर मानों का अनुचित प्रभाव न हो। इसके अतिरिक्त, हम डेटा विशेषताओं को दोहराते डेटा विशेषताओं को हटा देते हैं ताकि विशेषताओं के बीच उच्च सहयोग न हो, जिसमें फील्ड गोल प्रतिशत, दो-बिंदु प्रतिशत, और तीन-बिंदु प्रतिशत जैसी सांख्यिकियों के बीच सहयोग शामिल हैं। डेटा शोधन प्रक्रिया को समय और श्रम से भरपूर होता है, लेकिन मशीन लर्निंग की सफलता के लिए यह महत्वपूर्ण है।

डेटा सफाई चरण:

चरण 1 :  अगर डेटा को संबोधित नहीं किया गया हो तो उसे संबोधित करें:  गायब डेटा के लिए, पूरी तरह से अलग अलग विधियों का उपयोग किया जा सकता है, जिसमें गायब मूल्यों को हटाना, गायब मूल्यों को भरना और पूर्वानुमान के लिए मशीन लर्निंग मॉडल का उपयोग करना शामिल है।

चरण 2 :  डेटा को सामान्यीकृत करें:  डेटा सामान्यीकरण एक प्रक्रिया है जो डेटा को एक सामान्य माप में परिवर्तित करती है बिना डेटा के मान की अंतर को दिखाई देने के। यह प्रक्रिया खासकर उन मशीन लर्निंग मॉडलों के लिए महत्वपूर्ण है जो दूरी की गणनाओं पर आधारित होते हैं, जैसे KNN और SVM।

चरण 3 :  डेटा को मानकीकृत करें:  डेटा मानकीकरण एक प्रक्रिया है जो डेटा को एक मानक साधारित वितरण में परिवर्तित करती है जिसमें शून्य का औसत और एक की मानक विचलन होता है। यह प्रक्रिया खासकर उन मशीन लर्निंग मॉडलों के लिए महत्वपूर्ण है जो ग्रेडियेंट गिरावट पर निर्भर करते हैं, जैसे लीनियर रीग्रेशन और लोजिस्टिक रीग्रेशन।

चरण 4 :  डेटा को कोडिंग करें:  डेटा एनकोडिंग एक प्रक्रिया है जो वर्गीकृत डेटा को संख्यात्मक डेटा में परिवर्तित करती है। यह प्रक्रिया खासकर उन मशीन लर्निंग मॉडलों के लिए महत्वपूर्ण है जो दूरी की गणनाओं पर आधारित होते हैं, जैसे KNN और SVM।

विशेषता इंजीनियरिंग

विशेषता इंजीनियरिंग खेल विश्लेषण के क्षेत्र में परमाधिक महत्वपूर्ण है। विशेषता इंजीनियरिंग में विभिन्न टीम प्रदर्शन मैट्रिक्स की तुलना की जाती है ताकि जीत और हानि को निर्धारित करने में मुख्य कारकों और वेट अनुपातों की पहचान की जा सके। इस दृष्टिकोण को अनुप्रेषित किया जा सकता है, बिल्कुल भी महत्वपूर्ण नहीं है कि किस प्रकार के प्राणी शामिल हैं। हम उनकी विशेषताओं का उपयोग करते हैं, जैसे कि हमले की शक्ति, रक्षा, चुस्ती, जादू, कौशल, और अन्य को विश्लेषण के आधार के रूप में। भविष्य में, प्राणियों की विशेष पहचान को जानने के बिना, हम उनकी गुणधर्म मानों की तुलना कर सकते हैं ताकि पूर्वानुमान किस पक्ष के प्राणी के पास जीतने की अधिक संभावना हो। यह विधि व्यक्तिगत प्रतिष्ठाओं को पार करती है और केवल डेटा-निर्धारित निर्देशक पूर्ण अनुमानों पर ध्यान केंद्रित करती है।NBA का उपयोग करने के एक उदाहरण के रूप में, हमारे गहरे अध्ययन प्रयासों में, हमने पहले से ही खेल के परिणामों को पूर्वानुमान करने के लिए कई महत्वपूर्ण विशेषताओं की पहचान की हैं।

1.

एलो रेटिंग

एलो रेटिंग खेल के परिणामों के आधार पर एक टीम की ताकत को मापने का सबसे अच्छा तरीका माना जाता है। इसका अवधारणा सीधा है, प्रत्येक खेल के अंतिम स्कोर, साथ ही खेल के स्थान और समय को इसके केवल इनपुट बनाया जाता है। एक टीम की एलो रेटिंग खेल के परिणाम के आधार पर समायोजित की जाती है। जब एक टीम एक खेल जीतती है, तो वह एलो अंक प्राप्त करती है, और अगर यह एक अधीन टीम है या अधिक सीमा के साथ जीतती है, तो वह अधिक एलो अंक प्राप्त करती है। हालांकि, यह ध्यान देने योग्य है कि एलो रेटिंग एक शून्य-सम खेल है, जिसका अर्थ है कि एक टीम एलो अंक प्राप्त करता है इसका संदेश है कि अन्य टीमें उसी मात्रा के एलो अंक खोती हैं। सभी टीमों के लिए प्रारंभिक एलो स्कोर्स सामान्यत: 1500 अंक पर सेट किए जाते हैं। प्रत्येक खेल के लिए रेटिंग परिवर्तन का प्रभाव खेल के अंतिम स्कोर, अधीन स्थिति, और खेल के स्थान पर प्रभावित होता है। सारांश में, एलो रेटिंग एक और अधिक जटिल जीत-हानि रिकॉर्ड है जो खेल के परिणामों को एक और व्यापक ढंग से पकड़ने का प्रयास करता है।

निम्नलिखित Elo रेटिंग सूत्र आपने प्रदान किया है:

मान लें Ri एक टीम की वर्तमान Elo रेटिंग को प्रस्तुत करता है, तो अगले खेल के बाद Elo रेटिंग को निम्नलिखित रूप में परिभाषित किया जा सकता है:

Elo_new = Elo_old + K * (परिणाम - जीत की संभावना)

Elo_new खेल के बाद टीम की नई Elo रेटिंग है।

Elo_old पिछले खेल की टीम की पिछली Elo रेटिंग है।

K एक स्थिरांक है जो खेल के परिणाम का एलो रेटिंग समायोजन पर प्रभाव निर्धारित करता है।

परिणाम खेल का वास्तविक परिणाम है (जीत के लिए 1, हार के लिए 0)।

जीत की संभावना टीम की खेल को जीतने की अनुमानित संभावना है।

यह सूत्र हमें प्रत्येक खेल के बाद टीम की एलो रेटिंग को वास्तविक परिणामों के आधार पर समायोजित करने की अनुमति देता है, जो उनकी वास्तविक ताकत का अधिक सटीक परिचायक होता है। यह विधि गुणवत्ता की जीतें और हारों को मापने के लिए उपयोग किया जा सकता है और विभिन्न टीम की ताकत को ध्यान में रखते हुए एक उचित रेटिंग प्रणाली प्रदान करता है।

इसके साथ ही, यह जरूरी भी है कि एलो रेटिंग सीजन की प्रगति के साथ बदलते हैं (क्योंकि सभी टीमें बराबर नहीं होती हैं, शानदार टीमें अक्सर अपनी ताकत बनाए रखती हैं, या कम से कम धीरे-धीरे कम होती हैं - कुछ टीमें नक्शे में आती हैं या बाहर निकलती हैं)। यदि R एक सीजन के लिए टीम का अंतिम एलो है, तो अगले सीजन की शुरुआत में एलो रेटिंग लगभग है:

(R x 0.75) + (0.25 x 1505)

अभ्यास में, आप इस संकेतकों को समय के साथ ट्रैक कर सकते हैं जिसके लिए तीन यादृच्छिक टीमों का चयन करें। इस प्रकार, आप सीजन भर में टीमों की कुल ताकत के बारे में मूल्यवान अनुमान प्राप्त कर सकते हैं।

elo_rating w-100

यहां, हम वास्तव में एक विशिष्ट सीजन में टीम की प्रदर्शन में एलो रेटिंग और एक मजबूत संबंध देख सकते हैं। NBA फाइनल में मुकाबले करने वाले वर्षों में गोल्डन स्टेट वॉरियर्स और क्लीवलैंड कैवलीयर्स के एलो रेटिंग में उच्चताएँ स्पष्ट हैं। हम विद्यमान यह भी देख सकते हैं कि उस समय बास्केटबॉल विश्लेषकों द्वारा व्यापक रूप से पुष्टि की गई थी: पश्चिमी कॉन्फ्रेंस पूर्णतः पूर्ण पूर्ण पूर्ण पूर्ण था। उत्तरी कॉन्फ्रेंस के सामूहिक जीतों के प्रभाव पर एलो रेटिंग के उपराध का प्रभावित होना सुझाता है। हम यह भी देख सकते हैं कि ये टीमें चैंपियनशिप सीजन के बाद तेजी से कैसे कम हो गईं और टीम में बदलाव और चोटों की समस्याओं से कैसे जूझ रही थीं।

2.

हाल की टीम प्रदर्शन (पिछले 10 खेलों के औसत आंकड़े)

पिछले दस खेलों से औसत सांख्यिकी निकालने के लिए, हमें गेम डेटा प्राप्त करना होगा, जिसमें स्कोरिंग, रिबाउंड, असिस्ट, टर्नओवर, ब्लॉक्स, स्टील्स, और विभिन्न अन्य सांख्यिकियाँ शामिल होती हैं। यह डेटा गेम रिकॉर्ड या डेटाबेस से प्राप्त किया जा सकता है। अगले, हम एक सरल फ़ंक्शन का उपयोग करते हैं ताकि हर विशेषता के लिए औसत मूल्य की गणना की जा सके और इन मूल्यों को एक नई डेटा फ्रेम में संग्रहित किया जा सके। यह नया डेटा फ्रेम हर टीम के औसत सांख्यिकी विशेषताओं को शामिल करेगा।

इन औसत सांख्यिकियों की गणना करते समय, शामिल करने वाली विशेषताओं का चयन महत्वपूर्ण है। कुछ सांख्यिकियाँ अन्य से टीम के प्रदर्शन को बेहतर ढंग से प्रकट कर सकती हैं। विशेषता चयन के दौरान, संबंध संश्लेषण, प्राधान्य घटक विश्लेषण (PCA), और जानकारी लाभ जैसे विभिन्न तरीके का उपयोग किया जा सकता है। ये विधियाँ यह निर्धारित करने में मदद करती हैं कि कौन सी विशेषताएँ सर्वोत्तम जानकारी मूल्य रखती हैं और उन्हें औसत सांख्यिकियों की गणना के लिए चुना जाए। औसत सांख्यिकियों की गणना के अलावा, और भी ज्यादा जटिल समय-शृंखला मॉडल का उपयोग करके टीम के प्रदर्शन का और अधिक विश्लेषण किया जा सकता है। इन मॉडल्स में ऑटोरेग्रेसिव एकीकृत चलन औसत (ARIMA) और लांग शॉर्ट-टर्म मेमोरी नेटवर्क (LSTM) शामिल हो सकते हैं। ये मॉडल्स समय के प्रभाव को ध्यान में रखते हैं, प्रवृत्तियों और मौसमी विविधताओं को पकड़ते हैं, और अधिक सटीक पूर्वानुमान प्रदान करते हैं।

हाल के टीम प्रदर्शन का विश्लेषण भी मशीन लर्निंग मॉडल का उपयोग करके किया जा सकता है। ये मॉडल्स विशेषता इंजीनियरिंग के परिणामों का संदर्भ लेते हैं और विभिन्न चर में जटिल संबंधों को और विस्तार से ध्यान में रखते हैं। इस तरह के मॉडल्स में समर्थन वेक्टर मशीन (SVM), निर्णय पेड़, यादृच्छिक वन (random forests), और डीप लर्निंग मॉडल्स शामिल हो सकते हैं। ये मॉडल्स खेल के परिणामों का पूर्वानुमान करने, टीम प्रदर्शन के प्रवृत्तियों का विश्लेषण करने, और रणनीतिक सिफारिशों का निर्माण करने के लिए उपयोग किए जा सकते हैं।

3.

हाल के खिलाड़ी प्रदर्शन (पिछले 10 खेलों की औसत सांख्यिकी)

राष्ट्रीय बास्केटबॉल एसोसिएशन (NBA) की प्रतिस्पर्धी दुनिया में, एक खिलाड़ी के हाल के प्रदर्शन को समझना एक टीम की सफलता की एक कुंजी है। खिलाड़ी के प्रदर्शन सांख्यिकियाँ उनके कौशल, प्रवृत्तियों, और ताकतों में गहरे अंतर्दृष्टि प्रदान करती हैं, और भविष्य के खेल परिणाम का अनुमान करने में मदद करती हैं। इस लेख में हम एनबीए के कुछ खिलाड़ियों की उदाहरण के रूप में उनके सबसे हाल के 10 खेलों की औसत सांख्यिकियों का उपयोग करके एनबीए खिलाड़ियों के प्रदर्शन का मूल्यांकन कैसे करेंगे।

NBA खिलाड़ियों के हाल के 10 खेलों की औसत सांख्यिकियों को निर्धारित करने के लिए, हमें प्रत्येक खेल से विस्तृत डेटा जुटाने की आवश्यकता होती है, जिसमें अंक, रिबाउंड, सहायक, और अन्य शामिल होते हैं।

यह डेटा आमतौर पर से मिल सकता है  nba.com/stats वेबसाइट या डेटा प्रदाताओं से इस डेटा को प्राप्त किया जा सकता है। हम इस डेटा को एक डेटा फ़्रेम में संगठित करते हैं, जहां प्रत्येक पंक्ति एक खेल को प्रतिनिधित्त करती है, और प्रत्येक स्तंभ अंक, रिबाउंड, और इस प्रकार की आंकड़ों की एक सांख्यिकीय विशेषता को प्रतिनिधित्त करती है। फिर, हम प्रत्येक विशेषता के लिए औसत मान की गणना करने के लिए एक सरल फ़ंक्शन का उपयोग करते हैं और इन औसतों को एक नए डेटा फ़्रेम में सहेजते हैं। यह नया डेटा फ़्रेम प्रत्येक खिलाड़ी के औसत सांख्यिकीय विशेषताओं को शामिल करेगा। उदाहरण के लिए, हम दो NBA खिलाड़ियों, लेब्रॉन जेम्स और स्टीफ़न करी के हाल के 10 खेलों के औसत आंकड़ों पर एक नज़र डाल सकते हैं। यह आंकड़े हमें उनकी प्रदर्शन की प्रवृत्तियों को समझने में मदद कर सकते हैं।

लेब्रॉन जेम्स के हाल के 10 खेलों के औसत आंकड़:

औसत अंक: 28.5 अंक

औसत रिबाउंड: 7.8 रिबाउंड

औसत सहायता: 7.2 सहायता

औसत टर्नओवर: 2.3 टर्नओवर

औसत ब्लॉक: 1.1 ब्लॉक

औसत चोरी: 1.5 चोरी

स्टीफन करी के हाल के 10 खेलों के औसत आंकड़:

औसत अंक: 31.2 अंक

औसत रिबाउंड: 5.6 रिबाउंड

औसत सहायता: 6.8 सहायता

औसत टर्नओवर: 2.1 टर्नओवर

औसत ब्लॉक: 0.3 ब्लॉक

औसत चोरी: 1.7 चोरी

औसत आंकड़ों की गणना करते समय, शामिल करने के लिए कौन से विशेषताएँ चुनना महत्वपूर्ण है। विभिन्न विशेषताएँ विभिन्न खिलाड़ी के कौशल और शक्तियों को प्रकट कर सकती हैं। कुछ खिलाड़ी अंक बनाने में उत्कृष्ट होते हैं, जबकि दूसरे रिबाउंड या सहायता पर अधिक ध्यान केंद्रित कर सकते हैं। इसलिए, विशेषता चयन में, हम एक खिलाड़ी के प्रदर्शन को बेहतर समझने के लिए सबसे प्रतिनिधित्वक विशेषताओं को चुनने का विचार कर सकते हैं। इसे संबद्धता विश्लेषण, प्रमुख घटक विश्लेषण (PCA), और जानकारी लाभ जैसी विधियों के माध्यम से प्राप्त किया जा सकता है।

4.

खिलाड़ी का सीज़न प्रदर्शन (पिछला सीज़न और वर्तमान सीज़न)

एक खिलाड़ी के प्रदर्शन को समझने के लिए सीज़न भर में विभिन्न कारकों का ध्यान देना आवश्यक है, जिसमें खिलाड़ी के औसत आंकड़े, चोटें, और खेलने का समय शामिल हैं। ये कारक एक खिलाड़ी के वास्तविक मूल्य और टीम में योगदान का मूल्यांकन करने में महत्वपूर्ण भूमिका निभाते हैं। इस लेख में, हम खिलाड़ी के कोर्ट पर प्रदर्शन को बेहतर समझने के लिए इस डेटा को समन्वित और विश्लेषित कैसे करें, इस पर विचार करेंगे।

औसत आंकड़े:

खिलाड़ी के औसत आंकड़े उनके प्रदर्शन का मूल निर्धारक होते हैं। इन आंकड़ों में सामान्यतः अंक, सहायता, रिबाउंड, स्टील, ब्लॉक, और टर्नओवर शामिल होते हैं, बाकी अन्य। जबकि ये आंकड़े खिलाड़ी के खेलों में कुल प्रदर्शन के बारे में जानकारी प्रदान करते हैं, तो इन्हें सावधानीपूर्वक विवेकानंद ध्यान देना चाहिए क्योंकि ये खिलाड़ी के खेलने के समय और स्थिति से प्रभावित हो सकते हैं। उदाहरण के लिए, एक अंकों पर ध्यान केंद्रित गार्ड को अधिकतम औसत हो सकता है, जबकि एक सेंटर रिबाउंड और ब्लॉक में उत्कृष्ट हो सकता है। इसके अलावा, औसत आंकड़ों को टीम की तकनीकी प्रवृत्ति और समायोजन के प्रभाव से प्रभावित किया जा सकता है। अगर टीम टीमवर्क और पासिंग पर ध्यान केंद्रित करती है, तो खिलाड़ी की सहायता की औसत अधिक हो सकती है। इसलिए, खिलाड़ी के औसत आंकड़ों को विश्लेषण करते समय इन कारकों को ध्यान में रखना जरूरी है ताकि सटीक मूल्यांकन हो सके।

AiLog.Injury Status

चोटें एक सीज़न में खिलाड़ियों के सामान्य मुद्दे होते हैं और इनके प्रदर्शन पर प्रभाव डाल सकते हैं। खिलाड़ी के प्रदर्शन का मूल्यांकन करते समय उनकी चोट की स्थिति को ध्यान में रखना महत्वपूर्ण है। कई मामलों में, खिलाड़ी एक चोट के कारण कई खेलों को छोड़ सकता है, जिससे उनके औसत आंकड़े कम हो सकते हैं। अन्य मामलों में, खिलाड़ी चोट के बाद लौट सकता है लेकिन पहले के तुलन में अच्छा प्रदर्शन नहीं कर सकता है। खिलाड़ी की चोट की स्थिति को समझना उनके वास्तविक मूल्यांकन के लिए महत्वपूर्ण है। टीम सामान्यतः खिलाड़ी की चोट की स्थिति की रिपोर्ट करती है, जिसमें प्रभावित शरीर के विशेष अंगों और अनुमानित पुनर्वास का समय शामिल होता है। यह जानकारी प्रशंसकों और विश्लेषकों के लिए मूल्यवान है क्योंकि यह इंगित करती है कि एक खिलाड़ी क्या खेल में भाग ले सकता है और अपने सर्वश्रेष्ठ रूप में वापस आ सकता है या नहीं।

खेलने का समय:

एक खिलाड़ी का सीज़न के दौरान खेलने का समय एक और महत्वपूर्ण कारक है। विभिन्न खिलाड़ी विभिन्न मात्रा में खेलने का समय प्राप्त कर सकते हैं, जो उनके औसत सांख्यिकियों पर प्रभाव डालता है। स्टार्टर्स आमतौर पर अधिक खेलने का समय प्राप्त करते हैं, जिससे उनके औसत सांख्यिकियों में अधिकार की वृद्धि होती है, जैसे अंक, सहायक और रिबाउंड। उलटे, बेंच के खिलाड़ी को मात्रिक समय मिलता है, जो निकटता के कारण सांख्यिकियों में कमी का कारण बन सकता है। खेलने का समय खेल की स्थितियों पर प्रभाव डाल सकता है। यदि एक टीम किसी खेल में आगे है, तो वे अपने स्टार्टर्स को आराम देने और बेंच के खिलाड़ियों को अधिक खेलने का समय देने का चुनाव कर सकते हैं। ऐसे मामलों में, खिलाड़ी का प्रदर्शन बढ़ सकता है क्योंकि अधिक खेलने का समय होता है। खिलाड़ी के खेलने का समय का विश्लेषण उनके प्रदर्शन को बेहतर समझने में मदद करता है। कभी-कभी, एक खिलाड़ी सीमित खेलने का समय में उत्कृष्टता प्रदर्शित कर सकता है, जो उच्च दक्षता का संकेत देता है। दूसरी ओर, एक खिलाड़ी का व्यापक खेलने का समय में सामान्य प्रदर्शन हो सकता है, जिसे स्थिर होने की जांच के लिए अधिक विश्लेषण की जरूरत हो सकती है।

स्थिति और खेलने का शैली:

खिलाड़ी की स्थिति और उनकी टीम के खेलने के शैली भी उनके प्रदर्शन पर प्रभाव डालती है। विभिन्न स्थितियों को विभिन्न कौशल और जिम्मेदारियाँ चाहिए होती हैं। उदाहरण के लिए, पॉइंट गार्ड्स सामान्यत: समर्थ होते हैं स्कोर करने और हमारा उपक्रम करने के लिए, जबकि सेंटर अधिक रीबाउंडिंग और डिफेंस पर ध्यान केंद्रित करते हैं। इसलिए, खिलाड़ी की स्थिति को उनके प्रदर्शन का मूल्यांकन करते समय ध्यान में रखा जाना चाहिए। इसके अलावा, विभिन्न टीम विभिन्न खेल तकनीक और शैलियां अपनाती हैं। एक टीम सहयोग और पासिंग पर जोर देती है, जबकि दूसरी एकल स्कोरिंग को प्राथमिकता देती है। ये अंतर भी खिलाड़ी के प्रदर्शन पर प्रभाव डालते हैं। जो खिलाड़ी एक टीम में उत्कृष्ट होता है, वह एक औसत प्रदर्शन कर सकता है दूसरी में, क्योंकि उनके कौशल और शैली एक टीम के लिए अधिक उपयुक्त हो सकते हैं। हम खिलाड़ी की औसत सीजन की आँकड़े भी शामिल करने का प्रयास करते हैं। टीमों की तरह, खिलाड़ी खुद अपनी चोट का अनुभव करते हैं या लाइनअप से बाहर होते हैं, और हमारे लिए, यह अधिक महत्वपूर्ण है कि एक खिलाड़ी व्यक्तिगत खेलों में अपने सामान्य स्तर की तुलना में कैसे प्रदर्शन करता है। हम इसे बाद में हमारे मॉडल में प्रयोग करेंगे देखने के लिए कि क्या यह टीम स्तर पर सही पूर्वानुमान बना सकता है।

जीत-हार का रिकॉर्ड:

टीम की जीत-हार की रिकॉर्ड भी खिलाड़ी के प्रदर्शन पर प्रभाव डालती है। जीतने वाली टीम में, खिलाड़ी आमतौर पर अधिक आत्मविश्वास महसूस करते हैं और बेहतर प्रदर्शन करते हैं। उल्टे, हारने वाली टीम में, खिलाड़ी को अतिरिक्त दबाव का अनुभव हो सकता है, जो उनके प्रदर्शन को प्रभावित कर सकता है। जीत-हार रिकॉर्ड खिलाड़ी के आंकड़ों पर भी प्रभाव डालता है। एक खेल में जहां टीम आगे है, वे धीरे-धीरे गति को कम कर सकते हैं, खिलाड़ी के अंक और सहायक सांख्यिकियों को कम करते हुए। वहीं, अगर टीम पीछे है, तो वे अपने हमलों को बढ़ा सकते हैं, जिससे खिलाड़ियों के लिए उच्च सांख्यिकियाँ हो सकती हैं। विभिन्न खेल की स्थितियों में खिलाड़ी के प्रदर्शन का विश्लेषण गहरे अंतःस्थलात्मक अंदाज प्रदान करता है। हम जीतने और हारने वाले खेलों में खिलाड़ी के आंकड़ों की जाँच कर सकते हैं ताकि उनके प्रदर्शन में क्या महत्वपूर्ण अंतर हैं, इसका समझने में मदद मिल सके। यह खिलाड़ी की मानसिकता और अनुकूलिता की बेहतर समझ प्राप्त करने में मदद करता है।

खिलाड़ी की औसत सांख्यिकियों, चोट की स्थिति, खेलने का समय, पद और खेलने की शैली, और खेल की स्थिति को ध्यान में रखकर, हम सत्र के दौरान खिलाड़ी के प्रदर्शन को एक अधिक समग्र समझ प्राप्त कर सकते हैं। ये कारक एक-दूसरे से जुड़े हुए होते हैं और समूह में खिलाड़ी के वास्तविक मूल्य और टीम में योगदान पर प्रभाव डालते हैं।

5.

खिलाड़ी कुशलता रेटिंग

खिलाड़ी कार्यकारिता रेटिंग (Player Efficiency Rating, PER) का उपयोग करके खिलाड़ी कार्यकारिता की तुलना और भविष्यवाणी करने के लिए हमें एक संकेतक बनाना महत्वपूर्ण है, जो खिलाड़ी के कुल पीईआर स्कोर के आधार पर टीम की कार्यकारिता की तुलना और भविष्यवाणी करने का लक्ष्य है। एनबीए में, खिलाड़ी बेंच के खिलाड़ियों या स्टार्टर्स के खिलाड़ियों के खिलाफ खेलने, खेलों की संख्या, और टीम द्वारा निर्धारित खेलने का समय (जैसे, प्रति मिनट अंक) जैसे कारकों के कारण खिलाड़ियों को प्रमुख सांख्यिकीय अतिशृंखलान या कमी का अनुभव हो सकता है। हम उनकी औसतों पर पूरी तरह से निर्भर नहीं करना चाहते क्योंकि खिलाड़ी की क्षमताओं में भिन्नताओं के कारण। पीईआर इस समस्या का समाधान करता है और खेल मिनटों के संबंध में कुछ निश्चित खेल सांख्यिकियों को वेट करके एक संकेतक बनाता है, जो मिनटों के खेलने की प्रति खिलाड़ी की प्रदर्शन की परिभाषा करता है।

प्रत्येक खिलाड़ी के लिए, हम निम्नलिखित सूत्र पर आधारित एक पीईआर स्तंभ जोड़ते हैं:

पीईआर = (एफजीएम x 85.910 + स्टील x 53.897 + 3पीटीएम x 51.757 + एफटीएम x 46.845 + ब्लॉक्स x 39.190 + ऑफेंसिव रिबाउंड्स x 39.190 + असिस्ट x 34.677 + डिफेंसिव रिबाउंड्स x 14.426 - टर्नओवर्स x 53.897) x (1 / मिनट)

डेटा विश्लेषण

हमारा डेटा विश्लेषण मुख्य रूप से हमारे परीक्षण मैट्रिक के रूप में एलो रेटिंग का उपयोग करके घूमता है। मौलिक रूप से, क्या हम यह निश्चित कर सकते हैं कि एलो अन्य सांख्यिकीय डेटा के साथ मेल खाता है और सही ढंग से संरेखित होता है? और क्या खेल के परिणामों की भविष्यवाणी करने के लिए टीम सांख्यिकीय डेटा (एलो रेटिंग) या औसत खिलाड़ी सांख्यिकीय डेटा (पीईआर रेटिंग) का उपयोग करना अधिक उपयुक्त है?

सबसे पहले, आइए समझें कि पूरे NBA सीजन के लिए एलो रेटिंग घनत्व क्या है। यह हमें पूरी लीग के अंदर बराबरता के स्तर के बारे में कुछ जानकारी देता है: अगर हम एक सामान्य वितरण के पास एलो रेटिंग देखते हैं, तो यह संकेत देता है कि लीग में उपलब्ध टीमें अनुमानत: या सुपर टीमों के विकास में महत्वपूर्ण असमानताएं हो रही हैं।

elo_desities

चित्रित: लीग एलो घनत्व के बारह मौसम

हम अब लीग के दृष्टिकोण से एलो रेटिंग को नहीं देख रहे हैं, बल्कि हम यह समझने का प्रयास कर रहे हैं कि एलो रेटिंग अन्य सांख्यिकीय डेटा के भीतर व्यक्तिगत टीमों के प्रदर्शन को कैसे ट्रैक करती है।

वास्तव में, हम देख सकते हैं कि एक टीम के औसत स्कोर और उसके एलो रेटिंग के बीच कुछ संबंध है - खेल खिड़की के अंदर औसत स्कोर ज्यादा होने पर, एलो रेटिंग भी अधिक उच्च दिखती है। हालांकि, हम यह भी देख सकते हैं कि एलो अनुक्रम की संख्या में समान स्कोर के बड़े अंतर हो सकते हैं। स्कोरिंग संबंध को कैसे एलो रेटिंग ट्रैक करती है, इसे बेहतर समझने के लिए, हमने पूरी लीग में औसत स्कोरिंग की तुलना का अध्ययन किया - वहां से, हम यह निर्धारित कर सकते हैं कि क्या स्कोरिंग एलो को बढ़ाता है, प्रायः यहां तक ​​कि लीग में अन्य स्कोरों की तुलना में उच्च स्कोर हो। इस उद्देश्य के लिए, हमें एक ही सीज़न के भीतर एक ही टीम के मामले की जांच करनी है और उनके प्रतिद्वंद्वियों के साथ उनकी स्कोरिंग की वितरण को तैयार करना है।

last_ten_avg_point

यह हमारी समीक्षा की अनुमानितता को साबित करता है, क्योंकि हम देख सकते हैं कि जब औसत अंकों का वितरण उन्हीं स्तरों पर या उनसे अधिक होता है, तो उस सीज़न के लिए Elo अधिक होता है। समूह में बराबर या छोटे मूल्यों के साथ खेलकर के समय टीमों को देखते हुए, उनके Elo स्कोर कम होते हैं। इसलिए, औसत स्कोर खेल के परिणामों को पूर्वानुमानित करने के लिए एक विश्वसनीय निर्धारक है, लेकिन यह काम जब यह निर्धारित किया जाता है। यह हमें दिखाता है कि हमारे जीतने वाले पक्ष को पूर्वानुमानित करते समय, Elo स्कोर कार्य करता है, क्योंकि यह सांख्यिकीय डेटा के संबंध में सांख्यिकीय है।

हम अब टीम सांख्यिकियों पर ध्यान नहीं दे रहे हैं, बल्कि हम यह समझने की कोशिश कर रहे हैं कि क्या एलो टीम प्रदर्शन की तुलना में खिलाड़ियों के प्रदर्शन को बेहतर ट्रैक कर सकता है। इसके लिए, हमने एक समान तरीके से एलो रेटिंग को प्लॉट करने के लिए एक समान यादृच्छिक टीम के औसत स्कोर के साथ प्रयोग किया, इस बार पीईआर रेटिंग का उपयोग करके।

elo

प्लॉट किए गए डेटा से, हम देख सकते हैं कि कुल पीईआर निर्धारित टीम की मजबूती के साथ किसी मुख्यत: विपक्षियों की तुलना में महत्वपूर्ण संबंध नहीं है। इसके बजाय, स्कोरिंग बेहतर अनुवादित होती है - इसका मतलब है कि खिलाड़ी की कुशलता सीधे सबसे ज्यादा स्कोरिंग के साथ संबंधित नहीं है, और प्रतियोगियों के स्कोरिंग के खिलाफ प्रतिस्पर्धा जीतने वाले खेल के निर्धारणक कारक हैं, जो ईलो को प्रभावित करते हैं।

हम इसे और अधिक समझ सकते हैं जब हम उसी दिए गए मौसम में ओरलैंडो मैजिक की औसत पीईआर रेटिंग को विरोधी के साथ तुलना करते हैं और पाते हैं कि टीम की पीईआर औसत या माध्यम टीम की ताकत के साथ लगभग कोई संबंध नहीं होता है।

elo_1
व्यक्तिगत खिलाड़ियों की सांख्यिकी और अंकों पर खेल के परिणामों का पूर्वानुमान करें

मॉडल को चलाने से पहले, हमें डेटा को थोड़ा साफ करने की आवश्यकता है। इस डेटासेट में कुछ खेलों के लिए, हमारे पास एक टीम के लिए खिलाड़ों की आंकड़े हैं लेकिन दूसरे के लिए नहीं - अक्सर बस उस अन्य टीम के लिए सीजन का पहला खेल। इसलिए, हम इस डेटासेट से ऐसे सभी खेलों को हटा देंगे।

खिलाड़ियों के रेटिंग के लिए, हम लॉजिस्टिक रीग्रेशन के बजाय लीनियर रीग्रेशन मॉडल का उपयोग करेंगे क्योंकि हमें केवल जीत या हार की भविष्यवाणी करने के बजाय एक श्रेणी के संभावित मूल्यों (स्कोर) का पूर्वानुमान करना है। हमारे सभी खिलाड़ियों के लिए आरएमएसई (वर्गमूल क्वायर त्रुटि) 5.56 है, जिसका मतलब है कि खिलाड़ियों की सामान्यतः अपनी औसत के आस-पास हर गेम में लगभग 2-3 शॉटों को स्कोर करते हैं या छोड़ते हैं।

परीक्षण के परिणामों को परीक्षित करते हुए, हम हर खेल में प्रत्येक टीम के लिए पूर्वानुमानित स्कोरों को समूहित करेंगे और वास्तविक स्कोरों के साथ तुलना करेंगे। पूर्वानुमानित स्कोरों और विजेता के आधार पर जीतों की संख्या की गणना करते हुए, सटीकता 58.66% है, 2528 खेलों में 1483 जीतें हैं। स्पष्ट रूप से, जैसा कि हमने पहले भी अपने पिछले समय के समय PER वितरण की जांच करते समय जाना, खिलाड़ियों के प्रदर्शन की चरणों की वैयक्तिकता खेल परिणामों की सटीक भविष्यवाणी करने के लिए बहुत अधिक है - खासकर जब इसे टीम के प्रदर्शन के साथ तुलना की जाती है, जो खेलों के दौरान अक्सर अधिक संगत होती है।

निष्कर्ष और भविष्य की समीक्षा

बिल्कुल, यह केवल एनबीए पर ही लागू नहीं होता है, बल्कि विभिन्न खेलों में भी इसका उपयोग किया जा सकता है। हालांकि, हममें से जो लोग एनबीए को बहुत समय से फॉलो कर रहे हैं, एनबीए खेल परिणामों का पूर्वानुमान करने के लिए एक मॉडल बनाना एक दिलचस्प परियोजना होगी। यह एक सटीक लाभ परिणाम प्राप्त करने के लिए एक रोमांचक अवसर प्रदान कर सकता है।

हमारा रैंडम फॉरेस्ट रीग्रेशन मॉडल, रैंडम सर्च सीवी के माध्यम से अनुकूलित किया गया, हमें 67.15% की सबसे अधिक परीक्षण सटीकता प्रदान की। यह लॉजिस्टिक रीग्रेशन मॉडल को थोड़ा अधिक बेहतरीन साबित करता है और व्यक्तिगत खिलाड़ियों की आंकड़ों पर आधारित रीग्रेशन मॉडल से साफ़ बात करता है। पैरामीटर अनुकूलन के लिए GridSearchCV और RandomizedSearchCV का उपयोग समय लेने वाला और गणनात्मक रूप से महंगा था, केवल परीक्षण सटीकता में लघु परिवर्तन लाने वाला। अगर हमारे पास अधिक समय होता, तो हम शायद पैरामीटरों को अधिक अनुकूलित करने और मॉडल का चयन करने के लिए अधिक समय बिता सकते थे।

NBA के सर्वश्रेष्ठ खेल की पूर्वानुमान मॉडल केवल लगभग 70% समय में विजेताओं का सही रूप से पूर्वानुमान लगा सकते हैं। इसलिए, हमारा लॉजिस्टिक रीग्रेशन मॉडल और रैंडम फॉरेस्ट क्लासिफायर वर्तमान पूर्वानुमान सीमा के बहुत करीब हैं। अगर हमारे पास अधिक समय होता, तो हम अन्य मॉडल की खोज करते जिनसे हमें परीक्षण सटीकता कितनी मिल सकती है। कुछ उम्मीदवारों में SGD क्लासिफायर, लीनियर डिस्क्रिमिनेंट एनालिसिस, कनवलूशनल न्यूरल नेटवर्क या नाईव बेस क्लासिफायर्स शामिल हो सकते हैं।