কে হবে ২০১৮ সালের বিশ্বকাপ জয়ী দল? – গণিত সেটা বলে দিচ্ছে

প্রত্যেক বিশ্বকাপে জার্মানি দক্ষ, জনপ্রিয় এবং কাপের যোগ্য দাবিদার দল হিসেবে খেলতে যায়। জার্মানিকে অনেকটা মনে হয় ক্লাসের সবচেয়ে দুর্দান্ত ভালো ছাত্রের মতো। হয়তো সেই ভালো ছাত্রটি জনপ্রিয় নয় কিন্তু নিজের সেরাটা দিয়ে সে চেষ্টা করে এবং ভালো ফলাফল পায়। জনপ্রিয়ের দিক দিয়ে দেখা যায় ব্রাজিল এবং আর্জেন্টিনার অনুসারী অনেক বেশী। কিন্তু কোন না কোন ভাবে দেখা যায় জার্মানির খেলাটা অন্যদের তুলনায় প্রত্যেকবারই ভালো হয়। বাজিকর (Bookmaker) যারা তারা জুয়া খেলার মতো বেট ধরে, যে কোন দল জিতবে।বড় বড় বাজিকর বা বাজিকরদের কোন প্রতিষ্ঠান পরিসংখ্যানবিদ নিয়োগ করে থাকে যাতে করে তারা আগের এবং বর্তমান বিভিন্ন তথ্য উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলের নাম বলতে পারে। বাজিকররা সেই দলের উপর তাদের অর্থ খাটিয়ে বাজি ধরে। প্রতিবার বিশ্বকাপের সময়েই এমনটি হয়ে থাকে।

২০১৮ বিশ্বকাপ; Image Source: AMEinfo

এবারেও এমন হয়েছে। ২০১৮ বিশ্বকাপের বিভিন্ন সম্ভাবনার কথা মাথায় রেখে সেগুলো বিশ্লেষণ করে বাজিকররা বলছে যে এবার ব্রাজিল বিশ্বকাপ জিতবে এবং এই সম্ভাবনা ১৬.৬ শতাংশ। এরপরেই ১২.৮ সম্ভাব্যতা নিয়ে আছে জার্মানি এবং তারপর আছে স্পেন, যার সম্ভাবনা ১২.৫ শতাংশ। এই বিশ্লেষণ হয়েছে গনিত এবং পরিসংখ্যানকে এক করে। বর্তমানে এই কৃত্রিম বুদ্ধিমত্তার যুগে আরেকটি বিষয় ব্যাপক জনপ্রিয়তা পেয়েছে যাকে বলা হয় মেশিন লার্নিং। এই বিষয়টি একাধারে গণিত, পরিসংখ্যান এবং কম্পিউটার বিজ্ঞানের মিশেল। গণিতের ভিতরে সম্ভাব্যতাটা (Probability) এখানে বেশী ব্যবহার করা হয়। কিন্তু এই বিষয়ের জনপ্রিয়তা অন্যান্য বিষয়ের গবেষকদের কাছেও ছড়িয়ে পড়েছে। আগের তত্ত্ব এবং উপাত্ত ব্যবহার করে ভবিষ্যতে কি ঘটবে সেটার একটি সম্ভাব্য গাণিতিক বিশ্লেষণ করে এই মেশিন লার্নিং। পরিসংখ্যানে বিভিন্ন ধরণের গাণিতিক মডেল আছে যেগুলো একটি নির্দিষ্ট পরিসংখ্যানিক বণ্টন পদ্ধতি (Statistical Distribution) অনুসরণ করে। আবার এসব মডেলের প্রয়োগ করতে হলে কোন ধরণের ডাটা বা উপাত্ত ব্যবহার করা হচ্ছে সেটা ঠিক করে এগোতে হয়। তাছাড়া এই মডেলগুলো তৈরির পেছনে বেশ কিছু পূর্বানুমান (Assumption) ঠিক করে নিতে হয়।

কে হবে ২০১৮ বিশ্বকাপের বিজয়ী দল; Image Souce: infokusi.com

কিন্তু মেশিন লার্নিং-এ এই ধরণের সমস্যা নেই। তারা ডাটা ঠিক রেখে কয়েকটি গাণিতিক সিদ্ধান্তের মাধ্যমে ফলাফল এনে দেয়। পরিসংখ্যানবিদরাও এখন মেশিন লার্নিং নিয়ে কাজ করছে কারণ এই বিষয়ের মূল ধারণাটি গাণিতিক পরিসংখ্যানের মধ্যেই নিহিত। এমনকি বিভিন্ন সময় প্রমাণ পাওয়া গিয়েছে যে মেশিন লার্নিং প্রচলিত পরিসংখ্যান থেকে ভালো এবং উপযুক্ত ফলাফল দেয়। সেজন্য ২০১৮ বিশ্বকাপকে সামনে রেখে জার্মানির Technical University of Dortmund এর একদল বিজ্ঞানী মেশিন লার্নিং ব্যবহার করে একটি মডেল দাড় করিয়েছেন। বিভিন্ন উপায় রয়েছে মেশিন লার্নিং এর ভিতরে। বিভিন্ন গাণিতিক এলগরিদম তৈরি করা আছে এখানে। জার্মানির এই বিজ্ঞানীরা অনেকগুলো পদ্ধতির মধ্যে থেকে Random Forest পদ্ধতিটি বেঁছে নেন।

এই পদ্ধতি বিশ্বকাপ সম্পর্কিত বিভিন্ন বিষয়ের উপাত্ত বিশ্লেষণ করে সম্ভাব্য বিজয়ী দলকে বেছে নিয়েছে। তাছাড়া অন্যান্য অনেক পদ্ধতি যেমনঃ Classification Analysis and Regression Tress, Deep Learning/ Deep Neural Network, Support Vector Machine ইত্যাদি বিভিন্ন মেশিন লার্নিং পদ্ধতি থাকা সত্তেও Random Forest কেন বেছে নেয়া হলো, এটা নিয়ে মতভেদ থাকতে পারে। তবে এই পদ্ধতির একটি সুবিধা হচ্ছে অন্যান্য পদ্ধতির গাণিতিক বিশ্লেষণের ভিতরে কিছু সমস্যা থাকে যেগুলো Random Forest খুব সহজেই এড়িয়ে যেতে পারে। মেশিন লার্নিং এর যেকোনো পদ্ধতিতে দুই ধরণের ডাটা ব্যবহার করা হয়। একটি হচ্ছে- Training Data, অর্থাৎ এই ডাটার উপর গাণিতিক বিশ্লেষণ করে ডাটার বিভিন্ন প্যাটার্ন বের করা হবে। আরেকটি ডাটা হচ্ছে Testing Data, এই ডাটার মাধ্যমে গাণিতিক পদ্ধতি ব্যবহার করে যে প্যাটার্ন পাওয়া গিয়েছে সেটা কতটুকু সত্য এবং নির্ভরযোগ্য সেটা প্রমাণ করা হয়।

২০১৮ বিশ্বকাপের ফিকচার; Image Source: arxiv.com

Random Forest অনেকগুলো বিষয়ের উপাত্তগুলো নিয়ে সেগুলো থেকে বিশ্লেষণ করে সর্বাধিক গুরুত্বপূর্ণ বিষয় বা ভেরিয়েবলগুলো চিহ্নিত করে। এই কাজটি হয় কয়েকটি ধাপে বিভিন্ন সিদ্ধান্তের মাধ্যমে। এই সিদ্ধান্তগুলোর কয়েকটি নোডের মাধ্যমে দেখানো হয়। প্রথমে অনেকগুলো ডাটা নিয়ে কাজ শুরু করা হয়। বিভিন্ন ভেরিয়েবলগুলোর ডাটার উপর গাণিতিক বিশ্লেষণ করে পরের ধাপে যে যে ভেরিয়েবলের গুরুত্ব বেশী এবং সেই ভেরিয়েবলগুলো ঘটার সম্ভাবনা বেশী সেগুলো রাখা হয়, বাকিগুলো ফেলে দেয়া হয়। এভাবে অনেক সন্নিবেশ বিন্যাস করার পর সর্বোত্তম ফলাফল নিয়ে একটি Decision Tress তৈরি করা হয় যেটার একদম শেষের দিকে প্রধান ফলাফল দেয়া থাকে।

এতক্ষণ মেশিন লার্নিং নিয়ে আলোচনা করা হলো। এবার মূল বিষয়ে আসা যাক। জার্মানির সেই গবেষকদল প্রথমে পূর্বের বিশ্বকাপের ডাটা নিয়ে প্রতিটি খেলার সম্ভাব্য ফলাফল বিশ্লেষণ করেন এবং সেই ফলাফল থেকে বিশ্বকাপ জয়ী দল বের করেন। যেকোন কিছু ভবিষ্যদ্বাণী করতে হলে এমন কিছু বিষয়ের উপর লক্ষ্য রাখতে হয় যেটা সরাসরি ওই জিনিষ বা বস্তুর উপর প্রভাব ফেলবে। জার্মানির এই গবেষকদল, এমন কিছু বিষয়ের উপর জোর দিয়েছেন যেগুলো সরাসরি বিশ্বকাপের জয়ী দলের উপর প্রভাব ফেলবে। যেমনঃ বিশ্বকাপে খেলছে এমন দেশের অর্থনৈতিক অবস্থা, জিডিপি, ফিফার র‍্যংকিং, দলগুলোর ভিতরের বিভিন্ন বৈশিষ্ট্য, তাদের খেলার ধরণ, খেলোয়াড়দের বিভিন্ন তথ্য যেমনঃ কার বয়স কতো, কয়জনের চ্যাম্পিয়ন্স লীগ খেলার অভিজ্ঞতা রয়েছে, দলের কতজন খেলোয়াড় এসব লীগের সেমি ফাইনাল এবং ফাইনালে খেলেছে, বিভিন্ন বিশ্বকাপের শুরু আগে কোন দলের কেমন র‍্যংকিং ছিল, একই দলের কতজন ক্লাবগুলোতে একই সাথে খেলেছে এবং অন্যদলের কতজন সেখানে একসাথে খেলেছে, দুটি দেশ যখন মুখোমুখি হয় তখন দুই দলের মধ্যে কতজন এক সাথে ক্লাবে খেলেছে এবং কত বছর ধরে খেলছে ইত্যাদি বিষয়াদিগুলো Random Forest বিশ্লেষণ করার জন্য ব্যবহার করা হয়েছে এখানে। এছাড়া এই ভবিষ্যদ্বাণী করার সময় গবেষকরা বাজিকরদের বর্তমান এবং পূর্বের তথ্য-উপাত্তও বিশ্লেষণ করেছেন।

গবেষণা দেখা গিয়েছে ২০১৮ এর ফাইনাল হবে ব্রাজিল-জার্মানির মধ্যে; Feature Image Source: footballia

এসব বিষয় নিয়ে যখন বিশ্লেষণ করা শুরু হলো তখন দেখা গেলো যে ফলাফলের উপর সবচেয়ে বেশী প্রভাব ফেলছে দলগুলোর র‍্যংকিং। এছাড়া অর্থনৈতিক বিষয়াদিগুলোও প্রভাব ফেলেছিল, এমনকি কোন দলের কোচ কোন দেশের এবং তাদের পূর্বের কৃতিত্ব এসবও প্রভাবক হিসেবে কাজ করছিলো। মোট ১৬টি বিষয় বিবেচনা করে এই গবেষণাটি করা হয় এবং বিশ্লেষণের প্রথম দিকে দেখা যায় যে স্পেনের এবার বিশ্বকাপ জেতার সম্ভাবনা সবচেয়ে বেশী। তাদের সম্ভাবনা ১৭.৮ শতাংশ।

কিন্তু ভবিষ্যদ্বাণীর করার সময় আরেকটি বিষয় খেয়াল রাখতে হবে যে বিভিন্ন পর্বে এবার কে কোন দলের সাথে খেলছে। সেজন্য এই বছরের ফিকচার খুলে বসে সেটা দেখতে হবে। এই ব্যাপারটি যখন বিশ্লেষণের মধ্যে আনা হলো তখন দেখা গেল যে জার্মানি যদি ১৬ দলের নকআউট পর্বে উঠে তাহলে তারা অনেক বেশী শক্ত প্রতিপক্ষের সামনে পড়বে, যেটা স্পেনের ক্ষেত্রে অনেক কম হবে। সেজন্য কোয়ার্টার ফাইনালে যাওয়ার সম্ভাব্যতা জার্মানির ক্ষেত্রে ৫৮ শতাংশে নেমে আসে এবং স্পেনের ক্ষেত্রে সেই সম্ভাবনা ৭৮ শতাংশে বেড়ে যায়। এই বিশ্লেষণ থেকে আরেকটি ব্যাপার উঠে আসে যে যদি দুই দলই কোয়ার্টার ফাইনালে যায় তাহলে স্পেনের সম্ভাবনা বেশী সেমিফাইনালে যাওয়ার কারণ জার্মানি বাদ পড়ে যেতে পারে, অন্তত অঙ্ক কষে সেটাই বোঝা যাচ্ছে।                    

কিন্তু এই ধরণের গাণিতিক মডেল তৈরি করতে হলে আরও অনেক বিষয় খেয়াল রাখতে হয়, না হলে মডেলে ভুল থাকার সম্ভাবনা বেড়ে যায়। Random Forest এর মাধ্যমে পুরো বিশ্বকাপটির সিমুলেশন বা গাণিতিকভাবে সম্ভাব্য অনুলিপি তৈরি করা যায়। যখন সিমুলেশন করা হচ্ছে তখন অন্যরকম ফলাফল পাওয়া যাচ্ছে।

বিশ্বকাপের প্রথম দিকে স্পেনকে মনে হতে পারে বিশ্বকাপ চ্যাম্পিয়ন; Feature Image Source: vavel.com

এক লক্ষ বার এই সিমুলেশন চালানো হয় এবং বিশ্লেষণ করা হয়। এতোবার বিচার-বিশ্লেষণ করার পরে দেখা যাচ্ছে যে স্পেন নয়, এবার জার্মানি বিশ্বকাপ জিতে ব্রাজিলের পাঁচ বারের বিশ্বকাপ জিতে যাওয়াতে ভাগ বসাবে। এখান থেকে তারা বুঝতে পারেন যে স্পেন হয়তো বিশ্বকাপের শুরুর দিকে ভালো খেলবে কিন্তু জার্মানি যদি কোয়ার্টার ফাইনাল পর্যন্ত পৌঁছে যায় তাহলে জার্মানির জিতে যাওয়ার সম্ভাবনাই বেশী।

এই মডেল দেখলে আরও বোঝা যাচ্ছে যে ফাইনাল হবে ব্রাজিল এবং জার্মানির মধ্যে এবং জার্মানির জিতে যাওয়ার সম্ভাবনা ৬৮ শতাংশ। সেমিফাইনাল হবে ব্রাজিল-ফ্রান্স এবং স্পেন-জার্মানির মধ্যে। সেখান থেকে ব্রাজিল এবং জার্মানির ফাইনালে যাওয়ার সম্ভাবনা যথাক্রমে ৫৯% এবং ৫৫%। কোয়ার্টার ফাইনালেই আর্জেন্টিনার বিশ্বকাপ শেষ হওয়ার সম্ভাবনা দেখা যাচ্ছে ৬৩%।

Random Forest প্রয়োগ করার পর সম্ভাব্য ফলাফল; Feature Image Source: arxiv.com

তবে যে যে বিষয় নিয়ে এই গবেষণা এবং ভবিষ্যদ্বাণী করা হয়েছে সেগুলো যে খুব বেশী কার্যকর তা কিন্তু নয়। কারণ দলের ভিতরকার ইনজুরি সংখ্যা আগের বিশ্বকাপগুলোতে কেমন ছিল এবং এবার কেমন- সেটার উপর গুরুত্ব দেয়া হয়নি, খেলোয়াড়দের নিজ দেশের হয়ে খেলার সময় কেমন কৃতিত্বের সাক্ষর রেখেছে সেটার কোন উপাত্ত নেয়া হয়নি, খেলোয়াড়দের খেলার সময়কার বিভিন্ন দক্ষতা যেমনঃ কোন বিশ্বকাপে কে বেশী গোল করেছে, কোন দল বেশী গোল করেছে, কোন দলের কোন খেলোয়াড় কতবার এসিস্ট করেছে, কর্নার থেকে কয়বার গোল হয়েছে, কোন দল কত মিনিটে গোল দিয়েছে, হাফ টাইমের আগে কতবার গোল হয়েছে এবং গড়ে কয়টা হয়েছে, কোন দল প্রতিটা খেলায় কীভাবে জিতেছে, দলের খেলোয়াড় কতবার বল পাস করেছে- এই জিনিষগুলো মডেলে আনা হয়নি। এগুলোর ডাটা সংগ্রহ করা এখনকার যুগে মোটেও অসম্ভব কিছু নয়। এগুলো দিয়েও যদি বিশ্লেষণ করা হতো তাহলে আরও ভালোভাবে ফলাফল পাওয়া যেতে পারতো।

তবুও আধুনিক গাণিতিক তত্ত্ব ব্যবহার করে যে বিশ্লেষণ জার্মান গবেষকদল করেছে সেটা কতটুকু সত্য হয় সেটা বৃহস্পতিবার থেকে শুরু হতে যাওয়া বিশ্বকাপ শেষ হওয়ার পরই বোঝা যাবে।

Related Articles