Tribuna/Футбол/Блоги/Tribuna Challenge Night/Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Внесемо трохи математики в життя нашого спортивного сайту.

26 сентября 2021, 17:00
27
Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Доведемо, що Tribuna.com може бути й освітнім сайтом.

Прогнозування - один із базових аспектів світової економіки. За допомогою його методів моделюються потоки фінансів, людей, продуктів харчування і всього іншого на майбутнє, аби оцінити стан ринку чи її конкретної галузі. Якщо за розрахованим прогнозом отримуємо результат вищий за дійсний, це означає, що ринок рухається на курс розвитку, якщо нижчий - значить, навпаки, на курс деградації.

Прогнозування включає різноманітні методи, найточніші з яких можуть передбачити цифри на роки вперед. Але, звичайно, вони не завжди будуть точними, адже неможливо передбачити певні форс-мажорні обставини, які негативно чи позитивно вплинуть на економіку та відповідно вплинуть на реальні цифри прогнозованого аспекту. Одним із прикладів таких форс-мажорів є пандемія коронавірусу: за всіма статистичними прогнозами, складеними наприкінці десятих років XXI століття, у 2020 році всі галузі світової економіки мали розвиватися, але раптовий початок карантину зупинив цей розвиток на кілька років уперед. Тому від прогнозування чогось глобального на найближчі роки варто утриматися, адже найчастіше гістограма за роками має наступний вигляд (одним словом, без чіткої кореляції - звикайте, це слово ви побачите тут ще багато разів):

Але це не означає, що в наші буремні часи в університеті вас не проситимуть робити купу рефератів на тему прогнозування та його методів з реальними прикладами та розрахунками. Так само це не означає, що прогнозування не може стосуватися спорту. Ще й як може! Тому ми розглянемо два базові методи прогнозування на прикладі українського спорту: візьмемо один показник з чіткою кореляцією (тобто коли всі дані з вибірки більш-менш рівні між собою) та один - без неї (дані дуже розкидані й між ними немає зв'язку). До того ж, на ці показники пандемія або зовсім не вплинула, або цей вплив був дуже мінімальним - у межах статистичної похибки.

Метод 1: проєктування трендів

Приклад: кількість коментарів Андрія Міняйла на Трибуні за добу

Прогнозуватимемо, скільки коментарів пан Міняйло залишить сьогодні за цілий день ще до того, як цей день закінчиться. Для цього спершу треба сформувати вибірку. Візьмемо дані добової кількості коментарів Міняйла за минулі 10 днів та за допомогою кореляції між ними визначимо, скільки коментарів він залишить сьогодні, тобто на день одинадцятий. Вносимо ці дані в Excel (дні позначаємо не датою, а порядковим номером від 1, щоб не збити розрахунок):

Далі будуємо графік цих даних. Я користуюся англомовною версією Екселя, в мене він називається x-y scatter. Для цього переходимо в меню Вставка, і там знаходимо піктограму з точками на графіку, і обираємо графік з прямими лініями і точками:

На білому полі, що з'явилося посеред листа, клікаємо правою кнопкою миші. Знаходите кнопку Вибрати дані та клікаєте на неї (тепер вже лівою кнопкою). У вікні, що з'явилося, натискаєте кнопку Додати зліва та обираєте дані. Вісь іксів у нас дні, а вісь ігреків - кількість коментів. На моєму зразку це виглядає так:

Двічі натискаєте кнопку ОК і вас повертає на основний робочий лист. Далі треба додати на графік лінію трендів, позначивши її рівнянням функції, що цій лінії відповідає. Для цього клікаєте на графік правою кнопкою миші, обираєте функцію Додати лінію трендів. Справа має з'явитися поле, де обираємо тип лінії трендів - Лінійний, а знизу ставимо галочку навпроти тексту "Показати рівняння на графіку". До графіку має додатися пунктирна лінія з рівнянням, написаним біля неї.

Використовуємо це рівняння, щоб знайти значення у (в нашій ситуації у - і є прогнозована кількість коментарів від Міняйла на сьогоднішній день). Замість х у рівняння підставляємо число 11 (адже ми рахуємо для 11 дня; якщо елементів у вашій вибірці була інша кількість n, значить і число буде іншим - рівним n+1). Обраховуємо результат і за необхідності округляємо. Тут ця необхідність є, адже коментарів може бути тільки ціла кількість без дрібних частин. За прогнозуванням методом трендів виходить, що кількість коментарів, яку Андрій Міняйло напише сьогодні дорівнює: y=-0.0667*11+52.067=51.3. Округлюємо і робимо висновок: сьогодні кількість коментарів від Міняйла дорівнюватиме 51. Кому буде не ліньки, порахуєте після опівночі.

Метод 2: економетрія

Приклад: набрані очки «Олександрією» за сезон

Але не завжди елементи в вибірці корелюватимуть так, як корелювала добова кількість коментарів Андрія Міняйла. Там кореляція не була чіткою, але з огляду на те, що всі елементи вибірки коливалися в межах 5 коментарів на рівні шостого десятку, простенький метод трендів можна було безкарно використати. Та скажімо, «Олександрія» щосезону демонструє в чемпіонаті України з футболу різні результати: то виходить до єврокубків, то посідає місця в нижній частині таблиці. Ось вам середня кількість очок за матч, набрана цією командою щосезону після повернення в УПЛ у 2015 році:

Я взяв саме середню кількість, адже кількість матчів щосезону різнилася: то команд було 14, то 12, то 16. Для чемпіонатів з 12-ма командами, що складалися з двох етапів, я рахував середні очки, набрані лише в регулярній частині, адже після поділу на шістки «Олександрія» була то в першій половині, то в другій, де відповідно відрізняється складність матчів і брати очки ще й звідти було б не дуже репрезентативно. Загалом, як бачите, середній розкид результатів набагато вищий, ніж у випадку з коментарями Міняйла за добу, іще й на рівні сотих одиниць в межах цілого числа, тому така чітка кореляція не простежується. Це краще видно на графіку:

Тому спрогнозувати, скільки точно очок здобуде «Олександрія» цього сезону, буде куди важче, ніж у першому випадку. Тож тепер використаємо точніший спосіб. Для прогнозування за економетричним методом нам треба буде встановити пакет Аналізу даних. Він може бути в вас встановлений заздалегідь - зайдіть в меню Дані і перевірте, чи є кнопка з відповідною назвою справа.

Якщо ж його нема - перейдіть в меню Файл і далі знайдіть там панель Параметри, а в них оберіть кнопку Надстройки (Add-ins). У надстройках Excel знайдіть Аналіз даних та встановіть. За кілька секунд в вашому меню Дані з'явиться відповідна функція. Обирайте її та у вікні, що з'явилося, знайдіть функцію Регресія.

Далі треба обрати дані x та y. Працюємо за старою схемою: дані y в нас - середня кількість очок за сезон, а дані x - цифри від 1 до 6 (адже в нас 6 сезонів у вибірці; в вас кінцеве число може бути іншим). Їх я ввів у окремий стовпчик. Також помітьте галочкою, щоб у вас з'явилися Мітки (Labels).

Після того, як ви натиснули кнопку ОК, має з'явитися новий лист із результатами регресійного аналізу даних. Там серед іншого у клітинці В5 можна знайти середньоквадратичне відхилення R-квадрат. Чим ближча вона до одиниці - тим чіткіша кореляція. В нашому випадку воно дорівнює 0.003513, отже, як я казав раніше, чіткої кореляції в результатах «Олександрії» справді нема.

Тепер перейдемо до безпосередньо процесу прогнозування, а саме спрогнозуємо, скільки очок «Олександрія» набере в сезоні 2021/2022. Формула для розрахунку виглядає так: множимо 7 (адже розраховуємо результат для 7 сезону) на розрахований коефіцієнт з клітинки В18 і додаємо до Y-перетину з клітинки B17. В нашому випадку прогнозовані набрані очки «Олександрією» в УПЛ цього сезону в середньому на матч дорівнюють 7*(-0.01329)+1.494406=1.401376. Множимо цей результат на 30 (саме стільки матчів буде в УПЛ цього сезону, адже кількість команд збільшилась до 16), округляємо до цілих і отримуємо наступний висновок: у сезоні 2021/2022 футбольний клуб «Олександрія» здобуде 42 очки в українській Прем'єр-Лізі. Чи вистачить цього для виходу в єврокубки?

Сподіваюся, цей матеріал вам справді знадобиться як у житті, так і в спорті. Тож надалі користуйтеся точними статистичними методами, описаними тут, перед тим як робити прогнози на якісь спортивні події (скажімо, кінцеву таблицю УПЛ).

Чи припав вам до вподоби мій практично підтверджений опис статистичних методів прогнозування та їх використання в українському спорті? Пишіть свою думку в коментарях!

Лучшее в блогах
Больше интересных постов

Другие посты блога

TCN news. upcoming soon..
8 апреля 2023, 00:30
2
TCN Awards 2022
31 декабря 2022, 15:50
2
TCN review
6 января 2022, 19:34
18
TCN Awards 2021
1 января 2022, 13:54
13
Все посты