Tribuna/Футбол/Блоги/Tribuna Challenge Night/Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Внесемо трохи математики в життя нашого спортивного сайту.

27
Методи статистичного прогнозування для чайників. Пояснюємо на прикладі «Олександрії» та Андрія Міняйла

Доведемо, що Tribuna.com може бути й освітнім сайтом.

Прогнозування - один із базових аспектів світової економіки. За допомогою його методів моделюються потоки фінансів, людей, продуктів харчування і всього іншого на майбутнє, аби оцінити стан ринку чи її конкретної галузі. Якщо за розрахованим прогнозом отримуємо результат вищий за дійсний, це означає, що ринок рухається на курс розвитку, якщо нижчий - значить, навпаки, на курс деградації.

Прогнозування включає різноманітні методи, найточніші з яких можуть передбачити цифри на роки вперед. Але, звичайно, вони не завжди будуть точними, адже неможливо передбачити певні форс-мажорні обставини, які негативно чи позитивно вплинуть на економіку та відповідно вплинуть на реальні цифри прогнозованого аспекту. Одним із прикладів таких форс-мажорів є пандемія коронавірусу: за всіма статистичними прогнозами, складеними наприкінці десятих років XXI століття, у 2020 році всі галузі світової економіки мали розвиватися, але раптовий початок карантину зупинив цей розвиток на кілька років уперед. Тому від прогнозування чогось глобального на найближчі роки варто утриматися, адже найчастіше гістограма за роками має наступний вигляд (одним словом, без чіткої кореляції - звикайте, це слово ви побачите тут ще багато разів):

Але це не означає, що в наші буремні часи в університеті вас не проситимуть робити купу рефератів на тему прогнозування та його методів з реальними прикладами та розрахунками. Так само це не означає, що прогнозування не може стосуватися спорту. Ще й як може! Тому ми розглянемо два базові методи прогнозування на прикладі українського спорту: візьмемо один показник з чіткою кореляцією (тобто коли всі дані з вибірки більш-менш рівні між собою) та один - без неї (дані дуже розкидані й між ними немає зв'язку). До того ж, на ці показники пандемія або зовсім не вплинула, або цей вплив був дуже мінімальним - у межах статистичної похибки.

Метод 1: проєктування трендів

Приклад: кількість коментарів Андрія Міняйла на Трибуні за добу

Прогнозуватимемо, скільки коментарів пан Міняйло залишить сьогодні за цілий день ще до того, як цей день закінчиться. Для цього спершу треба сформувати вибірку. Візьмемо дані добової кількості коментарів Міняйла за минулі 10 днів та за допомогою кореляції між ними визначимо, скільки коментарів він залишить сьогодні, тобто на день одинадцятий. Вносимо ці дані в Excel (дні позначаємо не датою, а порядковим номером від 1, щоб не збити розрахунок):

Далі будуємо графік цих даних. Я користуюся англомовною версією Екселя, в мене він називається x-y scatter. Для цього переходимо в меню Вставка, і там знаходимо піктограму з точками на графіку, і обираємо графік з прямими лініями і точками:

На білому полі, що з'явилося посеред листа, клікаємо правою кнопкою миші. Знаходите кнопку Вибрати дані та клікаєте на неї (тепер вже лівою кнопкою). У вікні, що з'явилося, натискаєте кнопку Додати зліва та обираєте дані. Вісь іксів у нас дні, а вісь ігреків - кількість коментів. На моєму зразку це виглядає так:

Двічі натискаєте кнопку ОК і вас повертає на основний робочий лист. Далі треба додати на графік лінію трендів, позначивши її рівнянням функції, що цій лінії відповідає. Для цього клікаєте на графік правою кнопкою миші, обираєте функцію Додати лінію трендів. Справа має з'явитися поле, де обираємо тип лінії трендів - Лінійний, а знизу ставимо галочку навпроти тексту "Показати рівняння на графіку". До графіку має додатися пунктирна лінія з рівнянням, написаним біля неї.

Використовуємо це рівняння, щоб знайти значення у (в нашій ситуації у - і є прогнозована кількість коментарів від Міняйла на сьогоднішній день). Замість х у рівняння підставляємо число 11 (адже ми рахуємо для 11 дня; якщо елементів у вашій вибірці була інша кількість n, значить і число буде іншим - рівним n+1). Обраховуємо результат і за необхідності округляємо. Тут ця необхідність є, адже коментарів може бути тільки ціла кількість без дрібних частин. За прогнозуванням методом трендів виходить, що кількість коментарів, яку Андрій Міняйло напише сьогодні дорівнює: y=-0.0667*11+52.067=51.3. Округлюємо і робимо висновок: сьогодні кількість коментарів від Міняйла дорівнюватиме 51. Кому буде не ліньки, порахуєте після опівночі.

Метод 2: економетрія

Приклад: набрані очки «Олександрією» за сезон

Але не завжди елементи в вибірці корелюватимуть так, як корелювала добова кількість коментарів Андрія Міняйла. Там кореляція не була чіткою, але з огляду на те, що всі елементи вибірки коливалися в межах 5 коментарів на рівні шостого десятку, простенький метод трендів можна було безкарно використати. Та скажімо, «Олександрія» щосезону демонструє в чемпіонаті України з футболу різні результати: то виходить до єврокубків, то посідає місця в нижній частині таблиці. Ось вам середня кількість очок за матч, набрана цією командою щосезону після повернення в УПЛ у 2015 році:

Я взяв саме середню кількість, адже кількість матчів щосезону різнилася: то команд було 14, то 12, то 16. Для чемпіонатів з 12-ма командами, що складалися з двох етапів, я рахував середні очки, набрані лише в регулярній частині, адже після поділу на шістки «Олександрія» була то в першій половині, то в другій, де відповідно відрізняється складність матчів і брати очки ще й звідти було б не дуже репрезентативно. Загалом, як бачите, середній розкид результатів набагато вищий, ніж у випадку з коментарями Міняйла за добу, іще й на рівні сотих одиниць в межах цілого числа, тому така чітка кореляція не простежується. Це краще видно на графіку:

Тому спрогнозувати, скільки точно очок здобуде «Олександрія» цього сезону, буде куди важче, ніж у першому випадку. Тож тепер використаємо точніший спосіб. Для прогнозування за економетричним методом нам треба буде встановити пакет Аналізу даних. Він може бути в вас встановлений заздалегідь - зайдіть в меню Дані і перевірте, чи є кнопка з відповідною назвою справа.

Якщо ж його нема - перейдіть в меню Файл і далі знайдіть там панель Параметри, а в них оберіть кнопку Надстройки (Add-ins). У надстройках Excel знайдіть Аналіз даних та встановіть. За кілька секунд в вашому меню Дані з'явиться відповідна функція. Обирайте її та у вікні, що з'явилося, знайдіть функцію Регресія.

Далі треба обрати дані x та y. Працюємо за старою схемою: дані y в нас - середня кількість очок за сезон, а дані x - цифри від 1 до 6 (адже в нас 6 сезонів у вибірці; в вас кінцеве число може бути іншим). Їх я ввів у окремий стовпчик. Також помітьте галочкою, щоб у вас з'явилися Мітки (Labels).

Після того, як ви натиснули кнопку ОК, має з'явитися новий лист із результатами регресійного аналізу даних. Там серед іншого у клітинці В5 можна знайти середньоквадратичне відхилення R-квадрат. Чим ближча вона до одиниці - тим чіткіша кореляція. В нашому випадку воно дорівнює 0.003513, отже, як я казав раніше, чіткої кореляції в результатах «Олександрії» справді нема.

Тепер перейдемо до безпосередньо процесу прогнозування, а саме спрогнозуємо, скільки очок «Олександрія» набере в сезоні 2021/2022. Формула для розрахунку виглядає так: множимо 7 (адже розраховуємо результат для 7 сезону) на розрахований коефіцієнт з клітинки В18 і додаємо до Y-перетину з клітинки B17. В нашому випадку прогнозовані набрані очки «Олександрією» в УПЛ цього сезону в середньому на матч дорівнюють 7*(-0.01329)+1.494406=1.401376. Множимо цей результат на 30 (саме стільки матчів буде в УПЛ цього сезону, адже кількість команд збільшилась до 16), округляємо до цілих і отримуємо наступний висновок: у сезоні 2021/2022 футбольний клуб «Олександрія» здобуде 42 очки в українській Прем'єр-Лізі. Чи вистачить цього для виходу в єврокубки?

Сподіваюся, цей матеріал вам справді знадобиться як у житті, так і в спорті. Тож надалі користуйтеся точними статистичними методами, описаними тут, перед тим як робити прогнози на якісь спортивні події (скажімо, кінцеву таблицю УПЛ).

Чи припав вам до вподоби мій практично підтверджений опис статистичних методів прогнозування та їх використання в українському спорті? Пишіть свою думку в коментарях!

Лучшее в блогах
Сегодня, 19:32Автор
Карім Бензема придбав новий BMW M5, не витративши навіть усієї своєї денної зарплати — черговий суперкар для француза
Сегодня, 18:45Автор
Серхіо Рамос запально станцював під пісню Тейлор Свіфт — іспанець показав, на що здатен
Сегодня, 17:05Автор
Про махач сезону в українському футзалі
4
Сегодня, 17:03Автор
Месси разнес уровень судей МЛС из-за незнания правил во время спорного момента – жесткая критика от Лео
Сегодня, 16:21Автор
Игроки клуба Ла Лиги эффектно отпраздновали выход в ЛЧ следующего сезона – уже начали тренировать важную традицию
1
Сегодня, 16:02Блог
«Злили сезон - зіллємо й форму». Найсмішніші коментарі тижня на «Трибуні»
1
Сегодня, 15:35Блог
🫱🏻‍🫲🏻 Футболіст ПСЖ відреагував на сториз s1mple із поверненням на просцену CS. Одне, але багатослівне емоджі
Україна
Больше интересных постов в блогах
Daggetkin
Можу сказати одне: це не колонка
Ответить
7
Барановський Сергій
ответил на комментарий пользователя Daggetkin
Так, стоп. А завданням була визначена колонка?
Ответить
2
Daggetkin
ответил на комментарий пользователя Барановський Сергій
Ні, але ж це не відміняє факту, що це не колонка)
Ответить
8
Барановський Сергій
ответил на комментарий пользователя Daggetkin
Ну так то да, ніщо не колонка окрім колонки)
Ответить
1
Показать еще 1
Барановський Сергій
Не заздрю суддям. Цікавий хід)
Ответить
5
ответил на комментарий пользователя Барановський Сергій
Так, їм це все читати😂
Ответить
3
анатолій постовий
мощно, но слишком мало андрюхи и слишком много иксов и игреков) вообще, хитро - использовать университетскую домашку в баттле блогеров))
Ответить
5
ответил на комментарий пользователя анатолій постовий
Ты меня раскусил( Надо много Андрюхи? Зайди в комменты к рандомной новости УПЛ. Не благодари
Ответить
6
Ігор Симоненко
Нічого не зрозуміло, але цікаво. Пропоную суддям виставити оцінки після завершення сезону в УПЛ.
Ответить
3
ответил на комментарий пользователя Ігор Симоненко
Хороша ідея, але ні))
Ответить
1
Олександр Письменний
Статистика і прогнозування речі невдячні
Ответить
2
ieronim
Фу, жахливі флешбеки з 5 курсу університету... Лінія тренду, функція КОРЕЛ..... *Істерично кричить
Ответить
2
Дмитро Гнатюк
Дивлюсь на оцінки суддів, та сижу в мікрошоці. Прочитавши пост, в думках була лише одна думка: "навіть якщо-б я був у своїй найліпшій формі - все одно написав би текст гірше, ніж цей". Так ні. Різниця невелика в оцінках. Від мене власному посту було би 6, або максимум 7, а твоєму мінімум 8, якщо не 9. Може це моє бачиння, але це дійсно так. Дивлячись на це все трохи образливо. Міг же виграти, навіть з такою неоригінальною задумкою, просто перечитавши текст, хоч і погоджуюсь з Мінером - ти міг в суху виграти мене, якщо-б написав свій середній пост. Ти як Гвардіола - якщо програв би, то сам собі:)
Ответить
1
ответил на комментарий пользователя Дмитро Гнатюк
Для мене цей батл був дуже не в тему) Адже я готую пости для великого конкурсу. Але я викликався, щоб поширити ідею Мілнера, щоб вона жила і після його батлу з Ернесто. Тож вирішив піти ва-банк і написати такий дивний пост)
Ответить
0
Ернесто Гоінгевей
Цікавий підхід до написання прогнозу, можна лиш подякувати за реалізацію такої ідеї. Давненько не бачив статистки перед очима і ще приємніше, що розписувати її довелось теж не мені :) Тепер до суті самої статті. Оскільки це не науковий форум, а спортивний сайт - то стаття видається трохи складною для розуміння. Окрім того, перед тим як розповідати про кореляцію та статистичне прогнозування людям, які в цьому не тямлять - треба завжди зазначати наступне: Кореляція не передбачає причинно-наслідкового зв’язку. Сам інструмент може бути використаний як для того, що розписано у статті, так і для пошуку прогнозів у залежності часу проїзду маршрутки через проспект Правди в Києві із кількістю метеоритів, що розбились на поверхні Марсу за один земний день. :) Щодо методів. Стаття пропонує два методи прогнозування: 1. Побудова трендової лінії (або ж best-fit line англ.) 2. Лінійну регресію (до речі, не було вказано в статті - що регресія саме лінійна, адже є ще інші види) Якщо мені не підводить пам’ять - то ці речі є, у своїй суті, однаковими. Best-fit line на графіку проєктується саме за допомогою методу лінійної регресії. Здається, ми тут маємо один і той же метод під різними соусами :) Лінійна регресія справді не буде дуже точною тут (ще залежить від кількості результатів, які надаються для прогнозування). Можливо краще було б використати метод найменших квадратів, але тут можу помилятися - сто років вже не дивився у книжки зі статистики. Оцінка - 8
Ответить
1
ответил на комментарий пользователя Ернесто Гоінгевей
Дякую) Так і є, я аналізував лише лінійну регресію, адже обидва приклади демонструють саме лінійну залежність. Параболічну, логарифмічну, експоненціальну і тд демонструють більш складні показники, де й кількість залежних більша. Фактично це є два різні методи саме для Екселя, адже це - базове ПЗ для розрахунку прогнозів. Метод найменших квадратів я опустив, бо R квадратичне за нас люб‘язно рахує Ексель, та й я орієнтувався стосовно бази, яку можна порахувати за допомогою Екселя без додаткових розрахунків
Ответить
1
Milnersawthepyramids!
Одразу попереджу, що я дикий гуманітарій, тому можу щось бовкнути смішне для технарів, але ж ми й не на тематичному форумі, а на спортивному сайті. Перше що прийшло на думку після прочитання заголовку та статті - якщо це посібник для "чайників" - то на якому ж я тоді рівні? На мою думку потрібно або одразу попередити, що інформація у пості для читачів які вже мають деякі знання по темі або хоч мінімально підвести до теми та розказати, що є така програма як Ексель, в якій можна не тільки робити красиві рівні таблички, а ще й щось порахувати (а це не жарт наприклад для 90% людей яких я знаю). В першому розділі статті мова йде про проектування трендів, але ж крім того, що треба сформувати вибірку про сам метод, як він працює, яка його логіка, не розповідається, просто далі чудо-Ексель все зробить за нас. Далі стаття перетворюється на посібник по Екселю якоїсь там версії, ще й англомовної. Я, як гордий володар ніщебродської Убунту з Лібре Офісом, з цікавістю прочитав що можна зробити у деяких програмах. Навіть якщо враховувати, що я в Екселі працював і знаю що це таке - пояснення не дуже зручне. Підсумовуючи - не вийшло ні зрозумілого пояснення по методу прогнозування ні посібника по Екселю. Щодо другої частини статті про Олександрію - тут починається відверта ельфійська мова. Я перечитав щоб не збрехати разів 7, але мій скромний досвід користування Екселем та взагалі у точних науках ніяк не допоміг. Із плюсів посту - оригінальне рішення - по суті не зробити прогноз, а розповісти як його робити, це дуже сподобалося. Але реалізація та вузька направленість зробили своє діло. Оцінка 6, але додам бал за випуск посту за майже місяць до дедлану (це мене по зрозумілим причинам дуже мене вразило) ), та за те, що ти сам творець та двигун цього баттлу. Остаточна оцінка - 7. (П.с. ти мій улюблений користувач цього сайту без всіляких "один із". Мені здається, що ти міг би легко виграти, якщо б просто написав свою середньостатистичну статтю, але ти вирішив написати цю. Тому вийшло як вийшло).
Ответить
1
ответил на комментарий пользователя Milnersawthepyramids!
Дякую! Просто цей батл без турнірної мотивації раптово виліз, довелося імпровізувати, щоб не розкривати всіх козирів перед реальним конкурсом)
Ответить
1
Milnersawthepyramids!
ответил на комментарий пользователя Ochoaїксперґшантаж-Троєщина №510 ✙
Администрация TCN выражает Вам благодарность за содействие в развитии и популяризации проекта и за такие теплые слова))
Ответить
1
Панове судді, не поспішайте з оцінками. Поставте їх, будь ласка, після дедлайну)
Ответить
1
Ернесто Гоінгевей
ответил на комментарий пользователя Ochoaїксперґшантаж-Троєщина №510 ✙
А коли він там, нагадайте)
Ответить
1
ответил на комментарий пользователя Ернесто Гоінгевей
5.10
Ответить
1
ответил на комментарий пользователя Ернесто Гоінгевей
Ти не забув за оцінки?)
Ответить
0
Показать еще 1
Денис Лисянец
Мені сподобалося. Видно, що ти заморочився. Не перераховуватиму плюси - їх багато. А от по мінусам: 1. Мені не сподобалося, що ти притягнув сюди Міняйла. Так, він зараз популярний на просторах Трибуни і це типу як актуально і весело, але мені хотілося б щось цікавіше і спортивніше. 2. Я б заголовок підібрав дещо інший, бо у мене склалося враження, що він не дуже відповідає змісту посту. 3. Ці скріни, таблички і все інші - це весело і цікаво, але я б хотів бачити трошки більше пояснення суті самого методу, навіщо він треба, де його використовують та специфіку використання (це в тебе є), і трішки менше того, як його юзати. Оскільки я чомусь думаю, що не більше 10% людей, що прочитали цей пост, побігли зразу в ексель пробувати прогнозувати, скільки картоплі вони зберуть чи скільки разів вдаряться мізинцем об цей клятий поріг за наступний тиждень. От, це із головних нарікань. Порівнювати твій пост і пост Пилипа дуже непросто, вони кардинально різні. Його пост мені сподобався тріііішечки більше через задумку, але в тебе краще виконання. Тому в ієрархії постів цього конкурсу для мене різниця між вашими постами дуже маленька. Тож від мене оцінка 8. Така ж, яку й поставив конкуренту. Можливо, надто хитро з мого боку, але я не можу сказати, що якийсь із постів був значно кращим за інший. Тому так.
Ответить
0
ответил на комментарий пользователя Денис Лисянец
Дякую за оцінку)
Ответить
0