Меси срещу Роналдо (срещу света), издание за научни данни

В днешно време е лесно да се забрави, че науката за данните не е всичко за машинно / задълбочено обучение.
Въпреки че AI е страхотно, науката за данни е с мнозинство практика, която съществува за по-добро разбиране на реалните феномени.

Освен, че съм учен по данни, аз съм и фен на спорта.
Едно нещо, което ме подлудява е фалшивото използване на данни и статистика в спорта.
Много често виждате неуместни факти да се правят предположения и да се сравняват играчите / отборите при много слаба статистика.

Измина малко време, когато исках да създам мярка за сравняване на голове във футболен мач.
Броят, който има най-много цели, е просто грешно.
Гол, отбелязан в 90-та минута, когато таблото показва 1–1, е далеч по-добър от резултат в същата минута, когато поведе 4–0.

Вложих много време и усилия, за да измисля значението на дадена цел, за да установя най-накрая това, което наричам относителна стойност на целта v1.0 (наричана по-нататък RGV1).
Елементите, които RGV1 взема предвид са:
 1. Време за отбелязване на целта
 2. Отборът, срещу който бе отбелязан голът
 3. Гол за дома / гостите
 4. Текущ резултат на играта
Избрах да не дискриминирам наказанията.

В тази публикация ще обясня за системата за оценка на RGV1 и ще я използвам, за да сравня Лионел Меси с Кристиано Роналдо и най-добрите голмайстори (от RGV1) в 5-те основни лиги.

RGV1 система за оценка (TL; DR)

Преди да използваме RGV1, за да сравним оценката на гол на играча, нека разберем за какво става въпрос.
Това е TL; DR версията, ако приемем, че повечето хора, които четат това, няма да искат да навлизат в уравненията, тази част ще обясни същността на системата за оценяване, в края на публикацията можете да намерите пълните уравнения.

** Отказ от отговорност: Докато RGV1 е пропорционален на спечелените точки за отбора, той няма нищо общо с него. RGV1 НЕ измерва колко точки печели играчът за отбора, а по-скоро изчислява сложна стойност на гол.

Точкуването се изгражда по следния начин

Най-важният елемент и най-сложният е стойността на играта.
Стойността на състоянието на играта се различава в диапазона, в зависимост от текущия резултат и оставащото време за игра.
Когато играта се завърже, стойността на гол нараства експоненциално от 1 на 3, според минутата на играта.
Когато води, стойността на дадена цел пада експоненциално с напредването на времето и диапазонът зависи от това колко ръководи екипът.
При проследяване резултатът се държи като при водене, но в по-малък мащаб.

Логиката зад стойността на състоянието на играта е, че:
 - Гол, отбелязан при равенство> гол отбелязан, когато зад> гол, отбелязан при водене
 - При равенство, колкото по-късен гол, толкова по-висока е стойността (гол, отбелязан при равенство в 20 'минута, струва по-малко от гол, отбелязан при равенство в 90' минута)
 - При водене увеличаването на преднината по-рано е по-добре
 - При закъснение намаляването на противниковата преднина по-рано е по-добре.
Преди да взема решение за тези 4 точки и относителността им един към друг, се консултирах с много приятели, някои специалисти на терен, за да бъда максимално точен.

По-долу е представен график със стойността на състоянието на играта:

След това стойността на състоянието на играта се умножава по множителя за качество на отбора, който варира от 0,68 ~ до 1, в зависимост от класирането на отбора противник в края на сезона (мярка за качеството на отбора).
И накрая това се умножава по 1 / 0,9, в зависимост от това дали това е цел на гостите / у дома.
Перфектен 3 резултат ще бъде постигнат при отбелязване на победен гол в 90-ата минута в гост срещу отбора, който завърши сезона на първото място.
Най-ниският възможен резултат ще бъде постигнат при отбелязване на гол, при водене с 3+ в 90-ата минута срещу отбора, който завърши сезона последен.

Преди да преминем към сравнението, някои примери за резултати:
1. В Ла Лига, сезон 2016–2017, целта с най-висок резултат е целта на Лионел Меси на Бернабеу, когато играта беше равна 2–2 в 92-ата минута (резултат от перфектните 3)
2. В Ла Лига, сезон 2016–2017, целта с най-нисък резултат е целта на Тиаго за Атлетико Мадрид срещу Гранада у дома, когато поведе 6–1, в 87-ата минута (Резултат от 0,231)

Разглеждайки 2009–2016 г. в Ла Лига, по-долу са разпределените всички резултати на RGV1 за всички играчи

Меси срещу Роналдо

Сега нека да стигнем до интересната част.
Много се говори за тези двама, и докато в други области на играта е напълно ясно във всяка област кой е най-добър, точният им гол се сравнява постоянно.
Данните, които ще сравняваме, са само за целите на Ла Лига от 2009 г. (когато Роналдо пристигна в Реал Мадрид).

Първо, нека да видим как изглежда цялостната им RGV1 дистрибуция

Е, не е толкова изненадващо ... В числа този сюжет е (Меси / Роналдо)
Средно: 0,950 / 0,943 (по-високо е по-добре)
Стандартно отклонение: 0,547 / 0,485
25 перцентил: 0,461 / 0,578
50 перцентила: 0.854 / 0.861
75 перцентил: 1.232 / 1.246
Минимум: 0,226 / 0,233
Максимум: 3.000 / 2.855

Разглеждайки най-важните цели на Роналдо и Меси (максимум RGV1), интересното е, че и двете се случиха през април, една година разделно.
Меси, победният гол в 92-ата минута на Бернабеу, когато мачът беше равен 2: 2 срещу Реал Мадрид, който спечели титлата в лигата през този сезон.
Роналдо, победният гол в 85-ата минута на „Камп Ноу“, когато мачът беше равен 1–1 срещу Барселона, която през този сезон спечели титлата в лигата.

Движейки се напред, нека видим какъв е общият им принос, което означава сбор от всички RGV1 от 2009 г. до 2016 г.

Меси е вкарал общо 271.629 RGV1, а Роналдо общо 260.228, Меси в 266 участия и Роналдо в 254, което прави средния RGV1 на Меси на външен вид 1.021, а Роналдо 1.024.

Нека се опитаме да разгледаме RGV1 на сезон, като започнем с общия RGV1 на сезон.

Интересното в графиката е, че лидерът на всяка година се разделя равномерно между тях, като всеки от тях заема първото място за 4 сезона.

Сега, изкушаващо да се погледне е средният RGV1 на сезон.
Но истината е, че това е лош показател, тъй като ако двамата бяха вкарали точно еднакви голове, но един от тях вкара допълнителен гол с ниска стойност, той щеше да има по-лоша средна стойност, въпреки че се представи по-добре.
Вместо това ще разгледаме „фиксирана средна стойност“, която би била общата RGV1, разделена на средния брой на целите и на двата в същия сезон.

Тук също можем да видим, че промените в оловото са равни и Роналдо показва по-добра стабилност през годините, докато върховите показатели на Меси превъзхождат резултатите на Роналдо.

Тъй като най-критичният аспект на оценката на RGV1 е стойността на състоянието на играта, вижте как целите се разпределят между различните състояния на играта на играча и минутите.
Първо, от състоянието на таблото

Просто невероятно е да се види, че през 8 сезона Меси и Кристиано имат равен брой отбелязани голове, когато 1 изостават и когато мачът бъде равен.
Забележете, че и двамата отбелязват гол, когато играта е обвързана повече от всяка друга ситуация с резултат, което говори много за приноса им към техните отбори в най-важната точка на играта.

Сега нека да видим как разпределят целите си в минути:

Тук можем да видим, че разпределението на Роналдо е доста равномерно, докато Меси предпочита второто полувреме.

Трябва да кажа, че когато започнах с този проект, знаех, че двамата са феноменални голмайстори, но се надявах да видя един, който ще изпъкне.
Както ни казват данните, няма голяма разлика между двамата и тайната кой е по-добрият голмайстор остава неразрешена….

Но как се подреждат срещу останалите голмайстори?

Меси и Роналдо срещу света

Без да дължим, нека да разгледаме сборите от първите 50 RGV1 класирани голмайстори в периода 2009–2010 -> 2016–2017

Забележете, че освен Меси и Роналдо, в топ 15 има само чисти нападатели.
Съвсем ясно е, че тези двамата се открояват от тълпата, тъй като Ибрахимович, който е най-близо, има общо 182.788, което е на 78 ~ RGV1 точки зад Роналдо и 90 ~ зад Меси.

Също така в този сюжет може да се види, че преброяването на цели и преброяването на RGV1 са две различни неща. Например Левандовски е вкарал много повече голове от Ди Натале, докато Ди Натале е създал повече стойност за своя клуб.
Друго страхотно нещо, което трябва да се види е, че Ибрахимович, Игуаин и Кавани са вкарали много голове, а също така дадоха страхотен RGV1, показвайки голямото си значение за своя клуб.
Вие ще бъдете съдията, но вярвам, че RGV1 отразява стойността на играча за неговия клуб по-добре от броя на целите.

Нека видим как са се представили топ 10 през годините:

Можем да липсваме играчи, които имаха страхотни години в този сюжет, тъй като графиката по-горе показва топ 10 през всички сезони.
По-долу е приложена графика, за всеки сезон поотделно, начертавайки Меси и Роналдо срещу първите 25 голмайстори RGV1, разглеждащи всеки сезон поотделно.

Съдейки по графиките, просто е невероятно какви наистина са феноменалните голмайстори Меси и Роналдо и колко последователно е било тяхното доминиране.
През тези 8 години се появиха много голмайстори, но никой не успя да достигне върховите показатели на Меси и Роналдо, нито да поддържа представянето си за толкова дълъг период.

За да го завърша, заключих под една таблица за всеки сезон с най-добрите 10 играчи от този сезон.

Преди да премина към самите данни, добавих броя пъти, в които играчите са се появявали в топ 5 на сезон:
Меси: 7
Роналдо: 6
Ибрахимович: 4
Милито, Левандовски, Суарес, Кавани, ван Перси: 2

2009-2010

2010-2011

2011-2012

2012-2013

2013-2014

2014-2015

2015-2016

2016-2017

RGV1 система за оценяване

Ако сте стигнали дотук в четенето, поздравявам ви.
Тази част е посветена на уравненията на системата за оценяване на RGV1.

Нека си припомним от какво е направена RGV

Когато TeamQualityMultiplier варира от 0,68 до 1 и се изчислява по следния начин, в таблица с 20 отборни лиги:

Където s е линейна намаляваща стойност между 1 и 0, в зависимост от това колко отбора са в лигата, където отборът, завършил първи, получава 1 и последен 0.

Следва HomeOrAwayGoalMultiplier, който е настроен на 0.9 за домашни игри и 1 за гостуващи игри.

Последно, но със сигурност не на последно място е стойността на състоянието на играта.
Стойността на състоянието на играта действа по различен начин, когато играта е вързана и когато е в полза.
Уравнение за обвързана ситуация:

Където m се увеличава линейно от 0 до log (3) в зависимост от минутата, в която е отбелязана целта, където първата минута е 0, а последната е log (3)

Когато играта е в полза, се използва следното уравнение:

Където m се увеличава линейно от 0 до 1, където 1-вата минута е 1, а последната е 1.
Другата променлива разлика е зададена на фиксирана променлива в зависимост от това дали отборът на голмайстора води или зад:
- Зад с 1 -> diff = log (3)
-Водно с 1 -> diff = 0,85
- Зад с 2 -> diff = 0.6
- Зад с 3 или водещ с 2 -> разлика = 0,3
- Водеща с 3 -> разност = 0,15
- Зад с 3+ или водещ от 3+ -> diff = 0

Някои знания за домейни са поставени в тези уравнения, както можете да разберете.

Последни думи

Надявах се, че ви е харесало това четене, а също така се надявам, че с времето по-добрата статистика и измервания ще влязат в света на футбола.
Бих искал да продължа да проучвам футболни данни, но за съжаление златните стандартни данни като Opta са много трудни за получаване или са много скъпи.
Използването на такива данни (като Opta) може да се направят невероятни неща, особено днес при експлозията на науката за данни и AI.
Днес повечето от клубовете използват анализатори на данни, но разстоянието между анализатор и учен е това, което може да направи всичко различно, което прави този факт доста тъжен.

Чудя се какво би се случило, ако всички тези клубове имаха щатни специалисти по данни ...