Спорт – одно из немногих занятий, которое нравится людям всех возрастов. Люди, страстно поддерживающие свои команды и желающие, чтобы их команды преуспели, всегда были постоянными, это поездка, полная эмоций. Команды тоже, чтобы оправдать ожидания своих болельщиков, стараются всегда улучшать свои выступления.
Технологическая революция позволила нам использовать различные методы обработки данных и извлечения из них идей и выводов.
В этот новый век и время почти все управляется данными, как и спорт.
В этой статье мы поговорим об одном из таких видов спорта: Формуле-1.
Формула-1 — это конкурентоспособная, богатая индустрия стоимостью 4 миллиарда долларов, в основе которой лежат данные. А анализ и осмысление данных — это то, как команды в Формуле-1 процветают и в конечном итоге добиваются успеха.
Ничто не запрещено для сбора данных, пит-стопы, состояние трассы, повороты; сам автомобиль оснащен более чем 100+ датчиками! Эти датчики могут генерировать более 1,1 миллиона точек данных телеметрии в секунду, передаваемых от автомобилей, и контролировать все, от скорости и ускорения автомобиля до угла поворота рулевого колеса и массы израсходованного топлива.
Команды F1, которые уже используют аналитику
Renault Sport и Williams Martini Racing уже начали использовать искусственный интеллект в своих технологиях Формулы-1. Машинное обучение и аналитика используются, чтобы помочь им делать прогнозы и суждения во время гонок. Они также начали использовать ИИ, чтобы помогать им строить автомобили.
Чтобы проанализировать гибридные двигатели, которые Honda поставляет команде Red Bull Racing и Scuderia Alphatauri, компания обратилась к IBM Watson IoT for Autom.
Основные идеи, которые демонстрируются аудитории в удобном формате:
1. Фаворит на победу в гонке
2. Квалификационный темп
3. Стратегическая битва в яме
4. Боевой прогноз
1. Стратегическая битва в яме
Pit Strategy Battle — это визуализация, которая в режиме реального времени показывает положение двух гонщиков и их прогнозируемый разрыв после пит-стопа, а также процентную вероятность обгона, что дает зрителям возможность оценить и взвесить, какой гонщик был лучше. стратегия гонки и ее возможный исход.
Эти две стратегии:
· Подрез
· Перерез
2. Боевой прогноз
F1 — это движение на трассе. Одним из самых интересных действий на трассе являются «битвы» пилотов, которые, по сути, происходят, когда преследующая машина приближается в непосредственной близости и пытается совершить обгон. «Борьба» за место в гонке крайне непредсказуема и иногда становится опасной из-за сочетания наступательного и оборонительного стилей вождения.
Графика Battle Forecast анализирует историю трассы и прогнозируемый темп водителя, используя модели машинного обучения, чтобы получить представление о развитии битв водителей во время гонки, таких как дистанция удара и прогнозируемая сложность обгона.
Изучение набора данных
У нас было огромное количество данных, которые восходят к 1950-м годам до 2020 года. Всего данные содержат 14273 строки и 94 столбца. Такие обширные данные необходимы, во-первых, для правильного обучения модели ML, а во-вторых, для получения/прогнозирования более точных результатов модели ML.
Переменные:
Ниже перечислены различные переменные, которые присутствуют в наборе данных, каждая из которых важна и взаимозависима друг от друга для различных функций, например, для объединения набора данных, существуют первичные ключи, на основе которых объединяется множество небольших файлов для создания одного консолидированного набора данных.
сезон: год чемпионата F1.
раунд: номер гонки. сезона
circuit_id: уникальный идентификатор, назначаемый каждому каналу для правильного различения.
конструктор : владелец команды
grid: начальная позиция в сетке.
status : текущий статус драйвера, будь то перекрытие или какой-либо сбой.
очки : очки, заработанные в гонке.
подиум : финишная позиция в конце гонки
driver_points_after_race: общее количество очков, набранных гонщиком в конце гонки.
driver_wins_after_race: общее количество очков, набранных гонщиком в конце гонки.
constructor_points_after_race: общее количество очков, набранных конструктором в конце гонки.
constructor_wins_after_race: общее количество побед, накопленных конструктором в конце гонки.
Прогресс за год (2020 г.)
На приведенном выше графике показано совокупное количество очков, набранных каждым гонщиком после каждой гонки на протяжении всего чемпионата F1 2020. Из анализа видно, что Хэмилтон намного опережает других гонщиков с самого начала сезона. Почти линейный рост его послужного списка показывает его постоянство в гоночных навыках.
Статистика по ходу сезона:
Эта информативная визуализация дает нам общую статистику разных гонщиков в течение сезона. Он дает информацию о:
● Место водителя
● Команда
● Общее количество баллов
● Общее количество побед в гонках
● Количество подиумов (3 лучших финиша) за сезон
● Очки, которые показывают, сколько раз конкретный гонщик набирал очки в сезоне.
10 лучших гонщиков Формулы-1 по итогам чемпионата с различной статистикой:
На приведенной выше диаграмме показаны различные атрибуты, такие как количество пройденных кругов, общее количество набранных очков, общее количество побед и т. д. для каждого гонщика. И, как мы видим, Хэмилтон, выигравший сезон, имел впечатляющую статистику, где он набрал 347 очков, одержал в общей сложности 11 побед, в общей сложности поднялся на 14 подиумов и завершил сезон с 6 самыми быстрыми кругами.
Прогнозирование позиций на подиуме чемпионата Формулы-1 2019 года с использованием классификации случайного леса и сравнение с фактическими результатами
Образец кадра данных, созданного с использованием данных F1 за 1983–2019 годы, приведен ниже.
Обучающий набор данных
Данные за годы до 2019 года используются в качестве обучающих данных, на которых будет обучаться модель классификации случайных лесов.
Построение модели классификации баллов
Функция score_classification выполняется для вычисления оценки точности, которую можно использовать для вычисления оценки для любого алгоритма ML. Здесь шаблон score_classification используется только в случайном лесу, но поскольку он динамический, его можно применять где угодно.
В то время как данные за годы до 2019 года используются в качестве данных поезда, данные за 2019 год используются в качестве тестовых данных.
Классификация случайного леса:
Здесь классификатору случайного леса дается другой критерий, такой как «джини» и «энтропия», «max_features» задается как 0,8, что представляет собой долю функций, которые необходимо учитывать для алгоритма, а «max_depth» также определяется как 5.
Классификация score_classification, которая была объяснена выше, используется для расчета оценки для различных комбинаций «критерий», «max_features» и «max_depth». Комбинация, дающая максимальное количество очков, используется для прогнозирования подиума для каждого гонщика.
Вероятность того, что водитель финиширует первым, и y_predict против y_test:
Из score_classification получается вероятность того, что гонщик финиширует первым (prob_1) или нет (prob_0). Из классификатора случайного леса получается переменная y_predict, которая предсказывает, финиширует ли он на подиуме 1-м, и данные y_test также совпадают с теми же. .
Заключение
Мы узнали, что Ф1 — это спорт, который очень зависит от данных для достижения лучших и оптимальных результатов. Благодаря различным типам визуализации мы смогли проанализировать выступление каждого гонщика в чемпионате F1.
Основываясь на классификации случайного леса, мы попытались предсказать гонщика №1 в чемпионате 2019 года, и прогнозированные результаты показали, что Хэмилтон имеет наибольшую вероятность (70%) занять 1-е место на подиуме, а настоящим победителем также стал сам Гамильтон.
Более того, с помощью этой модели прогнозировалось, что в тройку лучших подиумов вошли Хэмилтон, Ферстаппен и Леклерк, в то время как фактические результаты показали, что Хэмилтон и Ферстаппен заняли тройку лучших подиумов. Это говорит о хорошей точности модели. Используя алгоритмы машинного обучения, каждый год можно прогнозировать победителей чемпионата F1 с хорошей степенью достоверности.
Авторы:
Шрирам https://www.linkedin.com/in/sriram-chidambaram-063773170