От исследования данных до обучения модели: как извлечь максимальную пользу из наборов данных о трафике.
Недавно я проанализировал данные о трафике в США за 2015 год в рамках хакатона. Набор данных о дорожном движении был составлен Министерством транспорта США и доступен в Google BigQuery.
Организатор хакатона не поставил никакой задачи, кроме как выделить и найти 5 наиболее очевидных паттернов из этого набора данных. Я так и сделал — так оно и было.
Подход
У меня был ограниченный опыт работы с наборами данных о трафике, но у меня было множество предположений для данных, связанных с объемом трафика и условиями трафика. Из этих предположений и моего собственного исследовательского анализа данных я сформировал гипотезы и изо всех сил пытался их доказать!
1. Влияние праздников и памятных дат в США на ежедневный объем трафика
Когда я просматривал данные о пробках в США, моей первой мыслью было множество голливудских фильмов, в которых были сцены, в которых семьи проезжали долгие часы в пробках в праздничные сезоны. Поэтому я решил проверить свою гипотезу о том, что всплеск дневного объема трафика в основном вызван праздничным сезоном.
Я импортировал даты праздников в США в 2015 году и создал табличную визуализацию, в которой каждая точка данных обозначает объем трафика, наблюдаемый в этот день.
После построения средней линии я заметил, что даты праздников не влияли на объем трафика, как видно из распределения точек «Y» (оранжевые).
Я решил расширить количество выделенных точек, чтобы включить +/- 1 день вокруг праздников (т.е. на Рождество — 24 декабря и 26 декабря). Тем более, что был реальный шанс, что путешественники будут путешествовать по стране за день до/после праздника.
К сожалению, даже с расширением выделенных точек я все равно не заметил закономерности между датами праздников и объемом трафика. Фактически, существует более высокий процент непраздничных дат, которые превышают средний объем трафика (57,77%), по сравнению с праздничными датами (51,47%). Это еще раз доказывает, что моя первоначальная гипотеза была ошибочной.
2. Корреляция между временем суток и ежедневным объемом трафика
Что касается моей второй задачи, я хочу выяснить, какой период 24-часового цикла оказывает наибольшее влияние на ежедневный объем трафика.
Я сделал это с помощью тепловой карты корреляции между временем суток и общим дневным трафиком.
plt.figure(figsize=(20,10)) c= df2.corr() sns.heatmap(c,cmap='BrBG',annot=True) c
Значения корреляции
После сортировки значений я заметил, что часы пик после работы оказывают большее влияние на общий дневной трафик по сравнению с утренним трафиком перед работой, так как из 5 самых высоких коррелированных значений 4/5 приходится на периоды с 15:00 до 19:00.
Затем таблица обычно следует за утренними часами пик, за которыми следуют дневные периоды. Я также заметил, что значения отрицательной корреляции — это нечетные периоды без трафика с 00:00 до 03:00.
3. Геометрическое расположение транспортных станций с учетом дорожно-транспортных происшествий и смертельных случаев
После первых двух анализов я не мог не задаться вопросом, был ли объем трафика показательным для всех Соединенных Штатов, поскольку обязательно должны быть сельские районы, где сбор данных может быть проблемой. Существует целый ряд причин для сбора данных о дорожном движении, таких как экономические и экологические причины. Однако, на мой взгляд, главная причина должна состоять в том, чтобы ограничить количество дорожно-транспортных происшествий и смертей в результате этих аварий.
Поэтому моя гипотеза состоит в том, что правительство США разместит дополнительные дорожные станции в штатах, где риск дорожно-транспортных происшествий более вероятен.
Чтобы проверить свою гипотезу, я использовал OpenStreetMap и дополнительные источники данных от Национальной администрации безопасности дорожного движения (NHTSA) — 2015 Traffic Accident Dataset.
После нанесения транспортных станций на OpenStreetMap я заметил несколько горячих точек и хочу разделить карту на кластеры с помощью кластеризации KMeans для дальнейшего анализа.
Методом локтя обнаружено 7 кластеров. Кроме того, я также решил построить тепловую карту, чтобы лучше показать плотность транспортных станций.
«Горячие» зоны можно определить по графику плотности по желтому и светло-зеленому оттенкам. Имея эту информацию, пришло время сравнить состояния в этих «горячих» зонах с показателями смертности.
10 штатов с наибольшим количеством дорожно-транспортных происшествий (2015 г.)
10 штатов с наибольшим количеством погибших в результате несчастного случая (2015 г.)
Проанализировав тенденции несчастных случаев и смертельных случаев в каждом штате, я заметил, что в штатах с большим количеством аварий, скорее всего, на дорогах будут установлены дорожные посты. Это доказывает, что моя гипотеза была верна, и государственные чиновники, скорее всего, разместят больше станций на дорогах с повышенным риском аварий.
4 и 5. Прогнозирование объема трафика в Калифорнии
В предыдущем анализе я заметил, что в Калифорнии установлено наибольшее количество дорожных станций, и была значительная разница по сравнению со вторым по величине штатом, Джорджией.
Поэтому в моем последнем анализе я решил сосредоточиться на штате Калифорния и развернул несколько моделей машинного обучения, чтобы прогнозировать объем трафика.
Результаты модели
После опробования различных моделей машинного обучения модель линейной регрессии по-прежнему остается моделью, которая дает самый низкий результат RMSE. После развертывания его на финальном тестовом наборе данных я смог уменьшить среднеквадратичное отклонение эталона примерно на 47875,341 до окончательного RMSE 25285,543, улучшение почти на 50%.
Оценка важности функции
Я заметил, что первые три балла принадлежат функциям, связанным с количеством дорожек. Вероятно, это связано с тем, что дороги с большим количеством полос движения, такие как автомагистрали, могут вместить большее количество транспортных средств разных классов, веса и объема. Таким образом, увеличивая объем трафика. И наоборот, для дорог с небольшим числом полос движения.
По нижним баллам мы можем заметить, что направленный поток путешествующего транспорта оказывает наименьшее влияние на объем трафика. Следовательно, я считаю, что функции, которые имеют большее значение в этой прогностической модели, основаны на классификации дорог, а не на потоке трафика.
Будущие работы
В проектах по науке о данных моделирование данных редко заканчивается. Даже если модель была одобрена для развертывания, всегда есть возможность продолжить доработку модели, используя более совершенные инструменты машинного обучения или новые источники данных.
Я считаю, что в этом проекте окончательная модель может быть улучшена, если данные, предоставленные хакатоном, будут включать такие характеристики, как погодные условия, условия освещения, тип пересечения дорог, наличие дорожных сооружений и т. д.
В ходе этого проекта я случайно наткнулся на исчерпывающий набор данных Системы отчетности по анализу смертельных исходов НАБДД, в котором регистрируются случаи столкновения транспортных средств. Я чувствую, что этот набор данных был бы отличным способом дополнить анализ, который я сделал выше, и я рад продолжить раскрывать множество гипотез, которые у меня есть на уме о данных о трафике.
Коды этого проекта можно найти в моем репозитории git здесь.
Удачного кодирования!