Публикации по теме 'data-visualization'
Что лучше? Python против R. Tableau против Power BI.
… И какое это имеет значение? Вот 3 фактора, которые следует учитывать.
Часто, когда я просматриваю LinkedIn или сообщения в блогах, я вижу разговоры о том, что один инструмент / технология лучше, чем другой, или почему один лучше, чем другой. Многие разговоры сейчас, вероятно, вращаются вокруг Python против R. В мире визуализации данных я часто вижу Tableau против Power BI. Когда я только начинал писать код, это было C ++ против Java (хотя я уверен, что это обсуждение все еще..
Кто каким языком пользуется? Получение информации из опроса разработчиков Stack Overflow 2019 г.
Этот проект является частью программы Udacity Data Science Nano Degree. Подробный анализ с вспомогательным кодом можно найти в моем репозитории GitHub .
Stack Overflow, широко известное любимое онлайн-сообщество, выступающее в роли Quora для программистов , проводит ежегодный опрос, который дает ценную информацию о разработчиках. В Ежегодном опросе 2019 года приняли участие более 90 000 респондентов, и этот показатель растет по сравнению с 2015 годом.
Вопросы, которые я..
Обработка пропущенных значений в данных в Python
Обработка пропущенных значений в данных имеет решающее значение. Возникают вопросы, как с этим справиться, учитывая пустое, нулевое или большое положительное и большое отрицательное значение, с которыми не так просто справиться. Как потом использовать эти значения, как после этого обрабатывать данные.
Некоторые люди имеют дело с отсутствующими значениями, удаляя строки или кортежи, в которых есть отсутствующие значения. Иногда удаляются целые столбцы.
Вот несколько основных шагов для..
Обрежьте, закрепите хорошо…
Реальные данные беспорядочные. При исследовании, преобразовании, визуализации или моделировании выбросы часто вызывают головную боль. Один из наиболее распространенных способов справиться с выбросами - это обрезать значения (также известные как «ограничение» или «обрезка») в определенном диапазоне. Например, усечение значений цен в диапазоне от 0 до 1000 долларов означает, что любая отрицательная цена заменяется на 0 долларов, а слишком большие цены устанавливаются на 1000 долларов...
Техническая статья: Полное руководство по исследовательскому анализу данных
Введение в исследовательский анализ данных (EDA) Методы очистки и преобразования данных Описательная статистика для обобщения данных Методы визуализации данных для EDA Пример рабочего процесса EDA в Python
Исследовательский анализ данных (EDA) является важным методом для понимания и анализа данных в области науки о данных. EDA помогает вам исследовать структуру ваших данных, выявлять закономерности и выбросы, а также получать представление о ваших данных, которое может помочь в..
Набор в кампус: EDA и классификация - Часть 2
Наука о данных
Набор в кампус: EDA и классификация - Часть 2
День 15 из 100 дней науки о данных
Добро пожаловать в мое 100-дневное путешествие по задаче в области науки о данных. На 15-й день я работаю над набором данных Campus Recruitment Dataset, доступным на Kaggle .
Вы можете прочитать мою предыдущую часть здесь:
Набор в кампусе: EDA и классификация - Часть 1 День 13 и 14 из 100 дней науки о данных medium.com
Во..
Разоблачение моих предположений о данных о трафике
От исследования данных до обучения модели: как извлечь максимальную пользу из наборов данных о трафике.
Недавно я проанализировал данные о трафике в США за 2015 год в рамках хакатона. Набор данных о дорожном движении был составлен Министерством транспорта США и доступен в Google BigQuery .
Организатор хакатона не поставил никакой задачи, кроме как выделить и найти 5 наиболее очевидных паттернов из этого набора данных. Я так и сделал — так оно и было.
Подход
У меня был..