Публикации по теме 'sklearn'
Многоразовые функции Python в моем репозитории для быстрой разработки любых моделей машинного обучения.
Построить один раз использовать много
При выполнении любого сквозного проекта по науке о данных любой специалист по науке о данных или студент должен в основном сосредоточиться на определении проблемы, сборе данных, исследовании данных, очистке, статистическом и визуальном анализе, разработке функций, принятие решений и построение модели. Во всем жизненном цикле проекта Data Science один шаг, на который не следует тратить много времени, — это написание кода для построения любых..
Отчет о конкурсе Kaggle CareerCon 2019 (# 121 из 1449, лучшие 9%)
Это были мои первые соревнования Kaggle, и я очень доволен полученным результатом. Я посвятил много часов анализу данных, написанию кода и созданию своего шаблона науки о данных , который помог мне добиться отличного результата. В последние дни соревнований я занимал позицию около 500, однако, когда набор тестов был изменен с общедоступного на частный, я перепрыгнул на много позиций до 121-го места, что означало, что я попал в первые 9% рейтинга соревнований. .
Я начал писать отчеты во..
Комплексный проект сквозного машинного обучения — бронирование отелей отменено? или нет?
Отмена бронирования отелей может стать головной болью как для путешественников, так и для владельцев отелей. Но что, если бы существовал способ предсказать их до того, как они произойдут? Машинное обучение может помочь. В этой статье мы подробно рассмотрим сквозной проект машинного обучения, который использует исторические данные о бронировании отелей, чтобы предсказать, будет ли бронирование отменено или нет.
Во-первых, мы сформулируем проблему и посмотрим на общую картину, обсудив,..
Анализ настроений в Твиттере с использованием Sklearn и NLTK
Простая пошаговая реализация анализа настроений в Твиттере
Введение:
В этом руководстве вы узнаете об анализе настроений в Твиттере с использованием Sklearn и NLTK.
Набор данных Sentiment140:
Набор данных, который мы будем использовать для анализа настроений, доступен здесь на Kaggle и известен как набор данных Sentiment140 . Он состоит из 1,6 млн твитов, извлеченных с помощью Twitter API. Твиты были помечены (0 = отрицательный, 4 = положительный) и будут использоваться для..
Правила угадывания для классификации!
Не используйте его для решения реальных проблем.
Предположим, вам дали набор данных и попросили сделать прогноз, просто взглянув на данные. Что бы вы сделали?
Возьмем пример набора данных — Рак молочной железы из https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(original)
Теперь посмотрим на данные
Вывод:
Учитывая приведенные ниже образцы данных, как мы можем предсказать класс образца?
Без знания предметной области и только приведенных выше цифр,..