Публикации по теме 'data-engineering'
Эффективный Python, часть 4: базовая оптимизация Pandas
Добро пожаловать в четвертую и последнюю часть из четырех статей о том, как писать более эффективный код на Python. В первой части мы проверили самые основы: код Pythonic, встроенные функции и немного о том, как numpy может повысить скорость. Во второй части мы научились измерять, какой код быстрее, и сравнивать эффективность. В третьей части мы рассмотрели несколько способов сделать код тура более…
Почему я, штатный дата-инженер, пишу, и почему все специалисты по данным должны делать то же самое
Забудьте о пассивном доходе; сосредоточиться на углублении знаний, укреплении доверия и растущей осведомленности в области данных, иногда неправильно понимаемой.
Будучи репетитором, я на собственном опыте убедился в преимуществах развития знаний через…
50 практических вопросов на собеседовании по Python среднего уровня, которые наверняка приведут вас к высокооплачиваемой работе
Лучшие языки программирования IEEE Spectrum 2021 года — это Python, с Python многое происходит. Python со временем становится ведущим языком программирования для инженерии данных, науки о данных, анализа данных, машинного обучения и искусственного интеллекта. Он также доминирует в веб-решениях с фреймворками Django, Flask и т. д.
Если вы хотите сделать карьеру в Python и хотите проявить себя на собеседованиях, то эти практические вопросы по Python среднего уровня, несомненно, помогут..
Первые шаги в машинном обучении с Apache Spark
Основные понятия и темы пакета Spark MLlib
Введение
Apache Spark — один из основных инструментов обработки и анализа данных в контексте BigData. Это очень полная (и сложная) структура обработки данных с функциями, которые можно условно разделить на четыре группы: SparkSQL и DataFrames, универсальные потребности в обработке данных; Spark Structured Streaming, используемый для обработки потоков данных; Spark MLlib для машинного обучения и обработки данных и GraphX, API для обработки..
Как установить GOOGLE_APPLICATION_CREDENTIALS в Python
Настройка учетных данных приложения по умолчанию и исправление oauth2client.client.ApplicationDefaultCredentialsError
Добро пожаловать в наш учебник по настройке учетных данных приложения по умолчанию для Google Cloud и Python. В этой статье мы расскажем, как правильно установить GOOGLE_APPLICATION_CREDENTIALS в Python.
Чтобы иметь возможность программно взаимодействовать со службами Google Cloud Platform, такими как Google BigQuery, вам сначала необходимо правильно..
Лучшие практики разработки признаков
Разработка функций является краеугольным камнем в области машинного обучения, превращая необработанные данные в осмысленные идеи, которые могут показать разницу между посредственной моделью и исключительно эффективной.
1. Осознайте проблему и изучите данные
Путешествие без направления редко приводит к успеху. Прежде чем углубляться в манипулирование данными или написание кода, необходимо определить цель и проблемы. Приобретение знаний в предметной области является ценным активом;..
Инжиниринг данных с помощью Rust и Apache Arrow DataFusion 3/4 — Загрузка и обработка данных
Добро пожаловать в третью часть моей серии статей Инженерия данных с помощью Rust и Apache Arrow DataFusion . Доступ к первой части здесь .
В предыдущей статье я разработал простой интерфейс командной строки с помощью Clap. Этот интерфейс командной строки может обрабатывать спецификации команд конечного пользователя для входных/выходных файлов и предоставляет подкоманду для настройки операции фильтрации. Затем эти конфигурации командной строки проверяются и объединяются в Rust..