Нынешнее поколение специалистов по обработке данных неустанно работает над удовлетворением растущего спроса на аналитические данные, основанные на данных, от имени практически всех отраслей, поэтому естественно сделать шаг назад и спросить, как может выглядеть «специалист по данным 2.0» в следующие 5–10 лет. В этой статье мы возьмем наш хрустальный шар и попытаемся охарактеризовать это следующее поколение.

В идеале следующее поколение специалистов по обработке данных должно быть намного более развитым, чем кто-то, кто технически подготовлен в той степени, которая необходима для получения удобной работы с изменяющей жизнь зарплатой (хотя это, безусловно, приятно). Напротив, следует поощрять специалистов по обработке данных следующего поколения к тому, чтобы они стали хорошими специалистами в решении проблем, которые следовали научным методам, глубоко задумались о надлежащем использовании процесса анализа данных и ответственно использовали данные для общего блага.

[Статья по теме: 3 востребованных навыка работы с данными, которые помогут получить работу в 2019 году]

Полностью отточенные технические навыки

В статье Harvard Business Review 2012 года Специалист по данным: Самая сексуальная работа 21 века DJ Патил утверждает, что придумал этот термин в 2008 году вместе с Джеффом Хаммербахером для описания своей работы в LinkedIn и Facebook. , соответственно. Патил утверждает, что специалист по обработке данных - это новое поколение компьютерных ученых. Я ухватился за этот термин для себя примерно в 2012 году, немного поздно, потому что я был осторожен в том, чтобы увидеть, был ли этот термин просто причудой.

За последние 5 лет или около того, в значительной степени из-за нехватки навыков в области науки о данных, мы стали свидетелями того, как многие из нынешнего поколения специалистов по данным перешли из других областей. Некоторые из этих областей были большим шагом от прародителей области науки о данных, а именно информатики и прикладной статистики. Теперь мы видим новых специалистов в области данных из физических и социальных наук, а также многих студентов со степенью магистра делового администрирования, которые покидают выбранную ими область специализации. Это означает, что навыки, представленные людьми из этих разрозненных областей, потенциально несовместимы. Конечно, существует множество дисциплин, основанных на данных, помимо науки о данных, но обучение и технические знания этих практиков могут быть на периферии.

Следующее поколение специалистов по обработке данных будет поддерживать широкий спектр сложных технических навыков, таких как математика, статистика, теория вероятностей, машинное обучение, кодирование, визуализация данных и рассказывание историй. Кодирование важно, поэтому хорошая основа для написания кода наряду с хорошими практиками кодирования, такими как методы гибкой разработки программного обеспечения, обзоры кода, отладка и контроль версий, особенно ценны.

Необходимо полностью освоить важные этапы процесса анализа данных, такие как: исследовательский анализ данных (EDA), творческая разработка функций, управление огромным количеством моделей на выбор и их компонентов (гиперпараметры, методы оптимизации, показатели оценки и т. Д.) , преобразования данных (полиномиальные, логарифмические, бинарные категориальные переменные). Это важные части науки о данных, хотя их легко упустить из виду как незначительные.

[Статья по теме: 15 распространенных ошибок, совершаемых новичками в науке о данных]

Притормозите и действуйте методично

Специалисты по обработке данных следующего поколения должны избегать многих распространенных ловушек, в которые попадает нынешнее поколение, таких как слишком быстрый переход от набора данных к применению модного алгоритма и игнорирование всех важных промежуточных шагов. Важно притормозить и подумать. Слишком легко быстро запустить фрагмент кода, который делает прогнозы, а затем объявляет об успехе, когда алгоритм сходится. На самом деле, это самая простая часть. Более сложная часть заключается в тщательном рассмотрении и проверке правильности и интерпретируемости результатов.

Следующее поколение не должно пытаться произвести впечатление сложными моделями обучения, которые не работают так хорошо и не соответствуют решаемой проблеме. Следует делать упор на то, чтобы уделять больше времени приведению данных в форму. Совершенно приемлемо потратить значительную часть времени проекта в окопах, работая с данными. Не стесняйтесь признать, что вы тратите 80% своего времени на проверку достоверности данных.

Следующее поколение должно оставить веру за дверью в отношении используемых инструментов и методов, а также академических отделов (Стэнфорд, мы знаем, что вы там!). Существует искренняя потребность быть открытым, принимающим, гибким и междисциплинарным.

Мягкие навыки - король

Многие специалисты по данным могут использовать методы повторной выборки, такие как перекрестная проверка и бутстрап, и многие делают это плохо. Большинство начинают делать это плохо. Важно не то, с чего вы начнете, а то, как вы оттуда начнете. Следующему поколению важно развивать хорошие привычки и оставаться открытым для непрерывного обучения.

Вот несколько хороших привычек: настойчивость, гибкое мышление, размышления о мышлении и стремление к точности. Старайтесь не переоценивать или недооценивать свои способности, проверяйте себя на практике, убедившись, что вы умеете кодировать то, что говорите, и взаимодействуя с другими специалистами по данным о методах и подходах.

Примените научный метод

В идеале специалисты по обработке данных следующего поколения должны придерживаться «научного метода» в том, как они проверяют гипотезы и приветствуют вызовы и альтернативные теории. Иногда это означает поиск пробелов в идеях и разработку тестов, как истинных ученых.

Также важно задавать много вопросов. Примите перспективу врожденного любопытства и не бойтесь показаться глупым. Не бойтесь просить разъяснений. И, может быть, самое главное, не путайте корреляцию и причинно-следственную связь. На самом деле, было бы неплохо ошибиться, если предположить, что вы смотрите на корреляцию.

Специалисты по обработке данных следующего поколения должны скептически относиться к используемым ими статистическим моделям с точки зрения того, как они могут потерпеть неудачу, а также к последствиям и последствиям моделей, которые они строят.

Соблюдайте этические нормы

И, наконец, имейте в виду, что данные, генерируемые поведением пользователя, становятся строительными блоками продуктов, управляемых данными, которые одновременно используются пользователями и влияют на их поведение. Важно понимать, что алгоритмы не только способны предсказывать будущее, но и управлять им. Специалисты по обработке данных нового поколения не должны позволять своим зарплатам ослеплять их до такой степени, что их модели используются в неэтичных целях. Вместо этого им следует искать возможности для решения проблем, представляющих социальную ценность, и учитывать влияние и последствия своих моделей.

Примечание редактора. Готовы узнать больше о будущем науки о данных? Посетите ODSC East 2019 с 30 апреля по 3 мая и узнайте мнение ведущих экспертов отрасли лично!

— — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.