Объединение науки о данных с аналитикой данных
Аналитические функции делятся на анализ данных и анализ данных. Редко встречается упоминание о сочетании того и другого. Сегодня я хотел бы рассказать, как я использовал модель машинного обучения для анализа данных и свой подход к преобразованию результатов модели в практические идеи.
Через пару лет после моей первой роли аналитика данных я почувствовал, что работал над всеми возможными проектами, которые мог поддерживать маркетинг, и больше не узнал ничего нового. Я начал искать другую работу аналитика данных, и одна из компаний, в которой я проводил собеседование, попросила меня выполнить задание на дом, прежде чем я смогу перейти к следующему этапу процесса собеседования.
Мне прислали необработанный файл, содержащий соответствующие данные о фильме, с заданием, в котором говорится: «Исполнительный продюсер киностудии предоставил вам этот набор данных и хочет, чтобы вы сделали краткий обзор полученной на его основе интересной идеи, которая поможет студийный бизнес ».
Имея уникальный опыт работы в качестве специалиста по данным, а затем и аналитика данных, я понял, что могу использовать модель машинного обучения, чтобы быстрее получать результаты и показать менеджеру по найму свой уникальный подход к этой проблеме.
Зачем использовать модель машинного обучения вместо того, чтобы смотреть на данные, как это делал бы обычный аналитик данных?
В файле данных было более 25 атрибутов фильма, и просмотр каждого атрибута один за другим занял бы слишком много времени, учитывая, что это было задание на дом с крайним сроком. Модель машинного обучения может значительно сократить это время.
Вот шаги, которые я предпринял для выполнения этого задания.
1. Определите проблему, которую нужно решить.
Как аналитик данных, каждый раз, когда я получаю запрос, я считаю полезным поставить себя на место заинтересованных сторон, чтобы понять, о чем они думают.
В таком случае, зачем продюсеру «идеи, чтобы помочь бизнесу студии»? Требуют ли киноинвесторы более высокой отдачи от своих вложений? Нужен ли студии совет о типах фильмов, у которых больше шансов заработать, чтобы компенсировать недавние убытки?
Поскольку я не мог задавать этому вымышленному продюсеру вопросы, я, исходя из своих соображений, сформулировал проблему как «как увеличить прибыль киностудии».
2. Определите показатель успеха.
На первом этапе я определил, что нужно решить проблему «как увеличить прибыль». В этом случае прибыль имеет наибольший смысл в качестве показателя успеха, но в других ситуациях вы можете использовать KPI компании, например продажи или коэффициент конверсии. Выбор ключевого показателя эффективности компании в качестве показателя успеха упрощает понимание заинтересованными сторонами, поскольку они могут иметь к этому отношение.
3. Определите проблему для моделирования.
Для своего задания я определил прибыль как разницу между продажами фильмов (доход) и бюджетом фильма (стоимостью) . Исходя из моего предыдущего опыта работы в области анализа данных, прогнозировать двоичный результат (прибыль или убыток) было намного проще, чем прогнозировать сумму (размер прибыли). В результате я решил смоделировать двоичный результат, в котором я определил целевую переменную равной 1 (истина), если прибыль> 0, иначе 0 (ложь), где прибыль ≤ 0.
4. Постройте модель.
Я использовал модель GBM не потому, что это был лучший выбор, а потому, что я построил модели GBM раньше и знал, как использовать результаты модели, чтобы получить идеи для этого домашнего теста.
Точность модели была не так важна, потому что я не использовал модель для прогнозирования прибыльности фильмов.
Что мне было нужно, так это список важности функций, созданный на основе модели GBM. Наличие этого списка позволило мне быстро исключить атрибуты, которые не имели значения для определения прибыльности. Я смог увидеть два основных фактора, влияющих на прибыльность фильма: лайки в Facebook актеру и режиссеру, за которыми следуют жанр и рейтинг фильма.
5. Подтвердите результаты модели и преобразуйте их в практические идеи.
Когда у меня был список важности функций, мне нужно было оценить, были ли результаты разумными. Исходя из того, что я знал о самых кассовых фильмах за эти годы, стало понятно, что популярность актеров и режиссера в сочетании с жанром и рейтингом фильма может повлиять на прибыльность фильма.
Как аналитик данных, проверка результатов важна, потому что мы настолько глубоко погружены в данные, что не делаем шаг назад, чтобы оценить, имеют ли результаты смысл.
Например, если модель показала, что главными характеристиками являются анимационные фильмы с рейтингом R, как вы думаете, эта рекомендация будет принята продюсером? Пройдут ли эти результаты проверку на «здравый смысл»? Исходя из здравого смысла, анимационному фильму не следует присваивать рейтинг R, потому что большинство аудитории моложе 17 лет, и родители, вероятно, не позволят своим детям смотреть фильм с рейтингом R. У фильмов такого типа не будет большой аудитории, и студия, вероятно, потеряет деньги.
Теперь просто показать список наиболее важных функций было недостаточно, потому что производитель не знал, что такое модель машинного обучения. Мне пришлось перевести результаты так, чтобы продюсер мог их понять. Показав процент прибыльных фильмов в каждом жанре и рейтинге, стало ясно, что в некоторых категориях доля фильмов, приносящих деньги студии, выше.
6. Обобщите выводы и рекомендации.
Когда я впервые работал аналитиком данных, стандартной практикой было записывать результаты анализа с помощью приведенного ниже шаблона. Я настоятельно рекомендую попробовать это с вашим анализом, потому что я нашел это невероятно полезным, чтобы собраться с мыслями, прежде чем представлять результаты заинтересованным сторонам.
- Основные выводы и рекомендации
- Методология и предположения
- Результаты анализа
- Следующие шаги (если применимо)
Чтобы повторить просьбу:
«Исполнительный продюсер киностудии предоставил вам этот набор данных и хочет, чтобы вы сделали краткий обзор полученной на его основе интересной идеи, которая поможет бизнесу студии».
Мои рекомендации:
Чтобы увеличить шансы на положительную окупаемость инвестиций (ROI), студия должна снимать фильмы в жанрах документальный, ужасы, семейный, анимационный, комедия или мелодрама. Если возможно, расширьте аудиторию за счет фильмов с рейтингом PG или G.
При выборе режиссера и актеров учитывайте лайки в Facebook режиссера фильма и среднее количество лайков в Facebook для трех основных актеров, потому что большее количество лайков является ведущим показателем фильмов с положительной рентабельностью инвестиций.
Обратите внимание на запрос «интересное понимание» (как в один), но я смог порекомендовать несколько идей, используя модель машинного обучения. делать большую часть работы.
В итоге я сдал тест и пошел на собеседование на месте. В конце концов, я не получил работу, но я многому научился, работая над заданием, и с тех пор я применял этот подход несколько раз.
Независимо от того, работаете ли вы ученым или аналитиком данных, теперь вы знаете, что можно объединить лучшее из обоих миров для достижения лучшего результата.
Спасибо за прочтение! Оставьте комментарий, если вы хотите узнать больше о конкретной теме анализа данных в будущем.