Автор: Шрути Джадон, Аджит Патанкар, Аман Гаурав, Дивьянк Гарг, Мэн Сун
Введение:
В этом блоге мы привели пример с нуля, чтобы показать простой вариант использования библиотеки. Этот вариант использования проходит через каждый шаг от предварительной обработки данных до обучения модели, оценки модели и, наконец, прогнозирования модели. Преимущество использования внутренней библиотеки заключается в том, что ее можно использовать для различных вариантов использования внутри компании, и любой человек с минимальными знаниями о машинном обучении может использовать библиотеку и выполнять некоторый анализ и прогнозирование с минимальной строкой кода. Этот тип библиотеки может быть реализован для различных проектов AI-ML, которые имеют дело с набором данных телеметрии и требуемым прогнозированием в качестве его результата.
Случай использования:
Чтобы подчеркнуть преимущества библиотеки, мы взяли набор данных из твиттера, который представляет собой набор упоминаний в твиттере крупных публичных компаний, таких как Google. Значение метрики представляет собой количество упоминаний данного тикера каждые 5 минут. Это означает, сколько упоминаний (Google) делается для определенного тикера каждые 5 минут. Таким образом, основная цель состоит в том, чтобы спрогнозировать количество упоминаний данного символа тикера с учетом данных 5-минутного интервала в прошлом с 2015–02–26 по 2015–04–09.
Фрагменты кода:
Мы вызываем все функции библиотеки, как показано ниже. Как обычно, мы устанавливаем все различные библиотеки ML и импортируем их, точно так же мы вызываем различные функции в библиотеке как классы и импортируем их.
Чтобы определить шаги предварительной обработки, обучения и тестирования, нам нужно настроить некоторые параметры, как показано на рисунке ниже. Вся эта конфигурация накапливается за один шаг, а не определяется индивидуально для каждого процесса. Это уменьшает количество кодов и упрощает передачу параметров, поскольку все параметры связаны друг с другом. Таким образом, библиотека помогает в надежной структуре кода, а также ее легко отлаживать.
Загрузка и предварительная обработка данных обычно занимает огромную строку кода, так как нам нужно определить путь и прочитать набор данных отдельно. Затем мы проверяем, есть нулевые значения или нет, и в случае прогнозирования мы должны быть невероятно осторожны с нулевыми значениями. Затем мы проверяем выбросы разными методами и удаляем их разными способами. Для всей этой предварительной обработки нам нужны разные библиотеки и отдельное поле для обнаружения аномалий и их удаления (у нас также есть готовящаяся библиотека обнаружения аномалий, и мы будем публиковать блоги, связанные с ней).
Чтобы обучить модель, подобную LSTM, нам нужно определить множество гиперпараметров вместе с отдельным кодом для структуры модели нейронной сети. Чтобы помочь новичкам в области машинного обучения, эта библиотека примет все факторы и конфигурацию, определенные ранее, для разработки модели и обучения набора данных. Всего одной строки кода, как показано ниже, достаточно для обучения набора данных с помощью нейронных сетей.
После обучения модель оценивается в наборе данных проверки, и для проверки точности модели и проверки результата используются различные матрицы. Различные матрицы могут быть легко вызваны с использованием одного кода строки и могут проверять точность модели в наборе данных проверки, как показано ниже.
На рисунке ниже показано, что для построения прогнозных и реальных данных не нужно определять множество различных переменных, таких как метки, цвет и т. д. Всего одна строка кода с использованием библиотеки может построить график с предопределенной конфигурацией и может сократить длинную строку кода. .
На основе матриц графика и оценки прогнозы делаются путем определения гиперпараметров и другой структуры модели всего в одной строке кода, как показано ниже.
Используя ту же функцию построения графика библиотеки, можно построить прогнозируемый график. Нет необходимости снова определять функцию графика и другие библиотеки, а просто использовать функцию графика библиотеки для построения графика.
Вывод:
Из приведенного выше примера можно сделать вывод, что собственные библиотеки помогают новичкам в машинном обучении самостоятельно работать над прогнозированием варианта использования и могут получить хороший результат с минимальной строкой кода. Имея некоторые базовые знания о полном конвейере моделирования ML и структуре библиотеки, они могут помочь им решить любой конкретный случай использования домена компании.
Подобно библиотеке прогнозирования, наша команда также работала над отдельной библиотекой предварительной обработки и обнаружения аномалий, чтобы все этапы моделирования можно было легко обобщить для всех вариантов использования в компании.
Предыдущая ссылка в блоге:https://medium.com/@juniper.cto.aiml.2021/time-series-forecasting-library-structure-part-iii-model-evaluation-and-model -прогноз-4fcaf5a5056d