Масштабирование объектов — это процесс преобразования объектов в вашем наборе данных, чтобы они были в одинаковом масштабе. Это важно, потому что многие алгоритмы машинного обучения чувствительны к масштабу входных признаков. Если один признак имеет гораздо больший диапазон значений, чем другой, алгоритм может придать большее значение более крупному признаку, даже если он не обязательно более важен.
Существует несколько методов масштабирования функций, но мы сосредоточимся на двух распространенных методах: нормализация и стандартизация.
- Нормализация (минимальное-максимальное масштабирование):
Нормализация масштабирует функции, преобразовывая их в диапазон [0, 1]. Это делается путем вычитания минимального значения признака и деления его на диапазон (максимальное значение минус минимальное значение).
Формула: (х — мин (х)) / (макс (х) — мин (х))
Например, допустим, у нас есть набор данных с ростом в дюймах и возрастом в годах:
Рост: [62, 64, 68, 70]
Возраст: [20, 25, 30, 35]
После нормализации набор данных будет выглядеть так:
Нормализованный рост: [0, 0,25, 0,75, 1]
Нормализованный возраст: [0, 0,333, 0,667, 1]
- Стандартизация (масштабирование Z-оценки):
Стандартизация масштабирует признаки, преобразовывая их так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Это делается путем вычитания среднего значения признака и деления его на стандартное отклонение.
Формула: (x — среднее (x)) / стандартное (x)
Используя тот же набор данных после стандартизации, это будет выглядеть так:
Стандартизированный рост: [-1,341, -0,447, 0,447, 1,341]
Стандартизированный возраст: [-1,341, -0,447, 0,447, 1,341]
Теперь, когда мы узнали о масштабировании функций, давайте посмотрим, как применить его в рабочем процессе машинного обучения:
- Подготовьте набор данных, разделив его на наборы для обучения и тестирования.
- Примените масштабирование функций к обучающему набору. Обязательно сохраните параметры масштабирования (минимальное, максимальное, среднее, стандартное) для каждой функции.
- Обучите модель с помощью масштабированного обучающего набора.
- Прежде чем делать прогнозы с помощью тестового набора, примените такое же масштабирование к тестовым данным, используя параметры масштабирования из обучающего набора. Это обеспечивает согласованность процесса масштабирования.
- Оцените производительность модели на масштабированном тестовом наборе.
Вот и все для масштабирования функций! На следующем уроке мы рассмотрим, как обрабатывать отсутствующие данные.