День 8 — Quantum30 Challenge 2.0
Введение
K-Nearest Neighbours, сокращенно k-NN, представляет собой контролируемый алгоритм машинного обучения, в основном используемый для задач классификации. Он использует прошлые данные для прогнозирования, оценивая сходство между точками данных и их соседями. Этот алгоритм работает по простому принципу «выигрывает большинство»: точка данных классифицируется по категории, которая преобладает среди ее k ближайших соседей.
Именно по этой причине очень важно иметь хорошее значение k. Если он слишком велик, вычислительная нагрузка увеличивается, что приводит к потенциальной неэффективности. И наоборот, если оно слишком мало, прогнозы могут быть менее точными. Для определения подходящего значения k можно использовать несколько методов, включая формулу евклидова расстояния, формулу расстояния Минковского, формулу расстояния Манхэттена и другие. Самый простой для понимания — это евклидово уравнение (потому что мы, вероятно, встречали его в школьной программе по математике)
Стоит отметить, что желательно, чтобы значение k было нечетным числом. Даже значения k могут привести к риску возникновения связей, что делает классификацию неоднозначной. Таким образом, даже если вычисленное значение k четное, его часто корректируют, чтобы оно было нечетным числом.
Условия
Итак, где мы можем использовать метод k-NN? Его можно использовать в определенных сценах, где выполняются следующие условия:
- Данные помечены
- Данные относительно небольшие и не содержат шума.
Это приводит к некоторым преимуществам и недостаткам алгоритма.
Преимущества
› Простота понимания и реализации:KNN — один из простейших алгоритмов машинного обучения, что делает его доступным как новичкам, так и экспертам.
› Легко адаптируется. Он легко адаптируется к новым данным, что позволяет эффективно справляться с меняющимися закономерностями.
›Учет минимальных параметров. В отличие от некоторых других моделей, KNN в первую очередь полагается на значение k и выбор метрики расстояния (например, Евклида или Минковского).
Недостатки
› Размерность.По мере увеличения количества измерений задача классификации становится более сложной и может потребовать дополнительной предварительной обработки.
› Масштабируемость:KNN лучше всего подходит для относительно небольших наборов данных. Большие наборы данных могут перегружать вычислительные ресурсы и память, в результате чего алгоритм получил прозвище «ленивый алгоритм».(ха-ха)
Приложения
Учитывая условия (1 + недостатки), метод k-NN используется в различных областях, включая простую обработку данных, распознавание образов, персонализированные рекомендации в поисковых системах и т. д.