День 8 — Quantum30 Challenge 2.0

Введение

K-Nearest Neighbours, сокращенно k-NN, представляет собой контролируемый алгоритм машинного обучения, в основном используемый для задач классификации. Он использует прошлые данные для прогнозирования, оценивая сходство между точками данных и их соседями. Этот алгоритм работает по простому принципу «выигрывает большинство»: точка данных классифицируется по категории, которая преобладает среди ее k ближайших соседей.

Именно по этой причине очень важно иметь хорошее значение k. Если он слишком велик, вычислительная нагрузка увеличивается, что приводит к потенциальной неэффективности. И наоборот, если оно слишком мало, прогнозы могут быть менее точными. Для определения подходящего значения k можно использовать несколько методов, включая формулу евклидова расстояния, формулу расстояния Минковского, формулу расстояния Манхэттена и другие. Самый простой для понимания — это евклидово уравнение (потому что мы, вероятно, встречали его в школьной программе по математике)

Стоит отметить, что желательно, чтобы значение k было нечетным числом. Даже значения k могут привести к риску возникновения связей, что делает классификацию неоднозначной. Таким образом, даже если вычисленное значение k четное, его часто корректируют, чтобы оно было нечетным числом.

Условия

Итак, где мы можем использовать метод k-NN? Его можно использовать в определенных сценах, где выполняются следующие условия:

  • Данные помечены
  • Данные относительно небольшие и не содержат шума.

Это приводит к некоторым преимуществам и недостаткам алгоритма.

Преимущества

Простота понимания и реализации:KNN — один из простейших алгоритмов машинного обучения, что делает его доступным как новичкам, так и экспертам.

› Легко адаптируется. Он легко адаптируется к новым данным, что позволяет эффективно справляться с меняющимися закономерностями.

Учет минимальных параметров. В отличие от некоторых других моделей, KNN в первую очередь полагается на значение k и выбор метрики расстояния (например, Евклида или Минковского).

Недостатки

Размерность.По мере увеличения количества измерений задача классификации становится более сложной и может потребовать дополнительной предварительной обработки.

Масштабируемость:KNN лучше всего подходит для относительно небольших наборов данных. Большие наборы данных могут перегружать вычислительные ресурсы и память, в результате чего алгоритм получил прозвище «ленивый алгоритм».(ха-ха)

Приложения

Учитывая условия (1 + недостатки), метод k-NN используется в различных областях, включая простую обработку данных, распознавание образов, персонализированные рекомендации в поисковых системах и т. д.

Рекомендации

2. Что такое алгоритм k-NN?