Машинное обучение, компьютеризированная система, которая извлекает значимые знания из распознавания закономерностей в данных, пожалуй, самое известное подмножество ИИ. Это может быть и самым захватывающим, особенно для предприятий, стремящихся революционизировать и оцифровать свои маркетинговые, операционные и другие бизнес-системы.
Без программирования на основе правил алгоритм «учится» на своем опыте и совершенствуется с каждым новым вычислением. Но что вам действительно нужно знать о том, как это работает? В этой статье мы рассмотрим некоторые из основных основ и концепций машинного обучения и рассмотрим несколько инструментов, которые могут вам пригодиться при изучении его возможностей.
Если сначала у вас не получится…
Предположим, вы учитесь играть в баскетбол. При первой попытке броска в прыжке вам очень не хватает корзины. Со второй попытки вы действительно сгибаете колени. Мяч долетает до корзины, но врезается в щит и падает на землю.
С третьей попытки вы бросаете мяч по правильной дуге и по правильной траектории, применяя при этом другие приемы, полученные в предыдущих попытках. Наконец, вы сделали свой первый бросок в прыжке и приняли менталитет Кобе «Черной Мамбы» Брайанта. Заметили, что там произошло? Каждая новая попытка давала вам возможность учиться и улучшать свои навыки для будущих попыток.
В этом суть машинного обучения.
Раньше мы бы извлекли то, что узнали из отказа машины, и перепрограммировали ее с помощью новых правил, чтобы приблизить нас к успешному результату. Теперь машина учится сама и будет продолжать развиваться с каждым новым входом или данными, которые мы ей даем.
Помните, какими забавными были базы данных?
Данные — это первоклассный гражданин в мире машинного обучения, поэтому важно знать базовую терминологию данных. Хорошая новость заключается в том, что если вы понимаете, как работают традиционные базы данных, у вас уже есть довольно хорошее представление о том, как структурированы данные для машинного обучения.
Таблица базы данных имеет столбцы и строки для описания данных. Думайте о строке как о человеке: столбцы описывают атрибуты человека (например, имя, возраст, пол, род занятий). Строки содержат фактические значения каждого конкретного атрибута (например, Энджи, 28 лет, женщина, инженер-программист).
С машинным обучением структура данных похожа, но терминология другая. На приведенном выше рисунке видно, что оболочка, содержащая данные, называется набором данных, а не таблицей. Атрибуты данных называются признаками, а объекты называются выборками.
Для достижения наилучших результатов предоставьте данные о качестве своей машины
Более важными, чем структура данных, являются сами данные. Чтобы создать модель, способную точно предсказывать, вы должны хорошо знать проблему, которую хотите решить. Это означает, что вам нужно внимательно изучить исходные данные, чтобы убедиться, что они удовлетворяют всем вашим требованиям. Если это не так, вам, возможно, придется запачкать руки и выполнить исследовательский анализ данных.
Данные, с которыми вы работаете, должны быть актуальными, связанными, точными и достаточными для построения точно настроенной модели. Давайте кратко рассмотрим, как каждый из них способствует получению более качественных входных данных и, как следствие, более качественных результатов.
Релевантно Предоставляют ли ваши данные достаточную информацию для поиска решения проблемы, которую вы пытаетесь решить? Кроме того, правильно ли функции данных фиксируют желаемые точки данных? Если ответ отрицательный на любой вопрос, переоцените релевантность ваших данных или преобразуйте их, чтобы они больше соответствовали вашим целям. Пример: если вы пытаетесь построить модель, которая создает механизм рекомендации фильмов, вам, вероятно, не будут интересны данные о спортивных событиях.
Подключено Данные, которые присутствуют и имеют значимые значения, будут считаться связанными. Если ваши данные имеют несогласованные или отсутствующие значения в широком массиве выборок, они будут считаться несвязанными. Позже это может привести к неточным прогнозам.
Точные данные измеряют достижение определенной цели или целей. Пример: если у вас есть модель, которая предсказывает изображение собаки, но вы замечаете много изображений цыплят в классификации собак, данные могут быть неточными.
Много Набор данных содержит достаточно большое количество выборок, чтобы делать обоснованные прогнозы. В машинном обучении данные играют ключевую роль. Вы несете ответственность за то, чтобы данные, которые вы используете, были неповрежденными, надежными и значимыми. Кроме того, не стоит недооценивать силу большего количества данных. Модели машинного обучения лучше всего работают с большими наборами данных; чем больше данных, тем лучше.
Данные обучения и данные тестирования
В начале фазы обучения данные разбиваются на две части: обучающие данные и тестовые данные. Данные обучения строят и уточняют нашу модель. Чтобы оценить производительность нашей модели, мы передаем тестовые данные. Стандартное разделение данных состоит из 75% обучающих данных и 25% тестовых данных.
Наша цель — построить обобщенную модель, которая может принимать тестовые данные и делать точные прогнозы.
Концепции машинного обучения: контролируемое, неконтролируемое и подкрепление
Большинство алгоритмов машинного обучения подпадают под одну из концепций обучения, перечисленных ниже:
- Контролируемое обучение
- Неконтролируемое обучение
- Обучение с подкреплением
Контролируемое обучение
Когда вы достаточно хорошо разбираетесь в своих данных, вы можете управлять машиной с помощью помеченных образцов. В обучении с учителем у нас есть как входные переменные, так и выходные переменные. Алгоритм учится сопоставлять одно с другим.
Допустим, мы создаем модель для набора данных для обнаружения мошенничества. В дополнение к функциям (таким как кредитный рейтинг, сумма долга, рейтинг и т. д.) у нас будут помеченные данные, указывающие, является ли образец «мошенничеством» или «не мошенничеством». В этом простом примере используется алгоритм бинарной классификации, потому что нам нужно знать, является ли точка данных мошеннической или нет.
Обучение с учителем позволяет машине выяснить некоторые отношения из-за меток. Например, машина может заметить, что образцы в нашей системе мошенничества с кредитным рейтингом 500 или меньше и суммой долга 5000 долларов или больше приведут к более точному обнаружению мошенничества. Машины отлично распознают образы. Они могут выяснить, как определенные функции взаимодействуют друг с другом и как это влияет на окончательный результат вашей модели.
Обучение без учителя
Обучение методом проб и ошибок является ключом к обучению без учителя, когда у нас есть входные переменные, но нет соответствующих известных результатов.
Например, когда ребенок начинает говорить, большая часть его обучения происходит путем проб и ошибок. Сначала ребенок учится ворковать. Они начинают играть и экспериментировать с разными звуками. В конце концов, воркование превращается в слова, поскольку они продолжают изучать и наблюдать за окружающей средой. Прежде чем вы это заметите, изо рта вашего ребенка вылетят полные дерзкие предложения.
Неконтролируемое обучение работает аналогичным образом. Машина изучает данные и делает наблюдения. Выходные результаты группируются вместе на основе общих черт, обнаруженных в функции или наборе функций. Опять же, машины будут делать все возможное, чтобы связать отношения без помощи или человеческого взаимодействия, обычно характерного для контролируемого обучения.
Обучение с подкреплением
Обучение с подкреплением — одна из самых модных концепций обучения. Для справки, я собачник. Кажется, только вчера мы взяли нашу собаку Эллу на несколько тренировок в местный зоомагазин. Мы узнали о методе дрессировки собак, называемом положительным подкреплением. Принцип этой техники заключается в том, что каждый раз, когда ваш питомец демонстрирует желаемое поведение, вы немедленно хвалите и вознаграждаете его. Ваш питомец скоро поймет, что если он сядет по команде, то получит вкусные угощения.
Машины способны адаптировать этот же метод обучения.
При обучении с подкреплением машина выясняет, какие действия приносят наибольшую награду. Правильное действие вознаграждает машину. В интересах машины постоянно повышать производительность быстро и максимально эффективно. Идея здесь в том, что машина получит много наград, если будет следовать правильной политике, что сделает ее маленькой счастливой сингулярностью.
Алгоритмы машинного обучения
Существует множество алгоритмов машинного обучения, и они обычно группируются либо по стилю обучения, либо по сходству формы или функции. Джейсон Браунли, доктор философии, предлагает отличный учебник по алгоритмам машинного обучения, который поможет вам ознакомиться с вашими вариантами. В нем он делится этой картой разума из более чем 60 типов алгоритмов машинного обучения, сгруппированных по типам. Проверьте это:
Выбор вашего алгоритма сильно зависит от проблемы, которую вы пытаетесь решить, и от того, как вы пытаетесь ее решить. Убедитесь, что вы полностью понимаете проблему, которую собираетесь решить. Как только вы поймете проблему, вы сможете с уверенностью обратиться к инструментам алгоритма, чтобы найти правильное решение.
Узнайте больше о машинном обучении
Машинное обучение — отличный способ решить сложные проблемы без громоздкого подхода традиционного программного обеспечения. Теперь, когда вы изучили основы и поняли, как это работает, вот несколько отличных ресурсов, чтобы по-настоящему разобраться в этом:
Я уже увлекся машинным обучением, но только начал вникать в него. Как практикующий инженер-программист, я всегда думал, что единственное, что меня ограничивает в этой области, — это мое воображение. Когда дело доходит до машинного обучения и более широкого применения ИИ, я считаю, что наше воображение — это только начало!
Первоначально опубликовано на https://skookum.com.