В контексте интеллектуального анализа и анализа данных

Случайные переменные играют очень важную роль в машинном обучении. Каждая функция, присутствующая в вашем наборе данных, в основном является случайной величиной. Существуют разные типы случайных величин, и мы обсудим их.

Так что же такое случайная величина?

Всякий раз, когда мы изучаем объект, мы замечаем, что есть несколько признаков, которые представляют этот объект. Эти функции называются переменными. Переменная — это заполнитель, который может хранить любое значение, будь то целое число, число с плавающей запятой, символ или строка. Рассмотрите возможность работы с большим количеством объектов. Мы обнаружим, что один признак может иметь разные значения для разных объектов. Например, предположим, что мы анализируем ИМТ (индекс массы тела) всех лиц мужского пола в возрасте до 20 лет, проживающих в определенном районе. При измерении роста индивидуумов мы обнаруживаем, что значения признака роста различны. Это говорит о том, что значения переменной подвержены некоторым случайным изменениям. Если эта случайность из-за случайности значительна, то переменная называется случайной величиной. В результате случайная величина может принимать множество различных значений, каждое из которых имеет соответствующую вероятность, равную относительным частотам этих различных значений, которые она может принимать. Следовательно,

Случайная величина — это переменная, возможные значения которой являются результатами случайного явления.

Типы случайных величин

Из приведенного выше определения случайных величин мы можем сделать вывод, что случайная величина может быть разных типов в зависимости от атрибута изучаемого объекта.

Количественные случайные переменные. Эти случайные переменные имеют некоторые числовые значения. Существует два типа количественных случайных величин:

  • Дискретные случайные переменные. Они могут принимать только счетное количество различных значений. Например, количество комнат в вашем доме или балл, который вы получили на последнем экзамене.
  • Непрерывные случайные переменные. Они могут принимать бесконечное число возможных значений и обычно используются в измерениях. Например, ваш вес и рост. Вы можете подумать, что такая функция, как вес, может принимать только счетное количество различных значений, таких как 68 кг или 70 кг, но если вы используете более точные весы, можно измерить значение 68,1 кг, а с еще более точными весами значение 68,13 кг могут быть измерены. Я хочу сказать, что с увеличением точности возможно бесконечное количество результатов. Таким образом, непрерывная случайная величина определяется не конкретными значениями, а интервалом значений.

Качественные случайные переменные. Эти случайные переменные имеют нечисловые значения. Существует два типа качественных случайных величин:

  • Номинальные случайные переменные. Они могут иметь две или более категорий без какой-либо внутренней упорядоченности среди них. Например, цвет глаз может иметь значения красный, зеленый, синий и т. д.
  • Порядковые случайные величины. Это похоже на номинальную случайную величину с добавлением некоторого порядка или ранжирования среди категорий. Например, офицерские звания могут иметь значения «майор», «капитан», «лейтенант» или «офицер-кадет», если среди них есть определенный порядок.

В большинстве случаев при анализе данных значения качественных случайных величин сопоставляются с числовыми значениями для упрощения обработки данных (с помощью LabelEncoder или OneHotEncoding). Это также называется «обработкой категориальных данных» и является важной задачей предварительной обработки данных.

Распределение вероятностей

Теперь, когда мы разобрались с определением и типами случайных величин, давайте углубимся. Мы знаем, что случайная величина может принимать разные значения, каждое из которых связано с определенными вероятностями. Следовательно, случайная величина описывает вероятность получения этого значения. Если мы построим эти значения в зависимости от связанной с ними вероятности, мы получим график распределения вероятностей. Распределение вероятностей описывает, как распределяется случайная величина. Он показывает нам, какие значения с наибольшей вероятностью будут приняты случайной величиной, а какие менее вероятны.

Давайте практически увидим это на реальном наборе данных. Мы будем работать над набором данных ИМТ, взятым из Kaggle. Особенности: пол, возраст, рост, вес и ИМТ, все являются случайными величинами. Пол является номинальной случайной величиной, а возраст — дискретной случайной величиной. Хотя рост и вес непрерывны, они рассматриваются как дискретные случайные величины.

Из приведенного выше кода мы видим, что рост большинства людей равен 68 дюймам, в то время как очень немногие имеют рост 62 дюйма и 75 дюймов.

Важность случайных величин

Случайные величины помогают определить вероятность исхода. У них много применений в реальной жизни, особенно в анализе данных и принятии решений. Рассмотрим пример, когда страховая компания предоставляет своим клиентам три разных вида медицинского страхования: базовое, премиальное и эксклюзивное. Компания предоставляет планы страхования в зависимости от различных характеристик клиента, таких как возраст, семейное положение, зарплата, ИМТ и т. д. Теперь предположим, что молодой инженер хочет купить страховку, тогда какой план должен быть ему предоставлен. Проанализировав все характеристики клиента, компания приходит к следующей вероятности:

  • Базовый: 0,62
  • Премиум: 0,20
  • Эксклюзив: 0,18

Сумма всех вероятностей равна 1. Данные показывают, что инженер должен принять базовую страховку.

Случайные переменные также находят свое значение в обобщении поведения населения. Это позволяет нам лучше понять набор данных и тем самым помогает нам выбрать подходящую модель машинного обучения, которая лучше всего подходит для нашего анализа. Случайные величины используются нейронными сетями для принятия решений. Даже генеративно-состязательные сети работают с распределением вероятностей для репликации набора входных данных.