Этот контент является частью серии о главе 3, посвященной вероятности, из Книги глубокого обучения Гудфеллоу, И., Бенжио, Ю. и Курвилля, А. (2016). Он направлен на обеспечение интуиции / рисунков / кода на Python по математическим теориям и построен на моем понимании этих концепций.
Github: соответствующую записную книжку Python можно найти здесь.
Мы изучили основы вероятности в последнем посте / записной книжке к главам 3.1–3.3 Книги по глубокому обучению. Мы узнали, что такое случайная величина, функция массы вероятности или функция плотности вероятности. Целью было также получить больше интуиции в отношении часто используемых инструментов, таких как производные, площадь под кривой и интегралы.
В этом втором посте / блокноте о предельной и условной вероятности вы узнаете о совместной и предельной вероятности для дискретных и непрерывных переменных. Затем мы увидим понятие условной вероятности и разницу между зависимыми и независимыми событиями. Все это соответствует главам 3.4 и 3.5 Книги по глубокому обучению.
Мы будем настаивать на математических обозначениях вероятности. Вы увидите, что это выразительный и синтетический способ выражения идей!
3.4 Предельная вероятность
В предыдущих сообщениях мы видели вероятность одной случайной величины за раз. В некоторых случаях может быть интересно увидеть вероятности нескольких событий. Например, мы могли бы спросить: «Если я подброшу монету два раза, какова вероятность получить ровно одну« голову »и один« хвост »? Чтобы ответить на такие вопросы, нам нужно принять во внимание несколько событий.
Обозначение
Начнем с некоторых деталей об обозначениях. Как обычно, важно, чтобы каждая математическая запись была кристально ясной. На следующем рисунке показаны обозначения, которые мы будем использовать в этой статье 🔧:
Как мы видели в предыдущем посте, P (x = x, y = y) относится к совместной вероятности того, что x принимает конкретный значение x и что y принимает конкретное значение y. Подробнее об обозначениях вы также можете прочитать в предыдущей статье. Вы также можете встретить обозначение пересечения: ∩. Например, P (x ∩ y) соответствует вероятности того, что встречаются и x, и y.
Пример 1.
Давайте начнем с примера, чтобы разобраться с понятием предельной вероятности.
В этом эксперименте мы подбрасываем монету (первое событие) и бросаем кости (второе событие). Мы смотрим на вероятность каждого события. Например, вероятность получить «голову» равна 1/2. Вероятность выпадения 1 равна 1/6. На следующем рисунке показаны вероятности каждого исхода для каждого события в отдельности:
Вы можете быть удивлены, что я отобразил вероятности в таблице. На самом деле я подошел к проблеме задом наперед: эти вероятности являются предельными вероятностями. Название «маргинальные» напоминает идею о том, что мы можем писать их на полях таблицы.
Возникает вопрос: какие еще вероятности мы могли бы записать в середине таблицы? Это совместные вероятности. Это вероятность получить два конкретных результата:
Мы можем видеть, например, что вероятность получить 1 и «голову» равна 1/6 * 1/2 = 1/12. Предельные вероятности представлены на полях и соответствуют распределению вероятностей подмножества переменных.
Правило суммы
Иногда вам известна совокупная вероятность событий, и вам нужно рассчитать на ее основе предельные вероятности. Предельные вероятности рассчитываются с помощью правила сумм. Если вы посмотрите на последнюю таблицу, вы увидите, что вероятности, записанные на полях, являются суммой вероятностей соответствующей строки или столбца.
Выражая это математически, мы имеем:
Мы подробно рассмотрим это уравнение.
Во-первых, напомните, что шрифт важен, и укажите разные вещи. x - дискретная случайная величина (например, соответствующая бросанию кубика), а x - результат случайного события (например, один из возможных результатов игры в кости: 1, 2, 3, 4 , 5 или 6). Точно так же y - это случайная величина (скажем, соответствующая подбрасыванию монеты), а y - результат y («орел» или «решка»).
- Первую синюю часть можно читать «для всех x в x». Здесь это условие для того, чтобы уравнение было истинным. Таким образом, выражение истинно только тогда, когда результат x входит в число возможных результатов x. Например, если случайная величина x соответствует бросанию кости, мы знаем, что x может принимать значения 1, 2, 3, 4, 5 или 6. Уравнение верно только тогда, когда x фактически принимает одно из этих значений.
- Зеленая часть - это вероятность того, что x примет определенное значение x. Например, все еще в эксперименте с игральными костями P (x = 6) соответствует вероятности выброса шестерки.
- Символ суммы оранжевого цвета означает, что мы суммируем элементы, следующие за символом (здесь P (x = x, y = y)). Маленький y под символом суммы означает, что мы суммируем все возможные значения y (P (x = x, y = 1), P (x = x, y = 2 и т. д.).
- Красная часть - это вероятность того, что x принимает значение x, а y принимает значение y.
Итак, что говорят эти уравнения?
Это означает, что вероятность того, что x = x равна сумме вероятностей, соответствующих x = x по каждому возможному y. Следующий пример поясняет это утверждение.
Пример 2.
Как и в последнем примере, мы проведем эксперимент, в котором мы бросаем кости и подбрасываем монету. В центре приведенной выше таблицы указаны вероятности того, что и x, и y принимают определенное значение, то есть, что мы получим конкретные результаты для броска и для броска. Например, вероятность выпадения 1 и подбрасывания «головы» равна P (x = 1, y = ’орел») = 1/12.
Мы можем использовать предыдущее уравнение
Допустим, мы хотим вычислить вероятность выпадения 1:
Это сумма вероятностей по y при x = 1. Есть две возможности: у нас может быть x = 1 и y = ’решка’ или x = 1 и y = ’решка’. Говоря более математически, мы можем сказать, что:
Имеет ли это смысл? Поскольку были учтены все случаи y, это просто вероятность выпадения 1. Это называется предельной вероятностью.
Надеюсь, теперь обозначения понятны. Не беспокойтесь, если вы еще не освоили эти математические символы: это действительно вопрос привычки 💪🏼. Вы увидите, что это полезный и синтетический способ мышления.
Непрерывные переменные
Тот же прием можно использовать для непрерывных переменных, но нам нужно использовать интегрирование вместо суммирования. Напомним, что для непрерывных переменных вероятность того, что переменная примет определенное значение, близка к $ 0 $, потому что существует бесконечное количество возможностей (см. Последний пост / записная книжка).
Пример 3.
Допустим, у нас есть совместная функция плотности вероятности двух переменных x и y, и мы хотим вычислить предельную вероятность. Во-первых, нам нужны три измерения для представления функции плотности вероятности: значение переменной x, значение переменной y и вероятность, связанная с получением обоих этих значений.
Например, возьмем две переменные x и y, представленные нормальным распределением. Функция из Numpy random.normal()
(см. Doc) создает вектор значений, взятых из нормального распределения. Первый аргумент - это среднее значение распределения, второй - стандартное отклонение, а третий - количество выборок.
Например, np.random.normal(0, 1, 1000)
создает вектор длиной 1000:
np.random.seed(123) x = np.random.normal(0, 1, 1000) x.shape
Это возвращает (1000,)
.
Если мы возьмем среднее значение всех значений в этом векторе, мы получим значение, близкое к 0:
Стандартное отклонение показывает, отклоняются ли отдельные значения более или менее от среднего.
Итак, давайте создадим два наших непрерывных распределения:
np.random.seed(123) x = np.random.normal(0, 1, 1000) y = np.random.normal(0, 1, 1000) sns.distplot(x) plt.title(‘x’) plt.xlim(-4, 4) plt.show() sns.distplot(y) plt.title(‘y’) plt.xlim(-4, 4) plt.show()
Попробуем разобраться, что на самом деле представлено на этих графиках. Я использовал функцию distplot
из пакета Seaborn. По оси ординат отложена плотность вероятности того, что переменная принимает значение, указанное на оси абсцисс. Подробнее о функциях плотности вероятности читайте в последнем посте / записной книжке. Короче говоря, площадь под кривой должна быть рассчитана для определенного диапазона оси x, чтобы получить вероятность получить значение в этом диапазоне.
А что насчет предельных вероятностей? Если мы хотим получить предельную вероятность x, нам нужно получить площадь под кривой функции плотности вероятности по оси y. Вы можете представить, что мы смотрим на трехмерный график только с оси Y (или проекции на эту ось) и получаем площадь под кривой.
Для дискретных переменных x и y мы видели, что предельная вероятность P (x) - это сумма вероятностей для каждого значения y. Теперь, когда наши переменные непрерывны, мы должны использовать интегралы, но принцип тот же:
- Чтобы вычислить предельную вероятность P (x), мы вычисляем площадь под кривой проекции переменной на ось x.
- Чтобы вычислить предельную вероятность P (y), мы вычисляем площадь под кривой проекции переменной на ось y.
Это используется для восстановления распределения вероятностей одной переменной, когда мы знаем совместное распределение вероятностей.
Это можно выразить следующим уравнением:
а также
Чтобы узнать больше об интеграции, вы можете ознакомиться с этой записью / записной книжкой. Переменная, следующая за маленьким d в конце уравнения, указывает переменную, используемую для интегрирования. Итак, в первом уравнении мы интегрируем по y. Это означает, что мы рассматриваем x как константу. Во втором уравнении поступаем наоборот.
3.5 Условная вероятность
Условная вероятность относится к вероятности события при условии, что произошло другое событие.
Зависимые и независимые события
Во-первых, важно различать зависимые и независимые события! В обоих случаях интуиция немного отличается.
Пример независимых событий: игральные кости и монета
В этом примере мы проводим эксперимент, в котором бросаем кости и подбрасываем монету. Мы назовем две случайные величины, описывающие эти события, где x соответствует броску кости, а y - броску монеты.
Мы можем задать следующий вопрос: какова вероятность получить тройку при броске кости и «голову» при подбрасывании монеты?
Мы видим, что эти два события независимы, потому что мы не ожидаем какого-либо влияния одного на другое.
Пример зависимых событий: две карты из колоды
В этом примере мы получим две карты в колоде без замены. Вероятности разные, когда мы берем первую карту (все 52 карты в колоде) и когда мы берем вторую карту (сейчас 51 карта, одна отсутствует). Это означает, что события зависимы: результат первого розыгрыша повлияет на вероятность второго розыгрыша.
Мы можем задать вопрос: какова вероятность выпадения 6 при втором розыгрыше, если у нас 6 при первом розыгрыше?
Обозначение
Давайте введем некоторые новые обозначения: P (y = y | x = x) описывает условную вероятность: это вероятность того, что случайная величина y принимает конкретное значение y при условии, что случайная величина x приняла конкретное значение x. Он отличается от P (y = y, x = x), который соответствует вероятности получения обоих результатов y для случайной переменной. y и x для случайной величины x. В случае условной вероятности событие, связанное со случайной величиной x, уже дало свой результат (x).
Математически существует удобная связь между условными вероятностями и совместной вероятностью:
Давайте будем подробными и переведем уравнение на простой английский:
Вероятность того, что случайная величина y принимает значение y при условии, что случайная величина x приняла значение x, является отношением вероятности того, что оба события произойдут (y принимает значение y и x принимает значение x) и вероятность того, что x принимает значение x.
Возможно, будет более интуитивно взглянуть на это в другом направлении:
Это можно понять так: чтобы вычислить вероятность того, что оба события произойдут, мы должны взять вероятность того, что первое событие произойдет (P (x = x), и умножить ее на вероятность того, что второе событие произойдет, учитывая, что первое событие произошло (P (y = y | x = x)). Очистить?
Умножение вероятностей
Это последнее объяснение приводит к вопросу. Мы использовали умножение вероятности (P (x = x), умноженное на P (y = y | x = x)), чтобы представить вероятность того, что происходит несколько событий (P (y = y, x = x)). Посмотрим, почему это имеет смысл.
Возьмем два независимых события: мы подбрасываем монету дважды (первый раз соответствует первому событию, а второй раз - второму событию), и мы хотим вычислить вероятность выпадения ровно двух орлов. Мы знаем, что вероятность получить «голову» при каждом испытании равна 1/2.
Чтобы понять, почему необходимо использовать умножение вероятностей, нам нужно понять, какова вероятность каждого события. Давайте сосредоточимся на первом событии, первом подбрасывании монеты. Вероятность 1/2: 1 соответствует количеству «успешных» результатов (т.е. получить «голову»). Знаменатель (2) соответствует общему количеству возможностей. Возможные исходы - «орел» или «решка», поэтому есть два исхода. Это приводит к нашей вероятности 1/2.
Теперь, если мы рассмотрим два события, вот все возможные исходы:
- "Головы" и "головы"
- 'головы и хвосты'
- "Решки" и "орла"
- «Решки» и «решки»
У нас все еще есть 1 успешный результат («головы» и «головы»), и есть 4 возможных исхода. Таким образом, вероятность получить «орел» и «орел» составляет 1/4.
Уловка здесь. Чтобы получить общее количество возможных исходов, нам просто нужно умножить количество исходов каждого события. В данном случае 2 * 2. Если мы умножим вероятности событий, мы получим: 1/2 * 1/2 = 1/4.
Чтобы убедиться, что условная вероятность кристально ясна, мы возьмем пример для независимых и зависимых событий. Кроме того, более подробная информация о концепции независимости разъясняется в п. 3.7.
Начнем с случая независимых событий.
Пример 4.
Во-первых, давайте вспомним все необходимые нам математические обозначения. P (x = x) - это вероятность того, что переменная x примет состояние x. Например, P (x = 3) соответствует вероятности выпадения 3 на кости. Аналогичным образом P (y = y) - это вероятность того, что случайная величина y примет значение y. Например, P (y = 'орел') соответствует вероятности получить "голову".
P (y = y, x = x) - совместная вероятность этих событий. Например, P (x = 3, y = 'орел') - это вероятность выпадения 3 на кубике и выпадения орла на монете. В этом примере предположим, что мы знаем, что P (x = 3, y = ’Head’) = 1/12.
P (y = y | x = x) соответствует вероятности того, что y = y при условии, что x = x . Таким образом, это условная вероятность. Например, P (y = ’Head’ | x = 3) соответствует вероятности получить "голову", учитывая, что мы уже выбросили 3 на кубике.
Обратите внимание, что P (y = ’Head’ | x = 3) = P (y = ’Head’), потому что эти события независимы. Это означает, что вероятность x одинакова для любого исхода y.
В нашем примере у нас есть:
Мы можем видеть, что действительно P (y = ’головы’ | x = 3) = P (y = ’Head’) = 0,5.
И закончим эту статью примером с зависимыми событиями.
Пример
В этом примере мы тянем две карты без замены. Первый шаг - использовать то, что мы узнали, и написать задачу, используя математические обозначения. Мы назовем x переменной, соответствующей первому розыгрышу, а y - переменной, соответствующей второму розыгрышу. Обе случайные величины x и y могут принимать значения 1, 2, 3, 4, 5 или 6. Это возможные результаты переменных.
Мы видели, что общая формула для вычисления условной вероятности:
Мы хотим знать вероятность выпадения 6 при втором розыгрыше, учитывая, что мы вытащили 6 при первом розыгрыше. Мы можем записать это так: P (y = 6 | x = 6).
Нам понадобятся:
- Вероятность выпадения 6 при первой розыгрыше (P (x = 6))
- Вероятность выпадения 6 как при первом , так и при втором розыгрыше (P (y = 6, x = 6))
Во время первого розыгрыша вероятность выпадения 6 равна 4/52 (в колоде из 52 карт 4 шестерки), поэтому P (x = 6) = 4/52. Вероятность выпадения пары 6 равна:
Условная вероятность, которую мы хотим вычислить, такова:
Это означает, что у нас есть 13 шансов из 221 (почти 6%), чтобы вытащить 6, как только мы уже получили 6. Мы можем отметить, что это соответствует 3/51 (более подробно в следующей главе).
Заключение
Мы видели, что предельная вероятность относится к вероятности одного события в экспериментах с несколькими событиями. Между этими предельными вероятностями и совместными вероятностями существуют отношения, выражающие вероятность того, что оба события произойдут.
Мы также говорили об условной вероятности. Это соответствует вероятности при определенных условиях, например, вероятности получить шестерку в колоде карт, зная, что мы уже получили шестерку и не заменили ее. Мы исследовали случаи зависимых и независимых событий.
Я надеюсь, что эта статья помогла вам использовать и прочитать математические обозначения, лежащие в основе этих концепций.