Изучите суть науки о данных. Крайне важно понять важность вычисления корреляций
Каждый успешный проект в области науки о данных основан на поиске точных корреляций между входными и целевыми переменными. Однако чаще мы наблюдаем за тем, насколько важен корреляционный анализ. Рекомендуется выполнять корреляционный анализ до и после этапов сбора и преобразования данных в проекте по науке о данных.
В этой статье основное внимание уделяется важной роли, которую корреляции играют в проектах по науке о данных, и сосредоточено внимание на реальных примерах FinTech.
Наконец, он объясняет, как мы можем правильно смоделировать корреляции.
Мы собираемся изучить суть науки о данных. Понимание того, насколько важны корреляции, имеет решающее значение для каждого специалиста по данным.
Статья Цель
Я объясню следующие три ключевые области:
- Что такое корреляция?
- Почему нам нужно понимать корреляции с примерами из реальной жизни
- Как рассчитать корреляции в Python
Что такое корреляция?
Корреляция - это статистическая мера.
Корреляция объясняет, как одна или несколько переменных связаны друг с другом. Эти переменные могут быть функциями входных данных, которые использовались для прогнозирования нашей целевой переменной.
Две характеристики (переменные) могут быть положительно коррелированы друг с другом. Это означает, что когда значение одной переменной увеличивается, значение другой переменной (переменных) также увеличивается.
Пример сильной положительной корреляции
Линия тренда имеет положительный градиент.
Две характеристики (переменные) могут иметь отрицательную корреляцию друг с другом. Это происходит, когда значение одной переменной увеличивается, а значение другой переменной (переменных) уменьшается.
Пример сильной отрицательной корреляции
Две функции могут не иметь отношения друг к другу. Это происходит, когда значение переменной изменяется, тогда как значение другой переменной не изменяется.
Пример отсутствия корреляции
Корреляция - недооцененный статистический показатель
Давайте разберемся, насколько важны корреляции в реальном мире
Я собираюсь представить десять реальных примеров использования, в которых будет подробно рассказано, насколько важно понимать, моделировать и измерять корреляции точно и своевременно. Его цель - показать, насколько важен корреляционный анализ.
Чрезвычайно важно провести корреляционный анализ
Пример использования в реальном мире 1
Представим, что вы одалживаете большую сумму денег компании ABC на год. ABC обещает вернуть вам ваши деньги с процентами через годы. Вы обеспокоены тем, что компания ABC может объявить дефолт, и, чтобы защитить себя от этого риска, вы решаете приобрести страховку у страховой компании XYZ.
Теперь давайте также предположим, что каждый, кто ссужал деньги ABC, также купил страховку у страховой компании XYZ.
Вы видите, что произойдет, если ABC не выполнит настройки по умолчанию?
Если ABC выполнит дефолт, то все обратятся к XYZ и будут ожидать, что они вернут свои деньги. Как следствие, XYZ может объявить дефолт, и вы потеряете свои деньги.
Это потому, что существует сильная положительная корреляция между компаниями ABC и XYZ.
Если бы мы знали корреляцию заранее, мы бы купили страховку у другой компании и спасли бы себя от потери денег!
То, что я только что объяснил выше, - это концепция финансовой торговли, известная как CDS, а риск известен как риск корреляции WWR.
Пример использования в реальном мире 2
Иногда мы пытаемся спрогнозировать переменную y, например. цена акций, и мы тратим огромное количество времени на сбор данных для характеристик x1 (продажи компании) и x2 (выручка компании), которые могут помочь нам спрогнозировать переменную y. Однако эти две особенности могут иметь сильную положительную корреляцию друг с другом.
Таким образом, достаточно собрать данные только для одной из функций и ввести их в нашу модель науки о данных. Это не только может сэкономить нам усилия при сборе и очистке данных, но также может сократить время, необходимое для обучения модели.
Поэтому очень важно смоделировать корреляцию между функциями, поскольку это может сэкономить нам драгоценное время.
Пример использования в реальном мире 3
Знаете ли вы, что произошло во время финансового кризиса 2007 года? Корреляции сыграли самую большую роль в финансовых кризисах.
Во время кризиса корреляция между мировыми рынками была чрезвычайно положительной. В результате активы по всему миру упали вместе.
Во время рецессии соотношение активов полностью меняется.
Значительно увеличилась корреляция между акциями и старшими траншами. Это означало, что убытки в одном транше привели к убыткам в другом транше. Совершенно не ожидалось.
Важно моделировать корреляцию и рассчитывать ее на постоянной основе.
Пример использования в реальном мире 4
В результате девальвации евро в 2012 году экспортеры США понесли убытки.
Когда ВВП США был низким, азиатские и европейские экспортеры несли убытки из-за сильной корреляции между рынками.
Очевидно, что знание корреляции на макроуровне может помочь нам принимать более обоснованные инвестиционные решения.
Пример использования 5 в реальном мире
Цены на нефть были очень высокими во время восстания на Ближнем Востоке. Как следствие, сократилось количество авиаперевозок, что сильно повлияло на туристическую отрасль в регионе.
Когда корреляция моделируется точно и часто измеряется, это может помочь нам лучше планировать непредвиденные сценарии.
Пример использования в реальном мире 6
Цена на такие товары, как драгоценные металлы, отрицательно коррелирует с процентными ставками. Когда процентные ставки увеличиваются, цены на товары снижаются.
Измерение корреляции может помочь нам сократить расходы и увеличить прибыль.
Пример использования 7 в реальном мире
Знаменитая инвестиционная теория Гарри Марковица основывается на концепции расчета корреляций для моделирования совместного движения активов. Трейдеры изобрели ряд стратегий корреляционной торговли (Quanto Strategy). Успешные инвесторы и аналитики всегда пытаются проанализировать корреляции.
Большое количество финансовых институтов полагается на концепцию корреляций. Мы не хотим класть все яйца в одну корзину, подразумевая, что мы не хотим инвестировать во все те активы, которые движутся вместе в одном направлении.
Пример использования в реальном мире 8
Управление рисками основывается на поиске ковариации между активами для моделирования того, как активы перемещаются друг с другом.
Большое количество стратегий хеджирования зависит от нахождения корреляций между сделкой и хеджируемой позицией.
Были разработаны специальные сделки, моделирующие риск корреляции, такие как свопы корреляции и варианты корреляции.
Пример использования в реальном мире 9
VaR - один из ключевых инструментов управления рисками, который помогает нам найти максимальные убытки за период удержания для определенного уровня уверенности. VaR можно рассчитать с использованием подхода дельта-норма. Дельта-нормальный подход также известен как подход ковариации и дисперсии, поскольку он основан на нахождении ковариации дисперсии активов. Обычно в расчет вводится ковариационная или корреляционная матрица.
Суть улавливания риска на рынках зависит от нахождения точных корреляций.
Пример использования в реальном мире 10
Наконец, я собираюсь коснуться важного варианта использования. Предполагается, что облигации, процентные ставки, кредитные спреды, цены на акции и их доходность в конечном итоге вернутся к своему среднему значению. Все эти переменные известны как переменные с возвратом к среднему значению. Иногда переменные соотносятся с их прошлыми значениями. Здесь корреляция (автокорреляция) измеряет, насколько сильно коррелированы текущие и прошлые значения друг с другом. Для оценки автокорреляции был реализован ряд моделей, таких как ARCH и GARCH. Эти модели специализируются на поиске автокорреляций и широко используются в мире науки о данных.
Если требуется реализовать успешный проект в области науки о данных, тогда нельзя игнорировать корреляции
Теперь, когда мы понимаем, насколько важно измерять корреляцию, давайте рассмотрим различные методы, которые могут помочь нам вычислить коэффициенты корреляции.
Я собираюсь сосредоточиться на трех популярных мерах корреляции:
- Мера корреляции Пирсона
2. Мера ранговой корреляции Спирмена
3. Мера корреляции Кендалла
Я объясню, как рассчитать каждый из них и каковы их ограничения.
1. Корреляция Пирсона
Корреляция Пирсона измеряет линейную связь между переменными. Предполагается, что переменные распределены нормально.
Корреляция Пирсона рассчитывается путем деления ковариации двух переменных на произведение их стандартных отклонений. Ковариация измеряет, как две переменные перемещаются друг с другом во времени. Когда мы делим ковариацию на стандартные отклонения, мы делаем корреляцию Пирсона без единицы измерения и, следовательно, она всегда находится между значениями -1 и 1.
- Самым большим ограничением корреляции Пирсона является то, что она предполагает, что переменные имеют линейную связь между собой. Большинство переменных не имеют линейных отношений. Например, между финансовыми активами существует нелинейная взаимосвязь.
- Когда значение корреляции Пирсона равно 0, это означает, что между двумя переменными нет линейной зависимости. Однако между переменными может быть нелинейная связь. Следовательно, значение 0 не означает, что две переменные полностью независимы друг от друга.
- Ожидается, что дисперсия переменных будет конечной. В большинстве случаев это не так, как в случае, когда распределение равно Стьюденту.
- Корреляция Пирсона изменяется после преобразования данных. Часто в проектах по науке о данных мы вычисляем журнал переменной, чтобы преобразовать ее в линейную переменную. Побочным эффектом этого является изменение корреляции Пирсона.
Чтобы вычислить корреляцию Пирсона в Python:
scipy.stats.pearsonr(variable1, variable2)
переменная1 и переменная2 могут быть массивами.
2. Корреляция рейтинга Спирмена
Иногда элементы в наших наборах данных имеют порядки. Это особенно часто встречается в данных временных рядов. В этих случаях мы можем вычислить меру корреляции ранжирования Спирмена, чтобы найти взаимосвязь ранжированных переменных.
Есть три шага для вычисления ранговой корреляции Спирмена:
Если есть две переменные X и Y
1. Упорядочьте заданные пары переменных X и Y относительно набора X.
2. Определите ранги для каждого периода времени i.
3 • Вычислите разность рангов и возведите разницу в квадрат.
Корреляция будет равна 1 для абсолютно положительно коррелированных переменных, -1 означает, что переменные имеют идеальную отрицательную корреляцию, а 0 означает, что между переменными нет корреляции.
Не требуется, чтобы переменные имели нормальное распределение.
Мы можем вычислить корреляцию ранжирования Спирмена в Python:
scipy.stats.spearmanr(variable1, variable2)
переменная1 и переменная2 могут быть массивами.
3. Мера корреляции Кендалла
Последний важный показатель корреляции - Кендалл Тау. Мера корреляции Кендалла известна как мера Кендалла Тау. Это непараметрическая мера, которая не требует каких-либо предположений относительно совместных распределений вероятностей переменных.
Кендалл Тау измеряет соответствие между двумя рейтингами. Мы можем реализовать Кендалла Тау на Python:
scipy.stats.kendalltau(variable1, variable2)
Панды великие
Если вы загружаете свои данные в фреймворк Pandas, вы можете вызвать готовую функцию в Pandas, которая может вычислить корреляцию между каждой отдельной переменной за вас.
df = pd.DataFrame(..) df.corr(method)
Метод параметра может быть {"pearson", "kendall", "spearman"}.
Если вы хотите изучить Pandas, прочтите мою статью:
Резюме
В этой статье объясняется, что такое корреляции, насколько они важны и какую важную роль они играют.
Наконец, он объяснил, как мы можем вычислить их на Python.
Хотя корреляционный анализ недооценен, мы видим, насколько важно измерить корреляцию и разумно использовать его в ваших проектах по науке о данных.
Надеюсь, это поможет.