вклад этой статьи:

  1. уникален в развертывании трех современных методов машинного обучения и их простого набора в большой и ликвидной фондовой вселенной.
  2. Он показывает, что совокупная доходность лишь частично нагружает систематические источники риска, надежна в свете транзакционных издержек и ухудшается со временем — предположительно из-за растущей популяризации машинного обучения и достижений в области вычислительной мощности. . Тем не менее, в последние годы в периоды сильных рыночных потрясений все еще можно наблюдать сильную положительную доходность.
  3. сосредоточиться на ежедневном инвестиционном горизонте вместо месячной частоты, что позволяет получать гораздо больше данных для обучения и выгодно использовать краткосрочные зависимости

данные

S&P500

  1. Получите все списки составляющих индекса S&P 500 на конец месяца из Thomson Reuters Datastream с декабря 1989 г. по сентябрь 2015 г. Мы объединяем эти списки в одну двоичную матрицу, указывающую, входят ли акции в состав индекса в следующем месяце или нет.
  2. Для всех акций, которые когда-либо входили в индекс, мы загружаем ежедневные индексы общей доходности с января 1990 г. по октябрь 2015 г. Индексы доходности отражают цены с учетом дивидендов и учитывают все дальнейшие корпоративные действия и дробления акций, что делает их наиболее подходящей метрикой. для расчетов возврата.

Набор обучающих данных генерируется с 750 днями в качестве обучающего набора и 250 днями в качестве набора для разработки со скользящим окном в 250 дней.

Метод

ввод, вывод:

  1. input : входная функция определена, содержит различные чаевые.

  1. вывод:

сечение доходности акций поясняется здесь

DNN (глубокие нейронные сети)

используется простой млп (31–31–10–5–2)

с активацией maxout, методом отсева (коэффициент отсева скрытого слоя 0,5, коэффициент отсева ввода 0,1), lambda_L1=0,00001. Оптимизатор ADADELTA.

GBT (деревья с градиентным усилением)

AdaBoost, развертывание неглубоких деревьев решений в качестве слабых учеников.

Количество деревьев или повышающих итераций MGBT=100 , глубина дерева JGBT=3 , скорость обучения λGBT=0,1 и подмножество функций для использования при каждом разделении, т. е. mGBT=15 .

RAF (случайные леса)

Для каждого из деревьев BRAF (1000 деревьев) в случайном лесу мы сначала выбираем случайное подмножество из исходных обучающих данных. Затем мы выращиваем модифицированное дерево решений для этой выборки, посредством чего мы выбираем признаки mRAF=floor(square(p)) случайным образом из p признаков при каждом разделении. Мы выращиваем дерево до максимальной глубины JRAF=20. Конечным результатом является ансамбль случайных лесных деревьев BRAF, так что классификация может быть выполнена большинством голосов. Все результаты значения используют H20 ​​по умолчанию в случайных лесах.

ENS( ансамбль вышеуказанный )

ансамбль - это всего лишь прогноз средней вероятности трех вышеуказанных методов.

ссылка:

  1. Краусс, Кристофер, Сюань Ань До и Николас Хак. «Глубокие нейронные сети, деревья с градиентным усилением, случайные леса: статистический арбитраж на S&P 500. Европейский журнал операционных исследований 259.2 (2017): 689–702.»