вклад этой статьи:
- уникален в развертывании трех современных методов машинного обучения и их простого набора в большой и ликвидной фондовой вселенной.
- Он показывает, что совокупная доходность лишь частично нагружает систематические источники риска, надежна в свете транзакционных издержек и ухудшается со временем — предположительно из-за растущей популяризации машинного обучения и достижений в области вычислительной мощности. . Тем не менее, в последние годы в периоды сильных рыночных потрясений все еще можно наблюдать сильную положительную доходность.
- сосредоточиться на ежедневном инвестиционном горизонте вместо месячной частоты, что позволяет получать гораздо больше данных для обучения и выгодно использовать краткосрочные зависимости
данные
S&P500
- Получите все списки составляющих индекса S&P 500 на конец месяца из Thomson Reuters Datastream с декабря 1989 г. по сентябрь 2015 г. Мы объединяем эти списки в одну двоичную матрицу, указывающую, входят ли акции в состав индекса в следующем месяце или нет.
- Для всех акций, которые когда-либо входили в индекс, мы загружаем ежедневные индексы общей доходности с января 1990 г. по октябрь 2015 г. Индексы доходности отражают цены с учетом дивидендов и учитывают все дальнейшие корпоративные действия и дробления акций, что делает их наиболее подходящей метрикой. для расчетов возврата.
Набор обучающих данных генерируется с 750 днями в качестве обучающего набора и 250 днями в качестве набора для разработки со скользящим окном в 250 дней.
Метод
ввод, вывод:
- input : входная функция определена, содержит различные чаевые.
- вывод:
сечение доходности акций поясняется здесь
DNN (глубокие нейронные сети)
используется простой млп (31–31–10–5–2)
с активацией maxout, методом отсева (коэффициент отсева скрытого слоя 0,5, коэффициент отсева ввода 0,1), lambda_L1=0,00001. Оптимизатор ADADELTA.
GBT (деревья с градиентным усилением)
AdaBoost, развертывание неглубоких деревьев решений в качестве слабых учеников.
Количество деревьев или повышающих итераций MGBT=100 , глубина дерева JGBT=3 , скорость обучения λGBT=0,1 и подмножество функций для использования при каждом разделении, т. е. mGBT=15 .
RAF (случайные леса)
Для каждого из деревьев BRAF (1000 деревьев) в случайном лесу мы сначала выбираем случайное подмножество из исходных обучающих данных. Затем мы выращиваем модифицированное дерево решений для этой выборки, посредством чего мы выбираем признаки mRAF=floor(square(p)) случайным образом из p признаков при каждом разделении. Мы выращиваем дерево до максимальной глубины JRAF=20. Конечным результатом является ансамбль случайных лесных деревьев BRAF, так что классификация может быть выполнена большинством голосов. Все результаты значения используют H20 по умолчанию в случайных лесах.
ENS( ансамбль вышеуказанный )
ансамбль - это всего лишь прогноз средней вероятности трех вышеуказанных методов.
ссылка:
- Краусс, Кристофер, Сюань Ань До и Николас Хак. «Глубокие нейронные сети, деревья с градиентным усилением, случайные леса: статистический арбитраж на S&P 500. Европейский журнал операционных исследований 259.2 (2017): 689–702.»