В серии постов я только что описал, как k-меры и вариационные автоэнкодеры (VAE) можно использовать для моделирования последовательностей SARS Cov2. Одним из главных открытий является своего рода молекулярные часы внутри вирусной последовательности. Эти конкретные часы, по-видимому, не зависят от года пандемии. Обновленные данные SARS Cov2 показывают аналогичное поведение. Обученные автоэнкодеры сортируют последовательности SARS Cov2 в ряд кластеров, зависящих от времени. Это снова указывает на наличие молекулярных часов внутри последовательности.

Легко объяснимая альтернатива состоит в том, что в тренировочном процессе есть некоторая утечка. Модель изучает утечку, а не значимую характеристику. Но если внутри последовательностей есть паттерн, то должны быть и другие способы получения таких паттернов.

Подход специалиста по данным

Одной из первых попыток добиться такого детерминированного циклического поведения была разработка различных визуализаций данных. Первый был назван временным путем. Это была попытка реконструировать то, как последовательность меняется во времени. Средний состав во времени показал четко определенный путь, по которому следовал вирус.

Несколько других примеров были разработаны в попытке найти новые значимые закономерности. Однако если в последовательность встроено поведение, зависящее от времени, то, возможно, частоты k-меров можно рассматривать как временные ряды. Рассмотрение частот отдельных нуклеотидов как временных рядов позволяет нам разложить временные ряды на их трендовые и сезонные составляющие. Видно, что содержание Т постоянно увеличивалось с начала пандемии. При этом содержание С продолжает снижаться.

Глядя на комбинации нуклеотидов, состав динуклеотидов AA, AT и TA показывает тенденцию к росту с начала пандемии. Это открывает возможность разработки противовирусного препарата на основе динуклеотидов. Или использовать противовирусные аналоги T и A одновременно для лечения covid-19.

Успешное противовирусное лечение может дать возможность снизить частоту мутаций. Это может привести как минимум к двум сценариям. Обращение вируса к ранее известным вариантам или создание ранее неизвестного варианта. В случае, если вирус вернется к ранее известному варианту, иммунитет, полученный в результате вакцинации, может более эффективно удалить вирус. Тогда как второй сценарий потребует более радикального изменения вирусного генома. Но если происходит изменение траектории движения вируса, такие изменения можно обнаружить, просто измерив содержимое каждой базы.

Различные VAE работают, потому что способ представления последовательностей содержит временной паттерн. VAE просто сортирует различные последовательности, которые имеют сходное сезонное поведение. Компонент тренда масштабируется с помощью нормализации минимума и максимума, выполненной перед тренировкой. Затем тренд удаляется в основном путем нормализации партии, поскольку измерение партии совпадает с измерением времени. И разные веса группируют разные последовательности по сходству в изученном представлении.

Однако аналогичное изученное представление можно получить без пакетной нормализации. Тем не менее, процесс обучения стал несколько нестабильным, поскольку различимые кластеры не получаются. Значения потерь находятся в том же диапазоне, что и VAE с нормализацией партии, но значимой закономерности не обнаружено. Кластеры появляются снова за счет увеличения размера сети и количества эпох. Наводит на мысль, что лишние веса узнают статистику, полученную при пакетной нормализации. Хотя объяснение может не пересекать все t, потому что это глубокая нейронная сеть. Однослойная сеть также может группировать последовательности по времени. Предполагая, что последующие слои просто вносят более тонкие коррективы в общую модель.

Поскольку элемент тренда удаляется в процессе обучения, непрерывная адаптация вируса оказывается цикличной. Он содержит циклический компонент, но не единственный. Возникает еще одна проблема: данных одной последовательности может быть недостаточно для получения долгосрочного прогноза. Однако результаты добавляют ряд ограничений к тому, как будет вести себя последовательность. Добавление дополнительной информации, такой как структура генома, еще больше ограничит различные возможные последовательности. И такая информация может быть полезна для составления более качественных долгосрочных прогнозов.

Варианты классификации

Если вирус адаптируется во времени циклически, то различные варианты являются результатом такой адаптации. Предполагается, что частот k-mer должно быть достаточно для отслеживания и классификации различных вариантов. Предыдущий анализ уже показал некоторое совпадение с линиями панголинов. Однако на основе этого анализа не был построен специальный классификатор, одним из основных недостатков которого является несбалансированность данных. Проблема, которая продолжается и по сей день. Обновленные данные содержат около 1300 уникальных родословных, и примерно половина последовательностей относится к подмножеству из 30 родословных.

Создание классификатора случайного леса с использованием определенных частот k-меров в качестве данных приводит к классификаторам со средней точностью 95%. А важность признаков указывает на конкретные комбинации, используемые для классификации. Возможность использовать данные K-mer для обучения классификаторов вариантов основывалась на небольшом размере модели и необходимом количестве данных. Для обучения классификатора требуется менее 80 функций, и для достижения такой производительности не использовалась настройка. Хотя для обучения классификатора использовались не все различные варианты, он предлагает легко масштабируемую альтернативу.

До сих пор основной вывод заключается в следующем. Последовательности SARS Cov2 содержат внутри себя своего рода молекулярные часы. Внутри часов есть как минимум две шкалы времени, одна из которых циклически меняется каждый год, а вторая без видимой шкалы времени. Годовые циклы зависят от частоты встречаемости различных фрагментов внутри последовательности. Эти изменения частоты предполагают, что SARS Cov2 конструируется путем перестановки различных фрагментов. Годовые циклы можно использовать для разработки сезонного лечения, а тренд можно использовать для разработки долгосрочной стратегии лечения.

Полную сводку различных анализов и первоначальный препринт можно найти на моем GitHub, нажав здесь. И если вы достигли этого момента и хотите помочь мне продолжить разработку этих моделей, рассмотрите возможность присоединения к одной из различных платформ поддержки. Вы можете найти их, нажав здесь. Берегите себя и увидимся в следующем.