К аналитическому описанию данных, а не простым черным ящикам
Реальные приложения символической регрессии
Символическая регрессия (т.е. поиск уравнений, связывающих переменные) гораздо менее популярна, чем другие методы машинного обучения и математического моделирования, и предлагает модели, которые не только предсказывают данные, но и рационализируют то, как они достигают своих прогнозов. Однако, как я представляю здесь, все больше и больше приложений символьной регрессии становятся реальными, особенно по мере разработки новых методов, которые объединяют связанные с физикой ограничения, проекцию данных и предварительную обработку, а также новые способы схождения в простые, значимые уравнения.
Вкратце об индексе
- Введение
- Два новых метода символьной регрессии с физическими ограничениями
- Современные практические применения символической регрессии в химических и биологических науках
Введение
Символьная регрессия заключается в идентификации математического выражения, которое соответствует набору данных входных и выходных значений. Есть много разных способов подойти к проблеме и достичь таких аналитических выражений, связывающих входные данные с выходными, некоторые из которых больше связаны с методами машинного обучения, другие используют генетические алгоритмы, некоторые из них основаны на заранее установленных правилах, а другие используют пространство возможных уравнений в более широком смысле. и т. д. Нахождение аналитических уравнений, связывающих переменные, далеко не тривиально, особенно когда кто-то ищет простые уравнения, которые выглядят так же «элегантно», как и те, которые обычно выводятся теоретическими средствами. Например, расстояние, которое преодолевает объект, испытывающий постоянное ускорение и начинающий без скорости, просто равно d = a t² / 2. Или, чтобы процитировать другой пример, радиоактивный распад приводит к экспоненциальному уменьшению интенсивности излучения материала: I = Я (0) ехр (-kt). В этих примерах, учитывая набор расстояний, пройденных в увеличивающееся время, или набор значений интенсивности излучения в зависимости от времени, можно ожидать, что символические регрессии восстановят соответствующие уравнения. Но, конечно, другие функции также могут соответствовать данным, не обязательно описывая простую физику, лежащую в основе данных.
Моделирование данных с помощью символьной регрессии имеет некоторые преимущества перед моделированием данных с помощью обычных регрессий, нейронных сетей или других математических инструментов. Для меня два наиболее важных преимущества:
- Возможность не только моделирования данных и способности предсказывать новые результаты на основе новых входных данных, как и в случае с другими методами моделирования, но и фактического понимания, почему переменные связаны определенным образом. Ответ на этот почему может в конечном итоге помочь предложить, какие физические, биологические, химические, финансовые и т. Д. (В зависимости от темы) лежат в основе ассоциации. Например, экспоненциальные распады часто связаны с одношаговыми событиями первого порядка, скорость которых пропорциональна плотности (интенсивности излучения, количеству клеток в культуре и т. Д.). Со временем, по мере того, как начальная плотность уменьшается, скорость ее изменения уменьшается, что в интегрированной форме приводит к уравнению на основе exp. Аналогичным образом, из элементарного интегрирования ускорений как второй производной положения по времени можно получить уравнение для пройденного расстояния при постоянном ускорении.
- Если полученное уравнение верно, модель, вероятно, имеет гораздо большую мощность экстраполяции, чем большинство других математических моделей, особенно основанных на нейронных сетях, которые часто отлично подходят для интерполяции, но едва ли могут экстраполировать немного за пределами их областей обучения.
Другими словами, результаты хорошей символической регрессии более интерпретируемы, меньше похожи на черный ящик и, вероятно, более эффективны.
Чтобы эти преимущества действительно реализовались, важно максимально увеличить шансы на получение физически разумных уравнений. Для этого многие методы включают навигацию с физическими ограничениями в «пространстве поиска уравнений». С другой стороны, необходимо провести обширную выборку пространства поиска по уравнениям, особенно для задач большой размерности, в которых традиционная символическая регрессия терпит неудачу более легко. Чтобы максимизировать выборку, простоту и физическую точность, ученые теперь создают новые символические регрессоры, комбинируя машинное обучение и эволюционные алгоритмы с ограничениями на основе физики для уравнений.
Я не буду вдаваться в подробности о символической регрессии, потому что есть отличные статьи здесь, в редакторах TDS (например, эта от Рафаэля Руджеро), а также в WikiPedia. (Здесь) среди других ресурсов. Скорее, я сосредотачиваюсь здесь на реальных, современных примерах научного применения символической регрессии, что, как говорится в названии статьи Рафаэля, является своего рода забытым методом, вероятно, вытесненным обычными методами машинного обучения:
Сначала я резюмирую две важные недавние статьи, в которых уже представлены приложения, но в основном они сосредоточены на теории, лежащей в основе самых современных методов обнаружения уравнений на основе данных. Затем в следующем разделе я перейду к некоторым очень интересным приложениям, на самом деле одно из моих собственных исследований.
Во-первых, два новых метода символьной регрессии с физическими ограничениями с широкими применениями.
Первая статья: Удреску и Тегмарк 2020
Первая статья, которую я хочу выделить, - это статья, опубликованная в 2020 году в Science Advances (статья здесь, в открытом доступе). Его название - А.И. Фейнман: вдохновленный физикой метод символической регрессии, и, как вы видите, он также отсылает к известному физику Ричарду Фейнману ... методы и программное обеспечение, разработанные здесь, могут обнаружить все 100 физических уравнений в книге этого автора. автор.
Основная идея работы относительно проста: для создания своего нового алгоритма символьной регрессии они сочетают подгонку нейронной сети с набором ограничений, основанных на физике, и функций уравнений. Одним из ключевых компонентов этой работы было осознание того, что функции, появляющиеся в физике (и, по сути, в большинстве научных приложений), часто имеют определенные свойства, которые как бы ограничивают пространство поиска уравнений. Это подробно описано в документе, но давайте рассмотрим их: переменные и коэффициенты имеют физические единицы, которые должны быть согласованы (и, например, логарифмы часто применяются к отношениям или аналогичным аргументам, где единицы вычитаются). Полиномы обычно достигают низких степеней (но не обязательно ограничиваются квадратными степенями: см. Квадратные корни, зависимость светорассеяния от длины волны / 10⁴ и т. Д.). Большинство уравнений состоят либо из одного, либо из нескольких членов, каждый из которых обычно содержит не более двух аргументов. Уравнения являются непрерывными и гладкими, по крайней мере, в их разумных областях; и они чаще всего симметричны некоторым или всем своим переменным. Наконец, переменные обычно группируются в небольшие группы или просто сгруппированы отдельно по разным условиям.
Алгоритм, представленный в этой статье, учитывает все эти точки в разных блоках и работает рекурсивно, разбивая задачу на более мелкие и выполняя эти части по отдельности. Некоторые ключевые особенности метода:
Во-первых, следует отметить, что метод действительно включает этапы поиска уравнения грубой силы; однако, выполняя отдельные части более крупной проблемы, можно лучше выбрать пространство поиска.
Во-вторых, в работе также используется особый способ уменьшения вероятности переобучения путем определения функции выигрыша («выигрыш», относящийся к соревнованию различных альтернативных ответов), как и в предыдущих работах.
В-третьих, во время работы программа использует обычные нейронные сети для создания интерполированных данных, которые помогают процедурам подбора, необходимым для оценки уравнений, а также тем, которые проверяют симметрию, гладкость и разделимость термов.
Четвертый интересный момент: метод использует преобразование данных прямо на входах (например, ввод x² вместо просто x) на основе общей математики, найденной в обычных уравнениях, чтобы ускорить обнаружение уравнений.
Программа, описанная в этой статье, доступна на GitHub. В тестах, о которых сообщают авторы, программе требуется от десятков секунд до десятков минут, чтобы сойтись символьные регрессии на небольшом количестве точек данных. Программа смогла восстановить все 100 уравнений из книги Фейнмана, используя только элементарные функции (+, -, ∗, /, sqrt, exp, log, sin, cos, arsin и tanh) и небольшие рациональные числа, а также e и π. Добавив моделируемый шум в наборы данных, авторы также проверили надежность метода и программы.
Вот исходная статья в Science Advances:
Вы можете стать более практичным с этой программой, прочитав эту статью TDS Дэниела Шапиро, доктора философии:
Вторая статья: Рейнбольд и др. 2021 г.
Вторая статья, на которую я хочу обратить внимание, была опубликована в Nature Communications в 2021 году (статья в открытом доступе здесь). Подобно А.И.-Фейнману, метод, описанный в этой статье, также использует различные особенности реальных физических уравнений в качестве ограничений для задачи поиска уравнений при поиске экономных моделей, которые сочетают в себе точность и простоту. Более того, поскольку авторы занимались проблемами, в которых производные очень важны, они реализовали слабые формулировки дифференциальных уравнений, чтобы снизить чувствительность к шуму и устранить зависимость от недоступных переменных. Основная причина использования слабых формулировок состоит в том, чтобы превратить дифференциальное уравнение в интегральное уравнение, чтобы избавиться от нагрузки, связанной с вычислением производных. Подробнее о слабых формах см. В этом замечательном блоге.
В своей статье авторы показывают применение этого метода к экспериментальным измерениям поля скорости в турбулентной жидкости. На основе только этих входных данных метод позволяет реконструировать недоступные переменные, такие как давление, управляющее потоком. Хотя в представленном виде он применяется только к этому тесту, этот метод предположительно работает и для других типов задач.
Вот оригинал статьи в Nature Communications:
Вот они: современные практические применения символической регрессии в химических и биологических науках.
Поиск «символической регрессии» во всех заголовках и рефератах статей в PubMed (крупнейшей в мире онлайн-библиотеке по естественным наукам) дает 76 результатов по состоянию на 30 сентября 2021 г. Это не включает статьи, в которых термин упоминается только внутри основные тексты; и ограничивается статьями в области биологии и химии, но не учитывает статьи в области компьютерных наук, поэтому это хороший заменитель для статей, в которых символическая регрессия представляет собой важное применение представленной работы.
В 1997 году опубликована одна статья, в которой говорится о символической регрессии как о методе обнаружения «функции одной переменной». А затем остается пустота до 2011 года, когда в одной статье использовалась символическая регрессия, чтобы найти уравнение, описывающее скорость клубочковой фильтрации, показатель функции почек, который полезен при трансплантации почек. Полученное уравнение продемонстрировало превосходство над другими уравнениями, существовавшими в то время.
С 2011 года количество публикаций с «символической регрессией» в названии или аннотации стало плавно увеличиваться, с 16 на 2021 год по состоянию на 30 сентября:
Теперь давайте рассмотрим некоторые из наиболее интересных мне случаев, которые иллюстрируют реальное применение современных методов символической регрессии.
Эта статья 2020 года в Nature Communications использовала символическую регрессию для данных об активности выделения кислорода различных перовскитов, чтобы понять, какие переменные являются лучшими предикторами активности и с помощью каких уравнений. С помощью этой работы авторы смогли идентифицировать простой дескриптор, который представляет собой соотношение двух факторов, часто используемых в этой области исследований для характеристики составов перовскита, и уравнения для моделирования активности на основе этого дескриптора. Эта символическая модель привела к открытию серии новых оксидных перовскитных катализаторов с улучшенной активностью, которые авторы синтезировали и охарактеризовали, чтобы подтвердить их высокую активность. Символьные регрессии были выполнены с помощью gplearn, библиотеки Python, которая расширяет scikit-learn с этой функциональностью. Бумага здесь:
И это библиотека gplearn, используемая в этой работе для символической регрессии (и других очень интересных методов) в python:
Следующая статья, Phys Rev E 2021, находится на стыке разработки методов символической регрессии и реальных приложений для обнаружения физических законов из искаженного видео. В статье представлен метод обучения без учителя уравнений движения немаркированных объектов в необработанном видео. Представьте себе относительно статичную сцену, на которой движется объект, и вы хотите получить уравнение движения этого объекта, даже не маркируя его и не отслеживая его намеренно. Я выбрал эту статью для презентации здесь, потому что она демонстрирует прекрасную интеграцию анализа изображений, предварительной обработки, проекций на низкие измерения и самой символической регрессии.
В этом методе автоэнкодер сначала преобразует каждый кадр видео в низкоразмерное скрытое пространство, которое упрощает движения. Это действует как предварительная регрессия, которая затем вводится в оптимальную по Парето символьную регрессию, чтобы найти дифференциальные уравнения, описывающие движение объекта. На этапе предварительной регрессии можно моделировать координаты немаркированных движущихся объектов, даже когда видео искажено, как это происходит в реальных видео. Использование скрытых пространственных измерений помогает избежать топологических проблем и может быть удалено позже с помощью анализа главных компонентов. Наконец, минимизируя общие движения, метод может автоматически обнаруживать также инерциальную систему отсчета, тем самым уменьшая искажения конечных движений (которые могут произойти, скажем, из-за движущейся камеры или фона) и, следовательно, облегчая получение простых уравнений.
Эта статья, представляющая совершенно новый способ анализа видео, находится здесь:
Или вот препринт на arXiv:
В следующей статье, Bioessays 2019, рассматривается моделирование экологической динамики, то есть того, как популяции различных видов, разделяющие среду обитания, со временем эволюционируют по отношению друг к другу и к абиотическим факторы. Работа сочетает в себе символическую регрессию с набором правдоподобных экологических функциональных ответов на обратную инженерию динамики экосистемы на основе данных о численности организмов, зависящих от времени. Учитывая входные данные, процедура возвращает наборы возможных дифференциальных уравнений, которые их описывают, которые затем анализируются на предмет их значения с точки зрения понятий об экологии. Мы можем выделить два основных преимущества использования символической регрессии, как обсуждают авторы. Во-первых, полученные в результате дифференциальные уравнения потенциально могут быть интерпретированы для понимания основных экологических механизмов экосистемы, таких как тип экологических взаимодействий между видами, например, между парами видов хищников и жертв. Второй важный момент, который подчеркивают авторы, заключается в том, что методология, по-видимому, работает хорошо даже в случае ограниченных или малоинформативных данных, вероятно, потому, что они сами предоставляют кандидатуры исходных частей уравнений, тем самым ограничивая поиск только значимыми уравнениями, которые могут быть подогнаны с помощью -качественные или разреженные данные.
Эта статья с этим интересным подходом находится здесь:
В другой статье, написанной мной в Molecular Biotechnology 2021 г., использовалась символическая регрессия для моделирования влияния мутаций на термостабильность белков и в то же время для понимания того, как различные факторы модулируют влияние на стабильность. Как показано в документе, проблему очень сложно смоделировать, отчасти из-за ограниченного количества доступных данных. Но одна конкретная мутация, от аминокислоты валина до аминокислоты аланина, насчитывала 47 задокументированных записей в наборе данных. Символьная регрессия этих данных с использованием трех факторов аминокислоты дикого типа (валин) в контексте ее структуры, а именно ее относительной доступности растворителя, вторичной структуры и гибкости, количественно оцененных по атомарным B-факторам, вернула следующее уравнение:
ΔTm (° C) = SS - SS / (8,58 RSA - 0,89) + 13,56 RSA - 7,35
который соответствовал коэффициенту корреляции r, равному 0,68, и средней среднеквадратичной ошибке, равной 3,3 ° C. Уравнение не показывает значимого влияния гибкости, поскольку модель хорошо работает только с вторичной структурой (SS) и относительной доступностью растворителей (RSA). Фактически, ключевыми условиями модели являются смещение -7,35, что подразумевает глобальный дестабилизирующий эффект, и сильную модуляцию RSA с коэффициентом +13,56: чем больше подвергается воздействию аминокислоты, тем сильнее ее положительное влияние на стабильность. Это имеет идеальный физический смысл, потому что валин является гидрофобной аминокислотой, и поэтому он предпочитает оставаться скрытым от воды, поэтому при сильном воздействии (высокое RSA) его замена менее гидрофобным аланином приводит к стабилизации.
В документе также показано, что символическая регрессия дает лучшие результаты, чем альтернатива использования множественной лиенарной регрессии для тех же факторов, особенно в отношении формы (наклона) корреляционных графиков:
Этот документ с применением простой символической регрессии находится здесь:
Символическая регрессия в этой работе была проведена с помощью простой в использовании программы TuringBot:
Еще несколько интересных работ
Одна из последних работ той же группы, которая разработала А. И. Фейнмана, описывает А. И. Пуанкаре, систему символической регрессии, которая автоматически обнаруживает сохраняемые величины, используя данные о траектории из динамических систем. С помощью тестов по пяти физическим гамильтонианам программа могла обнаруживать их сохраняющиеся количества, периодические орбиты, фазовые переходы и временные рамки пробоя без каких-либо знаний в области или даже физической модели того, как были созданы траектории.
В духе управляемого символического регрессионного поиска, подобного некоторым приведенным выше примерам, эта другая статья вводит термины из уравнений теории, лежащей в основе энергетики экситонов, для моделирования аналитических представлений энергии связи экситона.
Этот обзор представляет собой обзор символической регрессии в применении к материаловедению с некоторыми примерами в этой области и в инженерных задачах. Попутно в обзоре упоминается статья 2009 Science, в которой символическая регрессия представлена как способ открытия уравнений для законов природы на основе экспериментальных данных, что, вероятно, является основой для всех других работ, которые я здесь представил.
Если у вас есть интересные статьи, в которых используется символическая регрессия, дайте мне знать в комментариях. Я надеюсь, что скоро смогу познакомиться с этой захватывающей и очень полезной техникой больше.
Я увлекаюсь природой, наукой, технологиями, программированием и сделай сам. Биотехнолог и химик в мокрой лаборатории и в компьютерах. Пишу обо всем, что входит в круг моих интересов. Посмотрите мои списки, чтобы узнать больше. Станьте средним участником, чтобы получить доступ ко всем рассказам, написанным мной и другими авторами, и подпишитесь, чтобы получать мои новые истории по электронной почте (оригинальные партнерские ссылки платформы).