Дата публикации: 01.11.2024
Как найти
закономерности
в сложных системах.
В отличие от игрушки «Колыбель Ньютона», изображённой на рисунке, в реальных системах поиск первопричины эффекта может быстро стать неразрешимой задачей. Новый метод исследователей может внести некоторую ясность в поиск причинно-следственных связей. Источник.
Понимание причинно-следственных связей лежит в основе постижения окружающего нас мира. В любом деле факторы, вызывающие изменение какой-либо переменной, позволяет прогнозировать развитие ситуации и разрабатывать соответствующие методы воздействия на эти переменные. Человек интуитивно справляется с этой нахождением таких закономерностей в простых системах бытовых ситуаций, однако в реальных условиях научной работы с просто умопомрачительным множеством переменных, выявление их взаимного влияния друг на друга выглядит часто неразрешимой задачей.
«Но,.. — скажет пытливый обыватель, — это ведь, по сути, статистическая задача о данных, не так ли? Так что нужно усложнять». Отчасти — да: нам нужно сравнить множество взаимоотношений каких-либо конкретных переменных на протяжении какого-то отрезка времени. Всё это представляет собой вычисления, с которыми умеют управляться наши компьютеры. Но не всё так просто. Точнее — всё совсем не просто.
Змеиный клубок переменных.
В последние годы был разработан ряд вычислительных методов, позволяющих изучать сложные системы. В них используются определённые математические описания, отражающие причинно-следственные связи. И вроде бы они вполне дают нам представление о том, как одни вещи в системе влияют на другие, но для прогнозирования на их основе нужно очень постараться, ибо они не универсальны.
«Разные методы используют разные математические определения для установления причинно-следственных связей, — отмечает Адриан Лосано-Дуран, доцент кафедры аэрокосмической инженерии. — Существует множество возможных определений, и все они кажутся приемлемыми, но при определённых условиях могут не сработать».
В сложных системах обусловливающей метаморфозы базой может выступать не одна переменная, а сложная взаимосвязь нескольких. И вот этот змеиный клубок из сотен и тысяч хитросплетений очень и очень непросто распутать. А рубить его, как Александр Великий свой гордиев узел — увы, бессмысленно.
С этой проблемой борется команда инженеров Массачусетского технологического института (MIT) и, похоже, она разработала-таки вполне надёжный метод обнаружения переменных, от которых зависят другие факторы.
«Другие методы основаны на интенсивности переменных для измерения причинно-следственных связей, — поясняет Гонсало Арранц, постдок MIT. — Поэтому они могут не учитывать связи между переменными, интенсивность которых невелика, но которые важны».
Среди недочётов существующих методов команда выделяет их неспособность распознавать определённые типы причинно-следственных связей. Так, они не видят разницы в отличии базовой «уникальной» причинно-следственной связи, когда одна переменная оказывает собственное независимое влияние на другую единолично, от других форм зависимостей.
Новый подход представляет собой алгоритм обработки данных, собираемых в течение определённого времени. Как пример, в опубликованной в Nature Communications статье учёные приводят исследование изменения популяций различных морских видов, но это справедливо для любых задач — касаются они голосований, акций или климата. На основе имеющихся сведений измеряется взаимодействие между всеми переменными в системе и оценивает степень, в которой изменение одной переменной (например, количества сардин в регионе с течением времени) может предсказать состояние другой (например, популяции анчоусов в том же регионе). То есть, ведётся учёт связей каждой одной с каждой другой попарно.
Эти статистические вычисления позволяют создать вероятностную “карту причинно-следственных связей”. Затем алгоритм определяет специфический характер каждой такой связки переменных. Так, если одна переменная влияет на другую только в случае их сопряжения (математической взаимосвязи), то их считают синергетическими; если же изменение одной переменной может иметь такой же эффект, что и изменение другой, то их пару относят к избыточным связям.
Примером синергетической причинно-следственной связи может быть такая ситуация: например, действие препарата А (1 переменная) не влияет артериальное давление человека, если препарат А не сочетается препаратом Б (2 переменная). В противовес ей избыточная причинно-следственная связь выглядит по-другому: привычки студента в учёбе (1 переменная) и количество сна, которое он получает (2 переменная) оказывают сопоставимое влияние на его шансы получить хорошие оценки.
Взять на карандаш.
В поисках решения инженеры применили теорию информации — концепцию, которая описывает процесс передачи данных по сети, основанную на теории Клода Шеннона, почётного профессора MIT. Команда создала алгоритм анализа любой сложной системы в качестве сети передачи данных.
«Мы рассматриваем систему как сеть, и переменные передают друг другу информацию таким образом, что это можно измерить, — объясняет Лосано-Дуран. — Если одна переменная отправляет сообщения другой, это означает, что она должна оказывать какое-то влияние. В этом и заключается идея использования распространения информации для измерения причинно-следственных связей».
Таким образом новый алгоритм способен проанализировать взаимосвязи нескольких переменных одновременно, а не по одной паре за раз, как предыдущие методы. Но ключевой момент состоит в том, что он определяет информацию как вероятность того, что изменение одной переменной повлечёт за собой изменение другой. А учитывая, что количество вероятностей имеет свойство накапливаться по мере анализа последующих данных, в итоге мы получаем наглядное отображение силы влияния одной переменной на другую. То есть увеличение или уменьшение конкретной информационной (вероятностной) зависимости в сравнении с остальными связями напрямую вытекает из количества информации, которой обмениваются объединённые ею переменные.
Результатом работы становится карта причинно-следственных связей, показывающая не только наличие тесных связей между переменными в сети, но также их количество и характер. Её изучение позволяет обнаружить уникальные, синергетические или избыточные зависимости и связанные ими переменные.
Однако особенно интересно то, что новый подход может оценить даже «утечку причинно-следственных связей» — то есть степень, в которой поведение системы не может быть объяснено доступными переменными. Это отнюдь не всегда означает, что слабым звеном является скудность имеющихся данных, а, скорее, наоборот — указывает на какое-то неизвестное влияние, базирующееся на большем числе переменных.
«Часть нашего метода определяет, есть ли что-то недостающее, — говорит Лосано-Дуран. — Мы не знаем, чего не хватает, но мы знаем, что нам нужно включить больше переменных, чтобы объяснить происходящее».
Алгоритм прошёл контрольные тестирования на ряде случаев, обычно используемых для проверки причинно-следственных выводов. Испытания разнятся весьма значительно: от взаимодействий хищника и жертвы до изменений температуры и давления воздуха в различных географических регионах и даже совместной эволюции множества видов в морской среде. В каждом конкретном случае алгоритм справился с задачей успешно — причинно-следственные связи удалось идентифицировать. По сравнению с ним, большинство методов обрабатали только некоторые случаи.
«Значимость нашего метода заключается в его универсальности для разных дисциплин, — говорит Альваро Мартинес-Санчес, аспирант факультета аэронавтики и астронавтики (AeroAstro) вMIT. — Его можно использовать для лучшего понимания эволюции видов в экосистеме, взаимодействия нейронов в мозге и климатических изменений в разных регионах, и это лишь несколько примеров».
Со своей стороны, инженеры планируют использовать алгоритм для решения проблем в аэрокосмической отрасли, например, для выявления особенностей конструкции самолётов, которые могут снизить расход топлива.
«Мы надеемся, что, включив причинно-следственные связи в модели, мы сможем лучше понять взаимосвязь между конструктивными характеристиками самолёта и их влияние на эффективность», — делится планами Лосано-Дуран.
Метод, который команда назвала SURD (Synergistic-Unique-Redundant Decomposition of causality — Синергетическая-Уникальная-Избыточная Декомпозиция причинности), доступен онлайн для желающих протестировать его на собственных системах.
«SURD может способствовать прогрессу во многих научных и технических областях, таких как исследования климата, нейробиология, экономика, эпидемиология, социальные науки, гидродинамика и другие», — воодушевлён проделанной работой Мартинес-Санчес.
АРМК, по материалам MIT.