Дата публикации: 10.11.2024
Поиск фундаментальных причин
для целенаправленного лечения
путём регуляции генов.
Новый метод может определить наилучший способ объединения генов в связанные группы, чтобы исследователи могли эффективно изучать причинно-следственные связи между многими генами. Источник.
Ещё из школьного курса биологии мы знаем, что для понимания развития некоторых заболеваний учёным нужно разбираться с клеточным здоровьем. Насколько правильно функционируют и взаимодействуют органеллы клетки, насколько хорошо она сама «общается» со своими соседями? Поиски ответов на эти вопросы заставляют нас спуститься на молекулярный уровень, на котором современная наука может различать изменения в экспрессии генов — процессе создания определённых молекул и частей клетки на основе генетической информации.
Эта возможность представила нашему взору огромные перспективы по части здравоохранения, но для реализации открывшегося потенциала нужно досконально изучить каждую пядь распахнувшегося перед нами простора. Только представьте: у каждого из нас около 20 000 генов, которые влияют друг на друга феерически сложным образом. Да, мы можем группировать эти гены каким-то образом, но определение даже только этих групп, не говоря уже о целесообразности, возможностях и способах на них повлиять — задача чрезвычайно непростая. Тем более, что существует модульная система, когда несколько генов работают вместе, регулируя друг друга и другие подобные модули.
Чтобы эффективно группировать гены в такой запутанной ситуации, недостаточно просто опираться на родственные признаки конкретных представителей этой армии макромолекул. Для этого нужна теоретическая база, за разработку которой взялась команда исследователей Массачусетского технологического института (MIT). Итоги их работы могут стать фундаментом будущих методов определения причинно-следственных связей между многими генами.
Авторы отмечают, что их подход позволяет добиться цели, используя только данные наблюдений. Если раньше исследователям приходилось разрабатывать и проводить дорогостоящие интервенционные эксперименты, иногда отказываясь от смелых идей в связи с невозможностью реализации задуманного опыта, то теперь, чтобы обнаружить причины того или иного поведения генов, нужно только провести детальный анализ накопленных сведений. Один этот факт уже сам по себе имеет все шансы облегчить выявление потенциальных генных мишеней для более точного и эффективного воздействия на определённое поведение. В долгосрочной перспективе это позволит фармацевтике разрабатывать небывало точные методы лечения различных заболеваний.
«В геномике очень важно понимать механизм, лежащий в основе клеточных состояний. Но клетки имеют многоуровневую структуру, поэтому уровень обобщения тоже очень важен. Если вы найдёте правильный способ обобщения наблюдаемых данных, информация, которую вы получите о системе, будет более понятной и полезной», — говорит аспирант Цзяци Чжан, научный сотрудник Центра Эрика и Венди Шмидт, соавтор статьи «Гарантии идентификации для разделения причинно-следственных связей на основе исключительно наблюдательных данных», опубликованной в arXiv. Этот метод будет представлен на конференции по нейронным системам обработки информации.
Уроки на основе данных наблюдений
Итак, проблема, которую необходимо решить, связана с изучением функциональных инструкций генов или, попросту, программ. Они описывают, какие гены функционируют вместе, чтобы регулировать другие гены в ходе какого-то биологического процесса — например, развития или дифференциации клеток.
Поскольку эффективно изучить взаимодействие всех 20 000 генов возможности нет, решено использовать метод, называемый причинно-следственным распутыванием. Он позволяет наглядно представить логику объединения связанных групп генов так, чтобы облегчить прослеживание и понимание причинно-следственных связей. Такое решение не было в новинку — оно уже показало свою эффективность в предыдущей работе команды, когда были успешно обработаны экспериментальные данные, полученные путём изменения переменных в сети.
Однако, как уже говорилось, проведение интервенционных экспериментов связано со множеством проблем. Кроме дороговизны, такие изыскания часто либо неэтичны, либо существующий технологический уровень для их осуществления просто недостаточен. Так и выходит, что, располагая только данными наблюдений, учёные не имеют возможности сравнить гены до опыта и после. С другой стороны, понять законы совместного функционирования генов в группе — та самая фундаментально важная задача, для решения которой (научным методом) вожделенное сравнение до и после опытного вмешательства в материал — категорически необходимо.
«Большинство исследований в области разделения причинно-следственных связей предполагают доступ к экспериментальным данным, поэтому было неясно, сколько информации можно получить, используя только данные наблюдений», — говорит Чжан.
Все эти ограничения привели исследователей к разработке более общего подхода с применением машинного обучения. Новый алгоритм позволил эффективно выявлять и объединять группы наблюдаемых переменных, например, генов, с помощью только данных наблюдений.
В результате получилось решение, которое можно применять во многих областях. Выявление причинно-следственных связей и точное представление о механизмах влияния этих связей пригодятся не только в частном случае генетики и фармацевтики, и для других сфер применения этот метод также сгодится.
«Хотя это исследование было мотивировано проблемой изучения клеточных программ, сначала нам нужно было разработать новую теорию причинно-следственных связей, чтобы понять, что можно и чего нельзя узнать из данных наблюдений. Имея эту теорию, в будущих работах мы сможем применить наши знания к генетическим данным и выявить генные модули, а также их регуляторные связи», — поясняет профессор электротехники и компьютерных наук, старший автор работы, Кэролайн Улер. Она также является профессором Института данных, систем и общества (IDSS), директором Центра Эрика и Венди Шмидт в Институте Броуда Массачусетского технологического института и Гарвардского университета... и исследователем в Лаборатории информационных систем и систем принятия решений MIT (LIDS).
Послойное представление
С помощью расчётов, обыкновенных для статистики, исследователи могут вычислить дисперсию данных (иначе говоря, математическую функцию разброса возможных значений) для оценки обобщённой производной (якобиана) каждой переменной. Этот якобиан представляет собой «окно возможностей» одной переменной воздействовать на другие. Таким образом, нулевая дисперсия означает отсутствие этих возможностей и, стало быть, считается признаком отсутствия влияния — то есть какой-либо причинно-следственной связи.
«Определение нулевых отклонений быстро превращается в комбинаторную задачу, которую довольно сложно решить, поэтому разработка эффективного алгоритма, способного решить её, была серьёзной проблемой», — рассказывает Чжан.
Начиная с удаления таких «бесперспективных» переменных, исследователи послойно восстанавливают всю картину, продвигаясь сперва от нижних слоёв к верхним, а затем наоборот. Такая кропотливость вызвана необходимостью избежать как можно большего числа ошибок в определении переменных или групп генов, связанных между собой. В итоге получается абстрактное представление наблюдаемых данных с несколькими уровнями взаимосвязей переменных. И эта многоуровневость позволяет говорить о точности нового метода в отображении причинно-следственной структуры.
На его выходе мы имеем набор «деятельных» переменных, каждая из которых представляет собой объединённую группу функционирующих сообща генов. К тому же взаимосвязи между двумя переменными показывают, как одна группа генов регулирует другую. Благодаря обилию входящих данных, которое на человека вполне может подействовать удручающе, новая парадигма эффективно находит всю информацию для определения каждого уровня переменных и очень точно справляется с задачей.
Доказав теоретическую обоснованность идеи, команда провела моделирование алгоритма, наглядно показавшее эффективное выявление значимых причинно-следственных связей в данных реальных наблюдений.
В будущем учёные хотят применить этот метод в генетических исследованиях. Нужно также изучить итоги его работы на предмет получения дополнительных сведений в ситуациях с экспериментальными данными, ну и наконец понять, как разрабатывать эффективные генетические вмешательства. В будущем это понимание нюансов генной работы, которое призван обеспечить разработанный алгоритм, должно помочь в поиске лекарств, действующих, наверное, на самом глубоком уровне определённых заболеваний.
АРМК, по материалам MIT.