Дата публикации: 26.02.2025
Интеллектуальная
интерпретация
научных сведений.
Австралийская команда под руководством исследователей из Университета Монаша разработала ИИ, который имитирует работу учёных, чтобы поддерживать и ускорять процесс научных открытий. Источник.
Объёмы производимых человечеством данных увеличиваются оглушительными темпами. По некоторым подсчётам мы генерируем в среднем около 330 млн терабайт в день. Годовой же прирост, составляющий примерно 22%, носит экспоненциальный характер — то есть прошлогодние 22% оказываются гораздо больше тех же 22% позапрошлого года.
Несмотря на то, что область искусственных нейросетей сталкивается с некоторым «голодом данных», вся сфера информационных технологий, выражаясь фигурально, рискует в них утонуть. Такое изобилие создаёт множество проблем не только с энергоснабжением, но и с банальным информационным шумом. Дело в том, что мы, обычные обыватели, создаём просто немыслимое количество бесполезных данных.
Но это ещё полбеды! Интересно то, что научный мир также подвержен этой напасти! Прежде чем потенциальный молодой учёный окончит университет, аспирантуру, докторантуру и заработает какой-то авторитет, он, под бдительным надзором своих преподавателей и профессоров, напишет довольно немало работ о том, что уже не однажды описано и рассмотрено до него. А если учесть господствующую в мире систему грантов, то получается, что, дабы иметь свой кусок хлеба, буквально каждому научному работнику нужно публиковаться как можно чаще!
Всё это создаёт катастрофическое наслоение одинаковых данных, поданных, что называется, под разным соусом; и как отделить зёрна от плевел в этой вакханалии — вопрос далеко не риторический. Чтобы ответить на него, команда исследователей из австралийского университета Монаша решила пойти самым прямым путём. В задаче спрашивается: у кого нынче голод по данным для обучения? у драгоценного ИИ? Ну так возьми, кушай, милый, не обляпайся!
Их новая система искусственного интеллекта под названием LLM4SD (Large Language Model for Scientific Discovery – большая языковая модель для научных открытий) представляет собой интерактивную нейросеть, способную извлекать полезную информацию из литературы и выдвигать гипотезы на основе анализа данных. Мало того, возникшие сомнения в «квалифицированности» выполненной моделью работы легко развеять — система может объяснить свои выводы. Результирующая аналитика больше не представляет собой чёрный ящик, недоступный для проверок — это просто функция, которой, по идее, должны быть оснащены все подобные современные инструменты.
Имеющий открытый исходный код и доступный бесплатно LLM4SD был протестирован данными из четырёх различных областях науки. С помощью 58 отдельных задач по физиологии, физической химии, биофизике и квантовой механике, исследователи продемонстрировали успешный разбор сведений о молекулярных свойствах веществ.
«Подобно тому, как ChatGPT пишет эссе или решает математические задачи, наш инструмент LLM4SD читает научную литературу за несколько десятилетий и анализирует лабораторные данные, чтобы предсказывать поведение молекул, отвечая на такие вопросы, как: "Может ли этот препарат преодолеть защитный барьер мозга?" или "Растворится ли это соединение в воде?" — рассказывает ведущий автор исследования, кандидат наук Ичжэнь Чжэн, работающий на факультете информационных технологий Университета Монаша в отделе науки о данных и искусственном интеллекте. — Помимо того, что эта система превосходит существующие инструменты валидации, которые работают как «чёрный ящик», она может объяснить процесс анализа, прогнозы и результаты с помощью простых правил, что помогает учёным доверять ей и использовать её выводы».
Фактически, как архивариус и компилятор научных знаний, LLM4SD превзошёл самые современные научные инструменты, используемые для выполнения подобных задач. Однако за самым ярким примером, которым стало повышение аж на 48% точности прогнозирования квантовых свойств при разработке материалов, стоит ещё кое-что крайне полезное.
«Вместо того чтобы заменять традиционные модели машинного обучения, LLM4SD улучшает их, синтезируя знания и генерируя интерпретируемые объяснения», — поясняет соавтор работы из Школы информационных и коммуникационных технологий Университета Гриффита, кандидат наук Цзясинь Джу.
«Такой подход гарантирует, что прогнозы, основанные на искусственном интеллекте, останутся надёжными и доступными для исследователей из разных научных дисциплин», — дополняет сказанное коллегой кандидат наук Хуань Йи Ко из Института фармацевтических наук Университета Монаша.
Однако самое интересное раскрыл другой соавтор исследования. Учёный-информатик, эксперт в области искусственного интеллекта профессор Джефф Уэбб (факультет информационных технологий Университета Монаша), заявляет, что LLM в принципе способны точно имитировать ключевые для проведения научных изысканий навыки. Другими словами, и синтез знаний, почерпнутых из научной литературы, и разработка гипотез путём интерпретации данных им вполне по плечу.
«Такая модель, как LLM4SD, может быстро синтезировать накопленные за десятилетия знания, а затем выявлять в данных новые закономерности, о которых, возможно, мало кто знает, — подтверждает мнение коллеги эксперт в области интеллектуального анализа данных и машинного обучения, соавтор работы профессор Шируи Пан, научный сотрудник ARC в Школе информационных и коммуникационных технологий Университета Гриффита. — Мы считаем это ключевым достижением в ускорении процессов исследований и разработок и не только».
Будучи разновидностью ИИ, оперирующего обширными знаниями в форме естественного языка, большие языковые модели способны выполнять множество сложных задач: от написания текстов до генерации компьютерного кода. Эти нейросети нашли довольно широкое применение и в обществе, и в научной, и в промышленной сферах. Однако их настоящий потенциал мы можем себе даже не представлять.
LLM4SD — всего лишь одна из таких моделей; просто она может немного больше остальных. Эффект от извлечения устоявшихся данных из научной литературы на примере сведений о молекулярной массе для прогнозирования растворимости, вкупе с ресинтезом их с другими научными данными для изучения свойств потенциальных материалов, показывает, как много мы ещё можем открыть для себя в использовании нами же созданного инструмента.
Интерпретация фактов, почерпнутых в многочисленных трудах учёных, выполняемая специально обученным и обучающимся алгоритмами, позволяет преобразовать тот информационный хаос, в который мы сами себя загнали, в строгие прослеживаемые сети данных. Используя продемонстрированные новой нейромоделью возможности, мы можем надеяться на высокоэффективное представление о поведении исследуемых явлений. Мало того, мы можем рассчитывать на приближённые к действительности интерпретации наблюдаемых явлений и, конечно, на потенциально новые сведения, которые уже в гораздо меньшей степени будут участвовать в «информационном шуме». Всё это будет способствовать научным открытиям во многих, если не во всех, областях знаний.
«Мы уже полностью погрузились в эпоху генеративного искусственного интеллекта, и нам нужно начать использовать его по максимуму для развития науки, обеспечивая при этом этичное развитие, — убеждён профессор Уэбб. — Этот инструмент может сделать процесс поиска лекарств более простым, быстрым и точным и стать мощной исследовательской поддержкой для учёных во всех областях по всему миру».
АРМК, по материалам Университета Монаш.