×

Оказывается, между тем, что модель показывает во время обучения (вверху), и тем, что она учится распознавать (внизу), чтобы делать свои прогнозы, имеются довольно существенные отличия. Источник.

Анализ Фурье, будучи уже два столетия на вооружении математики и математиков, можно назвать одним из старейших инструментов в вычислительной физике. И вот недавно он сыграл очередную роль, важность которой трудно переоценить. Но ‒ обо всём по порядку.

Мир полнится новостями о новых свершениях технологии глубокого машинного обучения ‒ так называемого искусственного интеллекта. В прошлом году он обошёл половину конкурсантов на состязаниях по программированию, а в этом ‒ прошёл собеседование на должность программиста в Google. Ещё несколько лет назад нас забавляла его бестолковость как собеседника и непонимание им фразеологизмов, а сегодня он в состоянии написать за нас сочинение, диссертацию или доклад, но самое интересное ‒ он может позвонить вашему начальству и вашим голосом взять отгул!

Он многое может, но что мы можем ему позволить? А можем ли мы ему что-то запретить? А лучше так: можем ли мы себе запретить одарить его вседозволенностью? Или: можем ли мы позволить себе доверять ему, как судья из Картахена, вынесший приговор на основе рекомендаций нейромодели?

Чтобы ответить на эти и многие другие этические вопросы, являющиеся человеческой привилегией, для начала было бы неплохо самим понять эту тёмную лошадку ‒ искусственный интеллект.

«Глубокие нейронные сети печально известны своей сложностью для понимания и часто считаются «черными ящиками», ‒ рассказывает доцент Педрам Хассанзаде. ‒ Это одна из основных проблем, связанных с использованием глубоких нейронных сетей в научных приложениях. Другая же ‒ обобщаемость: эти сети не могут работать в системе, отличной от той, для которой они были обучены».

Учёный мир давно трудится над этой задачей, но, оказывается, это не так уж и просто осуществить. На сегодня одними из самых успешных решений выглядят разработки от MIT и IBM. До этого у нас не было ни какой возможности понять, как именно учится нейромодель, а уж ответить на вопрос «то ли она выучила?» можно было только опытным путём и только после обучения.

MIT, совместно с китайскими коллегами, создали ATMSeer – инструмент, передающий пользователю анализ и контроль над методами машинного обучения. С его помощью даже неподготовленный человек может получить представление о том, что происходит «за кулисами» этого процесса. Разработка IBM, названная Seq2Seq-Vis, создавалась с той же целью ‒ обеспечить человека возможностью проверять решения модели и находить в них ошибки, если таковые произойдут. Оба продукта способны к наглядной демонстрации происходящего с разделением действа на этапы и анализом.

Вообще же, изысканий на самом деле было множество, но попытка «зайти с фланга», предпринятая Хассанзаде и командой его коллег учёных-машиностроителей из Университета Райса, тоже принесла некоторые плоды. И тут нужно сразу же оговориться: использование ИИ-вычислений в науке ‒ это совсем не то же самое, что в остальных сферах. Точнее, суть-то примерно одна, а вот критерии оценки ‒ нет. Наука признает какой-то вывод достоверным только в случае повторяемости результата опыта или вычислений и понимания методик их достижения. Наука должна уметь разобрать и заново собрать (или банально починить), а обыденность руководствуется совсем другим принципом: «работает ‒ не трожь».

Итак, всё началось со вполне подходящей по сложности задачи для классической нейросети ‒ моделирования климата и турбулентности. Однако столь очевидный шаг к этой непростой цели имел один изъян: а можно ли будет доверять результатам расчётов? Ведь наука до сих пор не понимает как «соображает» нейросеть. Исследователи оглянулись на 200 лет назад, и решили проверить итоги вычислений нейромодели старым добрым анализом Фурье.

Опыт показал, что этот метод даёт нам представление о том, как модели глубокого обучения учатся выполнять задачи, связанные со сложностями реальной физики.

«Это первая строгая структура, объясняющая и направляющая использование глубоких нейронных сетей для сложных динамических систем, таких как климат, ‒ говорит автор исследования Педрам Хассанзаде. ‒ Это могло бы существенно ускорить использование научного глубокого обучения в науке о климате и привести к гораздо более надёжным прогнозам изменения климата».

В статье, опубликованной в PNAS Nexus, Хассанзаде и его коллеги Адам Субель, Ашеш Чаттопадхьяй и научный сотрудник университета доктор Ифей Гуань подробно описали использование анализа Фурье для изучения работы нейросети, обученной распознавать множество сложных факторов (читай ‒ множество переменных, раз уж речь о вычислениях). Сюда входят движения воздушных потоков в атмосфере, водных течений в мировом океане, а также прогнозы их количественных и качественных изменений со временем.

По радостному признанию исследователей, проведённая работа выявила «не только то, чему научилась нейронная сеть, но и позволила нам напрямую связать то, чему научилась сеть, с физикой сложной системы, которую она моделировала».

Хасанзаде сравнивает представленную ими аналитическую структуру с открытием чёрного ящика. Она позволяет заглянуть внутрь и понять, чему научились сети и почему именно этому; а также даёт реальные возможности отследить и увязать вычисления с объективной действительностью изучаемой системы ‒ то есть диагностировать точность и ошибочность результатов расчётов и прогнозов.

Субель, ведущий автор исследования, начавший работу над ним будучи ещё студентом университета Райса, говорит, что эту структуру можно использовать в сочетании с методами передачи обучения. То есть применение анализа Фурье позволяет «обеспечить обобщение и, в конечном итоге, повысить надёжность научного глубокого обучения».

Это корневое изменение ситуации стало возможным благодаря фундаментально отличающемуся подходу к решению задачи.

«Обычные инструменты машинного обучения для понимания нейронных сетей не продемонстрировали большого успеха для приложений естественных и инженерных систем ‒ по крайней мере для того, чтобы результаты можно было связать с физикой, ‒ поясняет Хасанзаде. ‒ Наша же мысль была: «Давайте сделаем что-то другое. Давайте воспользуемся инструментом, который является обычным для изучения физики, и применим его к изучению нейронной сети, которая научилась делать физику»».

Будучи излюбленным методом физиков и математиков для определения частотных паттернов в пространстве и времени анализ Фурье, впервые предложенный в 1820-х, показался на редкость удачным кандидатом на роль исследовательского инструмента.

«Люди, которые занимаются физикой, почти всегда смотрят на данные в пространстве Фурье, ‒ говорит он. ‒ Это упрощает физику и математику».

Например, если у кого-то есть поминутная запись показаний температуры наружного воздуха за год, информация будет представлять собой строку из 525 600 чисел ‒ тип набора данных, физиками называемый временным рядом. Чтобы проанализировать временные ряды в пространстве Фурье, нужно создать новый набор из 525 600 чисел с помощью тригонометрического преобразования каждого числа в ряду. Этот новый набор содержал бы информацию из исходного набора, но выглядел совершенно иначе.

«Вместо того, чтобы видеть температуру каждую минуту, вы увидите всего несколько всплесков, ‒ раскрывает смысл Субель. ‒ Одним из них будет косинус 24-х часов, который будет дневным и ночным циклом максимумов и минимумов. Этот сигнал присутствовал во временном ряду все время, но анализ Фурье позволяет вам легко распознать эти типы сигналов и во времени, и в пространстве».

На основе этого метода учёные разработали некоторые инструменты частотно-временного анализа. Так, путём преобразования нижних частот можно отфильтровать фоновый шум, а фильтрация верхних частот ‒ наоборот выделяет его.

В преобразовании Фурье для уравнения полностью обученной модели глубокого обучения перед командой Хасанзаде стояла непростая задача в виде примерно одного миллиона параметров модели, каждый из которых действует как множитель. В необученной модели все параметры имеют случайные значения, но в процессе обучения (а тем более в вычислениях) каждая характеристика-множитель придаёт больший или меньший вес конкретным операциям, колоссально влияя на результаты уравнений. 

Параметры корректируются и оттачиваются во время обучения, поскольку алгоритм постепенно учится делать прогнозы, которые все ближе и ближе к известным результатам в учебных случаях. Структурно параметры модели сгруппированы примерно в 40 000 матриц (или ядрах), размером пять на пять (параметров).

Тут ещё нужно учесть, что для обучения передовых глубоких нейросетей требуется большой объём данных, и ‒ поскольку одну нейромодель нельзя уверенно применять к другой ситуации, что прежде всего означает «к другим данным», ‒ бремя повторного обучения современными методами по-прежнему остаётся значительным.

В связи с этим исследователи из Университета Райса провели эксперимент, дважды обучив сеть: после обучения и переобучения сети для выполнения различных задач, связанных со сложной физикой, анализ Фурье для сравнения всех 40 000 ядер из двух итераций обнаружил, что более 99% выводов были похожи.

Полученные результаты демонстрируют потенциал метода для выявления более эффективных путей переобучения, требующих значительно меньше данных.

«Когда мы использовали уравнения преобразования Фурье, это подсказало нам, на что нужно смотреть в преобразовании Фурье этих матриц, ‒ говорит Хасанзаде. ‒ Мы этого не знали. Никто никогда раньше не делал эту часть, не смотрел на преобразования Фурье этих матриц и не пытался связать их с физикой. …И когда мы это сделали, выяснилось, что нейронная сеть изучает комбинацию фильтров нижних частот, фильтров высоких частот и фильтров Габора».

«Самое прекрасное в этом то, что нейронная сеть не творит чудес, ‒ подытожил он. ‒ Она не делает ничего сумасшедшего. На самом деле она делает то, что мог бы попытаться сделать физик или математик. Конечно, без силы нейронных сетей мы не знали бы, как правильно комбинировать эти фильтры. Но когда мы говорим с физиками об этой работе, им это нравится. Потому что они такие: «О! Я знаю, что это такое. Это то, чему научилась нейронная сеть. Понятно»».

Субель считает, что результаты имеют важные последствия для научного глубокого обучения и даже предполагает некоторую крамолу, будто некоторые знания, которые учёные почерпнули из других контекстов изучения алгоритмов ИИ (например, в классификации изображений), не могут применяться к научному машинному обучению.

«Мы обнаружили, что некоторые знания и выводы в литературе по машинному обучению, которые были получены, например, в результате работы над коммерческими и медицинскими приложениями, не применимы ко многим критически важным приложениям в науке и технике, таким как моделирование изменения климата, ‒ заявляет он. ‒ Это само по себе является важным следствием».


АРМК, по материалам Университета Райса.