×

Представьте себе оранжевого кота. А теперь – того же кота, но уже с угольно-чёрной шерстью. А теперь представьте кошку, идущую вдоль Великой Китайской Стены…

Очень просто, не правда ли? Однако во время визуализации наш мозг задействовал чрезвычайно много связей, и нас абсолютно не удивляет сложность этого механизма. Более того, лёгкость, с которой мы можем «видеть» что-либо умозрительно, не мешает нам понимать, насколько это трудная на самом деле задача: быстрые серии активаций нейронов, основанные на наших предыдущих знаниях о мире, сопоставляют множество параметров и выливаются в результат не только восхитительный, но и уникальный – ведь каждый из нас нарисовал свои, особенные картины.

Но если не вдаваться в частности – да, в большинстве случаев людям довольно легко представить себе объект с различными атрибутами. Строго говоря, нам вообще многое по плечу – мы даже создали электронные нейросети глубокого обучения, обладающие так называемым искусственным интеллектом. И в определенных задачах он уже давно превзошёл наши возможности. Однако есть в человеческих способностях кое-что такое, что даже самые умные наши компьютеры не в состоянии осилить.

И вот теперь группа исследователей из Университета Южной Калифорнии пытается повысить квалификацию ИИ, с помощью нового метода. А именно – снабдив его воображением. Результаты своей работы коллеги представили на Международной конференции 2021 года по обучающим репрезентациям в документе под названием «Синтез с нулевым выстрелом и групповым обучением». Но пусть вас не смущает столь загадочное для обывателя название. На самом деле оно означает только, что учёные вознамерились разработать нейромодель, способную, как человек, сгенерировать представление о ранее невиданном объекте, снабдив его различными целевыми атрибутами. 

«Мы были вдохновлены способностями человека к визуальному обобщению, чтобы попытаться смоделировать человеческое воображение в машинах, – говорит аспирант Юнхао Гэ, ведущий автор исследования. – Люди могут разделить полученные знания по атрибутам – например, форме, позе, положению, цвету - а затем рекомбинировать их, чтобы представить новый объект. В нашей статье делается попытка смоделировать этот процесс с помощью нейронных сетей».

Экстраполяция

Допустим, вы работаете над созданием вычислительной модели глубокого обучения, призванной генерировать изображения автомобилей. Для идеального результата вам понадобится снабдить алгоритм несколькими изображениями автомобиля. И тогда он сможет сгенерировать машины не только любого цвета и в различных ракурсах, но также и многих типов – будь то седаны, кроссоверы или пикапы.

Но несмотря на то, что имеющиеся модели могут это сделать, мы всё ещё не можем сказать, что они добиваются такого же успеха в генерации новых образов, как человек. На самом деле создание моделей, которые моли бы распространять знания об общем на частности и наоборот – знания о частных случаях применять к общему – это одна из самых вожделенных целей в сфере интеллектуальных информационных технологий. Успех на этом поприще будет означать, что с изучением всего нескольких примеров (а не тысяч и даже миллионов, как сейчас) модель сумеет извлечь базовые общие черты и характеристики и применить их к огромному количеству новых не знакомых ей ранее объектов или явлений. Но сейчас обучение машин чаще всего строится на типовых сегментах вроде пикселей (если дело касается изображений), что совсем не позволяет учитывать атрибуты объекта.

Воображать – целая наука

В том и состоит суть настоящего исследования, чтобы попытаться преодолеть это ограничение, для чего авторы работы решили использовать концепцию, называемую распутыванием. Эту парадигму можно использовать для создания дипфейков – изображений-подделок, сгенерированных алгоритмами глубокого обучения. Например, по словам Юнхао Гэ, с использованием ИИ, методом распутывания изучившим движения человеческого лица и идентичность личности, «люди могут синтезировать новые изображения и видео, которые заменяют личность исходного человека другим человеком, но сохраняют исходное движение».

Это происходит благодаря такому же подходу, что и в данном исследовании: в отличие от прежних традиционных методов, когда ИИ изучал по одному образцу за раз, теперь он исследует группу образцов изображений, выявляет их сходство и отличия, и затем анализирует результат. Этим процессом достигается «управляемое обучение распутанному представлению».

Но самое интересное, как водится, впереди. По завершении процесса распознавания и сопоставления общностей и различий, алгоритм объединяет эти знания совершенно иным образом – то есть таким, какого не было представлено в пакете обучающих материалов. Именно эта рекомбинация и выливается в так называемый «управляемый синтез нового изображения», выступая аналогом человеческого воображения. 

«Для примера возьмём фильм «Трансформеры», – поясняет Гэ, – он может иметь форму автомобиля Мегатрона, цвет и позу жёлтого автомобиля Бамблби и фон Таймс-сквер в Нью-Йорке. В результате получится окрашенный как Бамблби автомобиль-Мегатрон, проезжающий по Таймс-сквер, даже если этот образец не был очевиден во время тренировки».

Это похоже на то, как мы, люди, экстраполируем – проецируем выводы о каких-либо объектах или явлениях, на весь ряд им подобных образцов или на их отдельные части. Например, когда вы видите цвет одного объекта, вы легко сумеете применить его к любому другому, заменив исходный цвет новым.

Проработка этого уникального для искусственного интеллекта навыка позволила группе создать весьма объёмный набор данных, превышающий полтора миллиона изображений, который вполне подходит для использования в будущих исследованиях по этой теме.

«Ты меня понимаешь?»

Строго говоря, концепция распутывания для научного мира – далеко не новинка. Но исследовательская группа профессора информатики Лорана Итти считает, что созданная ими структура может быть совместима практически с любыми типами данных или знаний. Они уверены, что это заметно расширяет потенциальные возможности приложений, ведь можно группировать образцы, опираясь не только на полное, но и лишь частичное совпадение их общих признаков. Иными словами, можно отменить учёт какого-либо атрибута и, соответственно, его влияние на результат. Так, например: мы можем корректировать разделение экстраполяции по расовой и/или гендерной тематике для создания более «справедливого» ИИ путём полного удаления деликатных атрибутов из уравнения.

А, скажем, в фармацевтических изысканиях это могло бы помочь биологам отделить нецелевую или потенциально небезопасную функцию препарата от других его свойств, и затем, рекомбинируя их, более продуктивно синтезировать новые варианты лекарств и выбрать наиболее полезные и подходящие. Та же схема полезности применима и в области агрономии вообще, и агрохимии в частности. А комплектование воображением автопилотов транспортных средств способно вывести безопасность их технологии вообще на принципиально иной уровень. Вы только представьте: при возникновении на дороге потенциально опасных нештатных ситуаций, ваша машина может быстро вообразить несколько сценариев развития и выбрать лучший вариант поведения во избежание неприятностей!

«Глубокое обучение уже продемонстрировало непревзойдённую производительность и перспективность во многих областях, но слишком часто это происходило из-за поверхностной имитации и без более глубокого понимания отдельных атрибутов, которые делают каждый объект уникальным, – заключает профессор Итти. – Этот новый подход к распутыванию впервые по-настоящему раскрывает новое чувство воображения в системах ИИ, приближая их к человеческому пониманию мира».

 


 

АРМК, по материалам USC Viterbi