Дата публикации: 28.06.2024
Оптическая свёртка предвещает
новую эру
в области ИИ.
Концепция восстановления изображений без памяти в трёхслойном свёрточным ONN. Источник.
Свёрточные нейронные сети (CNN) ‒ один из вариантов архитектуры для реализации процессов глубокого обучения. Они стали популярны благодаря эффективности в распознавании образов, необходимом для компьютерного зрения, виртуальной или дополненной реальности. Демонстрируя в этом деле исключительные возможности, особенно заметное влияние CNN оказали на модели вроде ChatGPT, приводя их ко всё более и более внушительным результатам.
«Суперсила» этого подхода кроется в так называемой свёртке ‒ математической операции объединения двух функций, результатом которой становится третья, демонстрирующая пересечение графиков её «родителей». Таким образом облегчается распознавание границ контуров в изображениях и их классификация, что и выливается при обработке видео или статической картинки в будто бы интеллектуальный эффект трактовки изображённых объектов. Если же говорить по существу, то такая функция позволяет нейромодели игнорировать лишние для вычисления данные, принимая во внимание лишь существенные акценты ‒ те самые «пересечения функций».
Однако при всех своих достоинствах, позволивших свёрточным сетям стать мощным инструментом для обработки визуализаций и других типов данных, эта реализация нейроимитации имеет немало весьма ощутимых недостатков. Сюда можно отнести так называемое переобучение, похожее на заскорузлость мышления, приводящее к потере способности к обобщению вследствие чрезмерно подробных сверок с обучающими данными. Из этой же причины вытекает ещё один минус ‒ уязвимость системы к искажениям данных на входе, вызванных различными факторами вплоть до мелких и кажущихся несущественными на первый взгляд скачках в энергообеспечении.
Также в копилке «недугов» свёртки можно найти необходимость больших объёмов помеченных обучающих данных с разными ракурсами изображаемых объектов из разных источников, сложность интерпретации логики конкретного вычисления, высокую чувствительность к шуму энергосети и сложность проработки такой архитектуры. Но помимо этих специфических нюансов есть и куда более очевидные недостатки. Это прежде всего размер нейромодели и большая вычислительная ресурсоёмкость, что сказывается на скорости её работы и пригодности к оперативному использованию.
И вот относительно вопроса скорости вычислений уже давно существуют теории и практические попытки преодоления возникших преград. Одна из главных парадигм в этих решениях сводится к реализации свёрточной нейроморфной сети на оптических компонентах, славящихся своим быстродействием, поскольку фотоны, в отличие от электронов, не взаимодействуют друг с другом, двигаясь на световых скоростях и позволяя нейросети параллельно выполнять множество операций.
Эти идеи витают в учёных умах ещё с 90-х годов; по ним регулярно выходят исследования, в которых замечены даже студенческие выпускные квалификационные работы ‒ такие, как, например, «Моделирование оптической реализации свёрточных слоёв нейронной сети для распознавания изображений», в которой своё видение вопроса в 2019 году изложил Рыбакин Андрей Васильевич, на тот момент ‒ студент Самарского национального исследовательского университета имени академика Сергея Павловича Королёва.
Некоторые методики уже нашли своё аппаратное воплощение, но нерешённые нюансы показывают, что от действительно рабочего решения мы пока далеки. Так, результатом операции свёртки в оптике выступает размытое изображение изучаемого объекта. Тут дело в том, что точка в любом оптическом приборе никогда не выглядит точкой, какой мы её знаем и понимаем, а представляет собой пятно. И вот размеры этого пятна определяются качеством прибора, посредством которого проводится свёртка. Это можно сравнить с фокусировкой кинопроектора или микроскопа: чем выше разрешение устройства, тем точнее фокус и чётче картинка.
Такое обстоятельство побуждает инженеров отдать фотонам только функции проводника, а саму свёртку сделать вотчиной электронов. Но и такая комбинация сулит технологии существенные потери в быстродействии из-за многократного увеличения числа преобразований сигналов из оптических в электрические и наоборот.
Свою лепту в эти исследования недавно внесла команда Шанхайского университета науки и технологий (USST), успешно внедрив концепцию CNN в область оптики и реализовав полностью оптическую свёрточную нейросеть (ONN). Как заявляют авторы, этот их достижение обернётся революцией в обработке изображений.
Открытие было опубликовано в журнале Science Advances в статье под названием «Визуализация рассеяния без памяти с помощью сверхбыстрых свёрточных оптических нейронных сетей».
Под руководством профессоров Мин Гу и Цимин Чжан из Школы науки и технологий искусственного интеллекта (SAIST) Шанхайского университета, исследовательская группа добилась эффективного и чёткой визуализации объектов от сверхбыстрой оптической свёртки.
Итак, будучи ядром CNN, свёрточные операции извлекают локальные объекты (те самые пересечения функций) из изображений и создают более сложные и абстрактные представления объектов слой за слоем. Это значительно расширяет возможности обработки и распознавания, но, как уже сказано, в концепции оптики сетевые операции со свёрткой сталкивается с проблемой преобразования электронных сигналов в фотонные.
Помимо этого, основой для макроскопических и микроскопических методов визуализации является так называемый эффект оптической памяти, заключающийся в нахождении разности «хода лучей» (можно сказать ‒ освещённости) в динамических сложных рассеивающих средах. Это достигается путём повторных вычислений состояний одних и тех же точек изображения с некоторой разницей во времени и сравнения полученных результатов. Однако этот эффект применим лишь при обработке динамичного материала, а вот восстановление изображений из сильно рассеивающих сред без эффекта оптической памяти (что как раз-таки свойственно оптике и статическим визуальным данным) достигнуто так и не было. Преодоление этих барьеров и стало основной целью исследования.
Специалисты пошли непростым путём, построив многоступенчатую свёрточную ONN из множества параллельных оптических ядер, которые ‒ и это самое интересное ‒ умеют извлекать особенности (данные) непосредственно из рассеянного света. Вкупе со сверхскоростными способностями это колоссальный прирост эффективности процесса реконструкции изображения.
Свёрточная ONN состоит из оптического входного слоя, двух свёрточных слоёв и полностью подключённого выходного слоя для выполнения параллельных одноэтапных вычислений со скоростью света. Используя вихревое и случайное освещение для прямого выделения объектов, параллельные многоступенчатые оптические свёрточные ядра делают возможным обучение этой нейронной сети с помощью процесса сильного рассеяния, что позволяет увеличить её «поле зрения» в 271 раз.
Таким образом, это полностью оптическое решение не только устраняет громоздкий процесс преобразования сигналов и достигает воистину оптоволоконной скорости вычислений, но и повышает качество получаемых результатов, делая возможной обработку исходников со сложным размытием. Кстати, к таким изображениям можно отнести динамические или видеоматериалы. Скорость же вычислений получившейся опто-CNN достигает 1,57 петаопераций в секунду (1,57*1015 POPS), что обеспечивает надёжную поддержку динамической обработки в реальном времени.
И вот, наконец, последняя, но очень важная изюминка этого открытия: новая парадигма обладает многозадачностью. Простой подстройкой сетевой структуры, одной и той же свёрточной ONN можно выполнить множество различных задач вроде классификации и реконструкции изображений одновременно. Не без удовольствия авторы отмечают, что такой производительности сфера оптических ИИ ещё не знала.
«Такое сочетание гибкости и эффективности не только подчёркивает важность свёрточных сетей в искусственном интеллекте, но и открывает новые возможности для технологии получения оптических изображений», ‒ заключает профессор Цимин Чжан.
Появление этого исследования является не только успешным воспроизводством принципов свёрточных нейровычислений в условиях фотоники, но и значительным стимулом к дальнейшему развитию технологий, для которых критически важна своевременная интеллектуальная обработка визуала. Мало того, что ONN эффективно решает аппаратные ограничения и проблемы эффективности параллельных вычислений, присущие электронным нейромоделям, эти сети также, как и сети, работающие с эффектом оптической памяти, позволяют вести наблюдения через рассеивающие среды, включая получение изображений вне прямой видимости, за углом, через непрозрачные слои.
Целиком относясь к фотонике, свёрточная ONN, не ограничивается возможностями электронов и эффектом памяти. В то же время она не требует эталонов для сравнения или сканирования, обходится без направляющих или меток; не требует управления освещением или вычислительной реконструкции и повторных вычислений одного и того же участка. В конце концов, она может реконструировать сложные сцены и изображения с помощью очень сильно рассеивающих сред.
«В ближайшем будущем свёрточные оптические нейронные сети будут играть все более важную роль в автономном вождении, роботизированном зрении и медицинской визуализации», ‒ уверен профессор Мин Гу.
АРМК, по материалам Шанхайского университета науки и технологий.