×

Программирование оптического распространения для вычислительной задачи осуществляется с помощью изображённого рабочего процесса. Источник.

Сегодня при решении особенно сложных задач модели искусственного интеллекта используют миллиарды обучаемых параметров, но такое их богатство обходится довольно дорого; причём не только в энергетическом плане. Обучение и внедрение этих гигантских моделей требуют огромного объёма памяти и вычислительных мощностей, которые могут предоставить только ЦОД размером с ангар. А ‒ куда уж без наболевшего ‒ каждый из этих центров потребляет энергию, сравнимую с аппетитами среднего размера городов. Это вызывает необходимость искать новые пути реализации вычислений и ставит перед исследовательским сообществом задачи по фундаментальному переосмыслению и алгоритмов машинного обучения, и обеспечивающего его оборудования.

Современные нейронные сети в значительной степени полагаются на так называемые линейные операции: например, умножение матрицы на вектор и свёртки. Хотя для них выделены свои процессоры (обычно графические и тензорные), их продуктивность ограничена энергопотреблением и пропускной способностью. Однако у инженеров нашёлся козырь в рукаве в виде оптических решений ‒ они лучше подходят для таких операций вследствие свойственного им параллелизма или одновременного выполнения нескольких действий. Чтобы устойчиво поддерживать текущие темпы развития технологий искусственного интеллекта эта многопоточность оказывается как нельзя кстати, увеличивая и пропускную способность сети, и скорости вычислений.

Многообещающий потенциал оптической реализации нейро-архитектур связан также и с малой мощностью соединений между устройствами. Так, опубликованное в журнале Advanced Photonics новое исследование показывает 100-кратное преимущество такого решения. Учёным удалось соединить фотонику с программированием, а именно ‒ прохождение света по многомодовым волокнам с небольшим количеством задаваемых в цифровом виде параметров. Эта мера обеспечила ту же производительность в задачах классификации изображений, что и полностью цифровые системы, но с превышением количества программируемых параметров более чем в 100 раз. 

«В этом исследовании мы обнаружили, что с небольшой группой параметров мы можем выбрать определённый набор весов модели из банка весов, который предоставляет оптика, и использовать его для целевой вычислительной задачи», ‒ говорит Илькер Огуз, ведущий соавтор исследования.

Благодаря тому, что новая вычислительная среда оптимизирует требования к памяти и снижает потребность в энергоёмких цифровых процессах, обеспечивается столь высокий уровень точности в различных задачах машинного обучения.

Суть этой новаторской работы, возглавляемой профессорами Деметри Псалтисом и Кристофом Мозером из Швейцарского федерального технологического института в Лозанне (EPFL), заключается в точном управлении ультракороткими импульсами света в этих самых многомодовых волокнах. Задачу удалось решить с помощью метода, известного как формирование волнового фронта, что позволяет реализовать нелинейные оптические вычисления с использованием всего каких-то микроватт средней оптической мощности.

«Мы использовали естественные явления как вычислительное оборудование, не заморачиваясь с изготовлением и эксплуатацией специализированного для этой цели устройства», ‒ поясняет Огуз.

Такой результат знаменует собой значительное достижение в решении надвигающихся проблем, вызываемых нуёмным ростом спроса на более крупные модели глубокого обучения, однако сам по себе такой успех обладает и более общим для инженерии значением. Авторы считают свою работу решающим шагом в реализации потенциала оптических нейронных сетей

И в самом деле: как было продемонстрировано в эксперименте с нелинейной оптикой, вычислительная мощь многомодового распространения света уже прокладывает путь к низкоэнергетическим и высокоэффективным аппаратным решениям в области ИИ. Этот опыт также подтвердил, что такая структура вычислений применима и для эффективного программирования различных многомерных нелинейных явлений, что весьма и весьма критично для выполнения задач машинного обучения. Собственно, это даёт нам увеличение их точности и ресурсоёмкости. Мы можем комбинировать эти их свойства в зависимости от поставленных задач.

 


АРМК, по материалам SPIE.