Дата публикации: 15.12.2020
Новая веха в совершенствовании искусственного интеллекта.
Источник – pixelshow.co
Исследователи из Университета штата Орегон создали оптический сенсор, ставший крупным прорывом в области распознавания изображений. Если бы у робототехники и искусственного интеллекта были хвосты, последние бы с головой выдали радость хозяев и непреходящее значение этого научного успеха. В статье о результатах своего исследования Джон Лабрам, доцент кафедры электротехники и информатики в Инженерном колледже Орегонского Университета, и его аспирант Синтия Трухильо Эррера уточняют, что речь идёт не столько о придумывании сенсора как такового, сколько о его возможностях: их устройство имитирует способность человеческого глаза воспринимать изменения в поле зрения намного более точно, чем предшественники.
Дело в том, что все предыдущие попытки воссоздать работу человеческого глаза в искусственных приборах, называемых ретиноморфными датчиками, по большей части основывались на специально разрабатываемом программном обеспечении и весьма сложном оборудовании. Но фундаментальное отличие нового датчика в том, что, по словам самого Лабрама, его способности обусловлены конструкцией. Другими словами, как лопата создана для грядки, а молоток – для гвоздя, – прибор просто не может работать иначе. И всё благодаря другому чуду техники – первоскитам, чья уникальность реакции на свет легла в основу имитации живой сетчатки.
Тут нужно кое-что прояснить: особенность этих материалов заключается в том, что степень освещённости меняет их способности к электрической проводимости. Так, при помещении на свет перовскитные полупроводники превращаются из сильных электрических изоляторов в сильные проводники. Именно по этой причине они широко исследуются в последние годы. Считается, что у них есть весьма существенный потенциал в сфере энергетики из возобновляемых источников (в частности – как элемент конструкции солнечных панелей).
Иллюстрируя суть явления для наглядности, возглавляющий исследования Лабрам предлагает: «Вы можете думать об этом как об одном пикселе, выполняющем что-то, для чего в настоящее время требуется микропроцессор».
Он также высказывает мысль, что одной из самых явных перспектив нового датчика является его включение в устройство нейроморфных компьютеров. И действительно: там он может вписаться просто идеально, ведь такие вычислительные машины имеют все возможности в скором времени стать основой нового поколения искусственного интеллекта. Без них не обойдутся ни беспилотные автомобили, ни робототехника, ни другие специализированные области, в которых точность расширенного распознавания изображений является критически важной составляющей.
«Люди пытались воспроизвести это аппаратными средствами и добились довольно больших успехов», – считают авторы. Но поскольку традиционные компьютеры всё так же обрабатывают информацию последовательно бит за битом, теряя время и ресурсы мощности на исполнение серий инструкций, тогда как нейроморфные компьютеры имитируют деятельность нашего мозга и способны задействовать массивно-параллельные сети, преимущество последних сводит применимость упомянутых успехов к минимуму.
«…Несмотря на то, что алгоритмы и архитектура, предназначенные для обработки информации, все больше и больше напоминают человеческий мозг, информация, которую получают эти системы, по-прежнему определенно предназначена для традиционных компьютеров», – обрисовывает главную проблему, решаемую новым устройством сенсора, сам Лабрам.
Получается – чтобы полностью реализовать свой потенциал, компьютеру, который «думает» больше как человеческий мозг, необходим датчик изображения, который «видит» больше, чем человеческий глаз.
В своей работе исследователи столкнулись со множеством таких нюансов, о которых, не являясь специалистами по анатомии хомо сапиенс, и не предполагали. К примеру, все мы знаем, что глаз – невероятно сложный орган. («Да ладно!» – съязвите вы). А ещё – он содержит около 100 миллионов фоторецепторов! («Ого, конечно, далеко не все в курсе, но тоже – «ладно»»). Однако зрительный нерв имеет всего лишь один миллион соединений с мозгом. А это значит, что перед попаданием в мозг фотосигналам придётся пройти значительную предварительную обработку и динамическое сжатие непосредственно в сетчатке глаза. И что вы будете с этим делать?
«Оказывается, наше зрение особенно хорошо приспособлено для обнаружения движущихся объектов и сравнительно «меньше интересуется» статическими изображениями», – делится удивившим его «открытием» Джон Лабрам. Таким образом получается, что схема нашей обработки оптических данных отдаёт приоритет сигналам тех фоторецепторов, что обнаруживают изменение интенсивности света. В принципе, это хорошо показывает эффект Трокслера, и вы сами можете продемонстрировать это явление, глядя в неподвижную точку, пока объекты в вашем периферийном зрении не начнут исчезать.
Поэтому, по словам руководителя проекта, традиционные сенсорные технологии вроде микросхем цифровых камер и смартфонов и подходят лучше для последовательной обработки. Здесь изображения сканируются пиксель за пикселем, с заданной частотой, двумерным массивом датчиков, каждый из которых генерирует сигнал с амплитудой, напрямую зависящей от интенсивности получаемого света. Это значит, что статичная картинка приведёт к более-менее постоянному выходному напряжению в приборе.
А вот ретиноморфный датчик, в отличие от собратьев, остаётся относительно тихим в статических условиях. Он регистрирует короткий резкий сигнал, когда чувствует изменение освещённости, а затем быстро возвращается к своему базовому состоянию. Такое поведение обусловлено как раз вышеупомянутыми перовскитами с их уникальными фотоэлектрическими свойствами, сделавшими их многообещающими кандидатами в качестве недорогих материалов для солнечных элементов следующего поколения.
В ретиноморфном датчике Лабрама перовскит нанесён ультратонкими слоями. Их толщина всего в несколько сотен нанометров заставляет покрытие функционировать схожим с конденсатором образом, словно изменяя ёмкость при освещении и сохраняя энергию в электрическом поле.
Проверяется это, в принципе, не сложно. Учёные буквально на секунду оставляют устройство в темноте, а затем зажигают свет и оставляют его включённым. Как только лампа загорается, возникает большой скачок напряжения, затем оно быстро спадает, даже если интенсивность освещения постоянна.«И это то, чего мы хотим», – не скрывают радости исследователи.
Хотя лаборатория в настоящее время может тестировать только один датчик за раз, команда учёных измерила необходимое их количество и создала численную модель для воспроизведения их масштабного поведения в ограниченных исследованиях. Итоги проведённой работы сам Лабрам признаёт «хорошим совпадением» между теорией и экспериментом.
Это позволило команде смоделировать набор ретиноморфных сенсоров, чтобы предсказать, как ретиноморфная видеокамера будет реагировать на изменения во входящем сигнале.
«Мы можем преобразовать видео в набор значений интенсивности света, а затем поместить это в нашу симуляцию», – говорит автор. «Области с более высоким выходным напряжением датчика загораются, в то время как области более низкого напряжения остаются темными. Если камера относительно статична, вы можете чётко видеть сильные отклики на всё, что движется. Это вполне согласуется с известной науке парадигмой оптического зондирования у млекопитающих».
Был проведён ряд любопытных тестов, которые могли бы заинтересовать художников вообще и кинематографистов в частности. Так, одно из экспериментальных моделирований с использованием видеозаписи тренировки по бейсболу выдаёт красноречивые, метафоричные и в чём-то забавные результаты (хоть и вполне ожидаемые): играющие люди выглядят как чётко видимые яркие движущиеся объекты, в то время как относительно статичные предметы вроде бейсбольной каски и трибун, –и даже защитники-аутфилдеры, которые часто замирают неподвижно, – исчезают во тьме.
В ещё более впечатляющей симуляции проявляется перед нами полёт птицы. Только представьте: взмахи крыльев, когда она летит в поле зрения, а затем складывает их и почти исчезает, останавливаясь у невидимой кормушки. Позже она снова появляется, когда взлетает. Качнувшаяся кормушка становится видимой только, когда начинает двигаться. Чистой воды искусство…
Но вернёмся к нашим «лабрамам».
«Хорошо то, что с помощью этого моделирования мы можем вводить любое видео в один из этих массивов и обрабатывать эту информацию практически так же, как это делает человеческий глаз, – говорит автор идеи и руководитель исследования. – Например, вы можете представить, что эти датчики используются роботом, отслеживающим движение объектов. Всё, что статично в его поле зрения, не вызовет реакции, однако движущийся объект будет регистрировать высокое напряжение. Это немедленно укажет роботу местонахождение объекта без какой-либо сложной обработки изображения».
Если учесть, что исследовательское подразделение компании великого Уолта Диснея Disney Research в конце октября представило роботизированную голову, владеющую навыками простейшей человеческой мимики, то приходит понимание, что роботы (такие, какими нам их рисовали самые смелые фантасты и режиссёры – то есть очень похожие на нас) уже не столь отдалённое будущее, как казалось всего пять-десять лет назад. Но робот с «диснеевской головой», при всём её мимическом арсенале, хоть и умеет определять проявляющего к нему интерес человека, всё же делает это путём последовательного интеллектуального сравнения с данными нагрудной камеры наблюдения. То есть, оснащение его ретиноморфным датчиком Лабрама можетещё больше приблизить его к образу андроида. Но пока что не сделает им.
АРМК, по материалам Oregon State University и Disney Research