×

 

Плотная трёхмерная координатная сетка обстановки может семантически распознавать и отслеживать людей вокруг. Например, вот так выглядит многокадровая последовательность действий человека, движущегося в сцене.

Наверное, все мы оценили бы небольшую услугу или помощь, о которых не нужно было бы помнить и которые не требовали бы воздаяния. Тем более, если бы эта помощь пришла от кого-то, не особо нуждающегося в нашей благодарности. Да, речь идёт о роботах. Только не просто об устройствах, направленных на выполнение узкоспециализированных действий (каковыми сейчас являются плоды всех имеющихся разработок − например, «умные» малютки-пылесосы), а о самых что ни на есть настоящих многофункциональных помощниках. Инженеры MIT полагают, что роботы должны быть способны выполнять высокоуровневые команды вроде «Иди на кухню и принеси мне чашку кофе».

Для выполнения таких многоуровневых поручений, состоящих из множества подзадач, нашим «электронным слугам» необходимо уметь воспринимать физические условия, обстановку, так же как это делают люди. Иными словами − им нужно видеть.

«Чтобы принимать какие-либо решения в мире, вам необходимо иметь мысленную модель окружающей вас среды», − говорит Лука Карлон, доцент кафедры аэронавтики и космонавтики в Массачусетском технологическом институте. «Это нечто столь естественное для людей. Но для роботов стало мучительно трудной проблемой, в части преобразования значений пикселей, фиксируемых камерой, в понимание мира».

Теперь Карлон и его ученики разработали для роботов способ представления внешних условий пространства и его обработки, восприятия, которые моделируются с ориентиром на человеческое восприятие мира. 

Новая модель, которую они называют Трёхмерными Динамическими Графиками Сцен, позволяет «умной» технике быстро создавать карту своего окружения в привычных человеку измерениях. Она включает в себя не только объекты, но и их семантические метки. Это, например, стул и стол; а также люди, комнаты, стены и другие конструкции, которые робот, вероятно, видит вокруг. 

Модель также позволяет устройствам извлекать соответствующую информацию из 3D-карты, запрашивать местоположение объектов и помещений или движение людей на своём пути.

«Это сжатое представление об окружающей среде полезно, потому что оно позволяет нашему роботу быстро принимать решения и планировать свой путь», − говорит Карлон. «Это не слишком далеко от того, что делаем мы, люди. Если вам нужно спланировать путь от вашего дома до MIT, вы не планируете каждую точку, которую вам нужно занять. Вы просто мыслите на уровне улиц и ориентиров, что помогает вам планировать маршрут быстрее».

Помимо домашних помощников, Карлон говорит, что устройства, которые применяют этот новый тип ментальной модели существующих условий, могут также подходить для других высокоуровневых работ, таких как деятельность бок о бок с людьми на фабрике или поиск выживших на месте катастрофы. 

Слияние картографий

В настоящее время автоматизированное зрение и навигация развиваются в основном по двум маршрутам: трёхмерное картирование, позволяющее роботам воссоздавать окружающую их среду в трёх измерениях, когда они исследуют обстановку в режиме реального времени; и семантическая сегментация, классифицирующая объекты вокруг как семантические (вроде автомобиля или велосипеда), что до сих пор можно было осуществить лишь по 2D-изображениям.  

Лука Карлон вместе с аспирантом Массачусетского технологического института и ведущим автором исследования Антони Росинолом создали новую модель пространственного восприятия. Она первой в мире генерирует 3D-карту местности в реальном времени, и помечает объекты, людей (которые являются динамическими, противоположными объектам) и структуры на этой трёхмерной карте. 

Ключевым компонентом новых алгоритмов стала библиотека с открытым исходным кодом, называемая Kimera. Она была разработана несколько раньше с целью осуществления одновременного построения объёмой геометрической модели среды и вычисления вероятности того, что выявленный объект представляет собой скорее стул, чем стол. 

«Как мифическое существо, представляющее собой смесь разных животных, мы хотели, чтобы Kimera была смесью картирования и семантического понимания в 3D», − говорит Карлон.

Kimera принимает данные с камеры и с бортовых датчиков инерциальных измерений, и в онлайн-режиме собирает сцену в виде трёхмерной сетки для оценки траектории робота или камеры.

Чтобы создать семантическую трёхмерность, нужно было суметь распознать объёмно-пространственную метку каждого пикселя (чему помогла нейронная сеть, обученная на миллионах изображений), а затем расположить эти метки в 3D-проекции. Для последнего решено было использовать так называемое лучевое распределение ­– несколько упрощённую, но довольно-таки быструю технику, обычно используемую в ранних компьютерных 3D-играх для отображения трёхмерной графики в реальном времени.

Результатом всех этих ухищрений является объёмная карта места действия робота, напоминающая плотную координатную сетку с тремя осями, где каждой ячейке присваивается цветовая кодировка в зависимости от того, с какой частью объектов, структур или людей в окружающем пространстве они соотносятся.

Послойное представление

Увы, навигация, основанная только на этой сетке координат, является для машин слишком ресурсозатратной и трудоёмкой, а значит – не дешёвой для нас. Так что создатели Kimera пошли дальше и на основе исходной, очень плотной, семантической 3D-сетки Kimera разработали алгоритмы для построения Трёхмерных Динамических «Графиков Сцен» (изображений обстановки). 

Обычные графики сцен используются в движках видеоигр для представления трёхмерных сред и представляют собой модели компьютерной графики, которые манипулируют сложными сценами и воспроизводят их. 

В случае же с Трёхмерными Динамическими Графиками Сцен соответствующие алгоритмы абстрагируют или разбивают детализированную трёхмерную семантическую сетку Kimera на отдельные семантические слои, так что робот может «видеть» сцену через определенный слой или линзу. Слои прогрессируют в иерархии: от объектов и людей – к открытым пространствам и структурам типа стен и потолков, комнат, коридоров и залов и, наконец, к целым зданиям. 

Карлон говорит, что это многоуровневое представление позволяет машине избежать необходимости в распознавании миллиардов точек и граней в исходной трёхмерной сетке.

На уровне объектов и людей исследователи также смогли разработать алгоритмы, которые в реальном времени отслеживают движение и форму людей в окружающей среде.

Команда протестировала свою новую модель в фотореалистичном симуляторе, разработанном в сотрудничестве с MIT Lincoln Laboratory, который имитирует перемещения робота по динамичной офисной среде, заполненной передвигающимися людьми: 

 

Трёхмерный динамический график сцены офисной среды. Узлы на графике представляют объекты в среде (люди, объекты, комнаты, структуры), а ребра представляют отношения между объектами.

«По сути, мы позволяем роботам иметь ментальные модели, аналогичные тем, которые используют люди», – говорит Карлон. «Это может породить множество применений, включая автомобили с автоматическим управлением, поиск и спасание, совместное производство и бытовую робототехнику.
Другая область – это виртуальная и дополненная реальность (AR). Представьте себе, что вы носите очки AR, которые работают по нашему алгоритму: очки могли бы помочь вам с такими вопросами, как «Где я оставил свою красную кружку?» и "Какой ближайший выход?" Вы можете думать об этом как об Алексе, которая знает об окружающей вас среде и понимает объекты, людей и их отношения
».

«Наш подход стал возможен благодаря недавним достижениям в области глубокого обучения и десятилетиям исследований по одновременной локализации и картированию», говорит Розинол. «Благодаря этой работе мы совершаем прыжок к новой эре роботизированного восприятия, называемой пространственным ИИ, которая только зарождается, но имеет огромный потенциал в робототехнике и крупномасштабной виртуальной и дополненной реальности». 

 


 

По материалам MITnews