Дата публикации: 03.11.2023
Человек расскажет
что он там хотел,
роботу лишь знать бы
что лежит и где.
Поля функций для роботизированных манипуляций (F3RM) позволяют роботам интерпретировать открытые текстовые подсказки на естественном языке, помогая машинам манипулировать незнакомыми объектами. Поля трёхмерных функций системы могут быть полезны в средах, содержащих тысячи объектов, таких как склады. Источник.
Представьте: вы в гостях у друга за границей; заглядываете в его холодильник, посмотреть что-нибудь на завтрак. Поначалу содержание заграничных закромов покажется вам чуждым ‒ вас собьют с толку незнакомые упаковки и контейнеры. Однако вскоре, несмотря на визуальный шок, вы начинаете понимать, что из себя представляет каждый из продуктов, и выбор значительно облегчается.
Группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в MIT, вдохновлённая способностью людей обращаться с незнакомыми объектами, разработала систему Feature Fields for Robotic Manipulation («поля функций для роботизированных манипуляций» или просто F3RM), которая объединяет двухмерные изображения с особенностями базовой модели ‒ в 3D-сцены, чтобы помочь роботам идентифицировать близлежащие предметы и хвататься за них. F3RM может интерпретировать открытые языковые подсказки людей, что делает этот метод полезным в реальных средах, содержащих тысячи объектов, таких как склады и домашние хозяйства.
Система наделяет роботов возможностью, условно говоря, «понимать» открытые текстовые подсказки на естественном языке, облегчая тем самым манипуляции машин. В результате устройства смогут понимать не только менее конкретные, но и ‒ в перспективе ‒ даже не очень корректные запросы людей. Тут, конечно, потребуется ещё и адаптация под пользователя, но в целом желаемая задача будет выполнена. Например, если вы попросите робота «поднять высокую кружку», робот сможет найти и взять предмет, который лучше всего соответствует этому описанию.
«Создать роботов, которые действительно могут обобщать действия в реальном мире, невероятно сложно, ‒ говорит Ге Ян, постдок в Институте искусственного интеллекта и фундаментальных взаимодействий Национального научного фонда и MIT CSAIL. ‒ Мы действительно хотим выяснить, как это сделать, поэтому в этом проекте мы пытаемся добиться агрессивного уровня обобщения, от трёх или четырёх объектов до всего, что мы находим в Статцентре MIT. Мы хотели научиться делать роботов такими же гибкими, как мы сами, поскольку мы можем захватывать и размещать объекты, даже если никогда раньше их не видели».
Этот метод может помочь машинам выбирать товары в крупных центрах выполнения заказов с неизбежным беспорядком и непредсказуемостью. На этих складах часто нужно идентифицировать вещи просто по имеющемуся описанию, которое роботы должны уметь сопоставлять с объектами независимо от различий в упаковке.
Например, центры выполнения крупных интернет-магазинов могут содержать миллионы товаров, со многими из которых сортирующие и складывающие механизмы никогда раньше не сталкивался. Чтобы работать в таком масштабе, им необходимо понимать геометрию и семантику различных предметов, причём даже находясь в ограниченном пространстве. Снабжённый F3RM, благодаря расширенным ею способностям пространственного и семантического восприятия, робот может стать более эффективным в обнаружении объекта, помещении его в корзину, а затем отправке его на упаковку. Это заметно скажется на эффективности как производителей товаров, так и служб доставки.
«Одна вещь, которая часто удивляет людей с F3RM, заключается в том, что та же система также работает в масштабе комнаты и здания и может использоваться для создания симуляционных сред для обучения роботов и больших карт, ‒ говорит Янг. ‒ Но прежде, чем мы расширим эту работу дальше, мы хотим сначала заставить эту систему работать очень быстро. Таким образом, мы можем использовать этот тип представления для более динамичных задач управления роботами, будем надеяться, в режиме реального времени, чтобы роботы, выполняющие более динамичные задачи, могли использовать его для восприятия».
Команда также отмечает, что способность F3RM понимать различные сцены может сделать его полезным также и в других условиях: от городских до домашних. Так, этот подход, например, научит персонализированных роботов идентифицировать окружающую среду и определённые предметы. Можно даже сказать, хоть и с некоторой натяжкой, что для робота разработка выступает этакой системой восприятия ‒ как информационно, так и физически.
«Визуальное восприятие было определено Дэвидом Марром как проблема осознания "смотря что и где есть", ‒ говорит старший автор работы Филипп Изола, доцент кафедры электротехники и информатики MIT и главный исследователь CSAIL. ‒Недавние фундаментальные модели стали действительно хорошо понимать, на что они смотрят; они могут распознавать тысячи категорий объектов и предоставлять подробные текстовые описания изображений. В то же время области освещённости стали очень хорошо отображать расположение объектов в сцене. Комбинация этих двух подходов может создать представление о том, что и где находится в 3D, и наша работа показывает, что эта комбинация особенно полезна для роботизированных задач, которые требуют манипулирования объектами в 3D».
Цифровой двойник.
F3RM изучает и понимает своё окружение посредством простого селфи! Его камера делает 50 изображений в разных позах, что позволяет создать карту той самой освещённости, представляющей собой поле нейронного излучения (NeRF) ‒ метод глубокого обучения, который использует двухмерные изображения для построения объёмной сцены. Этот коллаж из фотографий RGB становится своего рода «цифровым двойником» окружающего пространства в виде 360-градусного изображения со всем, что находится поблизости.
В дополнение к высокодетализированному полю нейронного излучения, F3RM также создаёт поле признаков для дополнения геометрии семантической информацией. Система использует CLIP ‒ фундаментальную модель зрения, обученную на сотнях миллионов изображений для эффективного изучения визуальных концепций. Собирая и реконструируя черты объектов из двумерных CLIP-изображений, сделанных с помощью палки для селфи, F3RM эффективно преобразует множество плоских сцен в 3D-представление.
Держите вещи открытыми.
После нескольких демонстраций робот применяет свои знания о геометрии и семантике, чтобы захватывать объекты, с которыми он никогда раньше не сталкивался. Как только пользователь отправляет текстовый запрос, робот просматривает пространство возможных вариантов захвата, чтобы определить те из них, которые с наибольшей вероятностью преуспеют в подборе запрошенного пользователем объекта. Каждый потенциальный вариант оценивается на основе его соответствия подсказке, сходства с демонстрациями, на которых обучался робот, и того, вызывает ли он какие-либо столкновения. Затем выбирается и выполняется захват с наибольшим количеством баллов.
Чтобы продемонстрировать способность системы интерпретировать открытые запросы людей, исследователи предложили роботу взять Бэймакса, персонажа из диснеевского «Большого героя 6». Хотя F3RM никогда не обучался напрямую брать игрушку мультяшного супергероя, робот использовал своё пространственное восприятие и особенности языка видения из базовой модели, чтобы решить, какой объект схватить и как его поднять.
F3RM также позволяет пользователям указывать, с каким объектом робот должен работать на разных уровнях лингвистической детализации. Например, если есть металлическая кружка и стеклянная кружка, пользователь может попросить у робота «стеклянную кружку». Если бот видит две стеклянные кружки и одна из них наполнена кофе, а другая — соком, пользователь может попросить «стеклянную кружку с кофе». Функции базовой модели, встроенные в поле функций, обеспечивают такой уровень открытого понимания.
«Если бы я показал человеку, как брать кружку за края, он мог бы легко применить эти знания, чтобы брать предметы схожей геометрии, такие как миски, мерные стаканы или даже рулоны ленты. Для роботов же достижение такого уровня адаптивности было довольно сложной задачей, ‒ поясняет соавтор работы аспирант Уильям Шен. ‒ F3RM сочетает в себе геометрическое понимание с семантикой базовых моделей, обученных на данных интернет-масштаба, чтобы обеспечить такой уровень агрессивного обобщения на основе всего лишь небольшого количества демонстраций».
Фактически, эта работа приоткрывает нам двери к созданию и использованию той самой искусственной обслуги и рабочей силы, которой полнятся наши книги и фильмы. Понимание собственного окружения и вольных словесных подсказок от человека при выполнении машинами каких-то задач повлечёт за собой не просто распространение домашней, офисной, специализированной робототехники, что «прям как живая», но и в принципе готовит ей (и нам, и нам!) новый уровень развития.
АРМК, по материалам MIT.