×

Интеграция больших языковых моделей (LLM) с другими приложениями на основе поиска (так называемые LLM, интегрированные в приложения) может привести к появлению новых векторов атак; Злоумышленники теперь могут попытаться косвенно внедрить LLM с подсказками, размещёнными в общедоступных источниках. Источник

ChatGPT, чат-бот с большой языковой нейромоделью (LLM) от компании OpenAI, столь стремительно набрал популярность, что уже мало кому нужно объяснять что же он такое и для чего нужен. Всего через два месяца после его появления прошлой осенью, им воспользовались 100 миллионов человек. С его помощью люди шутили, спорили о политике, разыгрывали знакомых, создавали убедительные эссе и даже писали стихи.

«За 20 лет, прошедших после появления интернет-пространства, мы не можем вспомнить более быстрое развитие потребительского интернет-приложения», ‒ заявили ранее в этом году аналитики инвестиционного банка UBS.

Сегодня наблюдается значительный прогресс в возможностях больших языковых моделей. Они уже внедряются на практике и интегрируются во многие системы, включая и поисковые системы, и интегрированные среды разработки. Этот успех стал воодушевляющей новостью для программистов, потребителей и производителей товаров и услуг, коммерсантов и их клиентов, ‒ вообще, наверное, для всех слоёв населения, чем бы кто ни занимался. Возможности новой нейромодели сулят просто-таки неизмеримые выгоды для каждого.

Однако мир не терпит однополярного абсолюта, так что без ложки дёгтя и в этом мёде не обошлось: технологии бесстрастны, и мошенникам это на руку.

Новое исследование, опубликованное на сервере препринтов arXiv, показало, что чат-ботов с искусственным интеллектом можно довольно легко взломать для получения конфиденциальной информации о пользователях-собеседниках этих ботов.

Исследователи из Центра информационной безопасности имени Гельмгольца CISPA Саарского университета сообщили в прошлом месяце, что хакеры могут тайно вставлять вредоносные компоненты в переписку пользователей и чат‒ботов. Это возможно сделать с помощью так называемой непрямой оперативной инъекции.

Суть рисков заключается в самом механизме функционирования чат-ботов. В работе они используют алгоритмы обученной большой языковой модели. Благодаря ей эти программы могут обнаруживать, суммировать, переводить и прогнозировать текстовые последовательности в переписке.  Мало того, LLM способны использовать подсказки на естественном языке, почему и становится возможно общение с ними. Однако, позволяя модулировать функциональность текущих LLM, эти подсказки не проливают свет на внутреннюю функциональность модели ‒ она остаётся неявной и недоступной для оценки. Так и получается, что эта чудесная особенность, которая делает ботов адаптируемыми даже к невидимым задачам, как предупреждает исследователь из Саара Кай Грешаке, «может также сделать их восприимчивыми к целенаправленным враждебным подсказкам».

Грешейк объяснил, как именно это может работать: хакер подсовывает приглашение шрифтом с нулевой точкой, то есть невидимым, на веб-страницу, которая, вероятно, будет использоваться чат-ботом для ответа на вопрос пользователя. Как только эта «отравленная» страница вызывается в разговоре, подсказка тихо активируется без необходимости дальнейшего ввода со стороны человека.

Иными словами, в таких атаках злоумышленник может подтолкнуть LLM к созданию вредоносного контента или переопределить исходные инструкции и используемые схемы фильтрации. Ещё недавно предполагалось, что такие атаки возможны только при прямом вызове конкретной модели, но недавняя работа показала, что дело обстоит совершенно иначе: в модель можно проникнуть извне прямо во время взаимодействия с ней пользователя. Более того, эти атаки трудно нивелировать, поскольку современные LLM следуют инструкциям.

Учёный рассказал также, что чат Bing (аналог GPT) смог получить личные финансовые данные пользователя. Всё произошло примерно также: взаимодействие программы и человека привело к тому, что робот сам открыл страницу со скрытой подсказкой. Мы привыкли, что чат-боты, будучи программным продуктом, просто не опасны для нас. И в этот раз потенциальный клиент ничего не заподозрил, когда бот, представившийся продавцом ноутбуков Microsoft Surface, предложил ему новые модели со скидкой. В ходе непродолжительной беседы с утратившим бдительность пользователем и были получены идентификаторы его электронной почты и финансовая информация.

Кроме этого, университетские исследователи также обнаружили ещё одну уязвимость у Bing-а: его способность просматривать контент на открытых вкладках браузера лишь расширяет возможности его потенциального использования злоумышленниками для вредоносной активности.

Таким образом, дополнение LLM возможностями поиска и вызова API (так называемые LLM, интегрированные в приложения) порождает совершенно новый набор векторов атак. Чат-боты могут обрабатывать заражённый контент, полученный из глобальной сети, который содержит вредоносные подсказки, предварительно внедрённые и выбранные злоумышленниками.

Статья Саарского университета вполне уместно озаглавлена «Больше, чем вы просили».

Грешейк предупредил, что растущая популярность LLM означает, что впереди ещё больше проблем.

В ответ на обсуждение отчёта своей команды на форуме Hacker News, Грешейк сказал: «Даже если вы сможете смягчить эту конкретную инъекцию, это гораздо более серьёзная проблема. Она восходит к самой быстрой инъекции: что такое инструкция и что такое код? Если вы хотите извлечь полезную информацию из текста умным и полезным способом, вам придётся её обработать».

Грешейк и его команда заявили, что ввиду возможности быстрого распространения мошенничества существует острая необходимость в «более глубоком исследовании» таких уязвимостей.

На данный момент пользователям чат-ботов рекомендуется проявлять такую же осторожность, как и при любых онлайн-протоколах, связанных с личной информацией и финансовыми транзакциями.

 


АРМК, по материалам Tech Xplore.