×

Машинное обучение обычно требует множества исходного материала – примеров изучаемых объектов. Дороговизна технологии в плане затрат на обеспечение ресурсами вычислительных процессов вытекает как раз из этой необходимости в больших объёмах обучающей информации. Было бы очень полезно научить нейросети опираться на гораздо меньшие тренировочные наборы данных при сохранении почти той же точности, какая доступна им уже сегодня.

Сейчас, чтобы нейро-модель распознала, скажем, лошадь, ей нужно показать тысячи соответствующих изображений. И пусть машины обрабатывают информацию быстрее человека, но, что касается усвоения знаний, у искусственных нейросетей этот процесс явно проигрывает человеческому. В его нынешнем состоянии, сильно отличаясь от обучения, свойственного людям, он и медленнее, и менее гибок. На примере тех же лошадей – чтобы навсегда запомнить их и уметь идентифицировать, ребёнку хватит увидеть животное всего пару раз или даже вообще только однажды.

Но самое интересное заключается в том, что в действительности, чтобы научиться что-то распознавать, детям иногда и вовсе не нужны никакие примеры. Так, свойственное нашему виду ассоциативное мышление позволит им узнать единорога на картинке в книжке, никогда не видя его прежде, а только опираясь на сказанное когда-то вами, что это сказочное существо – нечто среднее между лошадью и носорогом, которых, конечно, они уже знают.

Так вот, чтобы совладать с постоянно растущим объёмом данных, нам очень нужно, чтобы современные ИИ-модели были бы в состоянии делать что-то подобное.

Исследователи из Университета Ватерлоо в Онтарио не только уверенны в этом, но и показывают, как это возможно осуществить. Сам процесс они называют «обучением с меньше, чем одной попытки» или «LO-shot». Смысл столь туманного названия проясняется целью нового метода: модель искусственной нейросети должна уметь точно распознавать больше объектов, чем количество примеров, на которых она была обучена. Значение метода для всей сферы машинного обучения, особенно в условиях её постоянного удорожания и уменьшения доступности, трудно переоценить. Это не только сокращение используемых в обучении наборов данных, которых становятся всё больше, но и предвосхищение узнаваемости их комбинаций. А это уже повышает оперативность и корректность ИИ-аналитики посредством сформированных таким образом алгоритмов.

Как это работает.

Впервые эта идея продемонстрирована авторами в экспериментах с популярным набором данных для компьютерного зрения MNIST, который содержит 60 000 обучающих изображений рукописных цифр и часто используется для проверки новых идей в этой области.

И тут не обойтись без небольшой предыстории.

Недавно исследователи из MIT представили метод «дистилляции» – преобразования, своего рода перегонки – гигантских наборов данных в крошечные, и в доказательство концепции сжали весь объём изображений MNIST до всего лишь 10 штук. Однако «сжали» – очень подходящее слово и в данном случае вовсе не означает «сократили»: конечные изображения не были отобранной частью исходного набора данных, а стали, наоборот, концентрированным его выражением. Для сохранения объёма информации, свойственного полному набору, эти 10 картинок были тщательно спроектированы и оптимизированы. Результаты испытаний показали, что при обучении исключительно на этих новых 10 «выжимках» модель ИИ может достичь почти такой же точности (94%), как и модель, обученная на всех изображениях набора MNIST.

Примеры изображений из набора данных MNIST. ВИКИМЕДИА

 

10 изображений, "дистиллированных" из MNIST, которые могут обучить модель искусственного интеллекта достижению 94% точности распознавания рукописных цифр. TONGZHOU WANG ET AL. 

Основываясь на успехе коллег, исследователи из Университета Ватерлоо вознамерились усугубить их процесс «дистилляции»: если 60 000 изображений можно свести к 10, то почему бы не сжать их до пяти? Хитрость, которую они провернули, заключалась в том, чтобы создавать смешанные изображения нескольких цифр, а затем передавать их в модель ИИ с гибридными, или «мягкими», метками-подсказками.

Здесь нужно пояснить, что сами исследователи называют эти свои маркёры «softlabels», что можно перевести и как «мягкие метки» – и отчасти это не противоречит смыслу повествования, – и как «программные метки» – чем они, собственно, и являются. Но поскольку они определяют соответствие конкретной точки данных тем или иным условным классам, то для удобства понимания дальше мы будем их называть «условными» и «программными».

Итак, для нейросети эти метки выступают своего рода ориентирами в распознавании – вроде лошади и носорога с частичными чертами единорога для ребёнка.

«Если вы думаете о цифре 3, она также выглядит как цифра 8, но не как цифра 7, – поясняет Илья Сухолуцкий, аспирант в Университете Ватерлоо, ведущий автор статьи. – Программные ярлыки пытаются уловить эти общие функции. Поэтому вместо того, чтобы сказать машине: «Это изображение - цифра 3», мы говорим: «Это изображение - 60% цифра 3, 30% цифра 8 и 10% цифра 0»».

Пределы обучения LO-shot

После того, как использование условных меток для LO-shot-обучения увенчалось успехом в MNIST, исследователи задались вопросом: а насколько далеко может зайти эта идея? Есть ли вообще ограничение на количество категорий, которые модель ИИ может научиться определять, основываясь на крошечном количестве примеров?

Удивительно, но ответ, похоже, отрицательный. 

С помощью тщательно разработанных программных меток, теоретически, даже два примера могут кодировать любое количество категорий. «С двумя точками можно выделить тысячу классов, или 10 000 классов, или миллион классов», – говорит Сухолуцкий.

Распознавание яблок (зелёные и красные точки) и апельсинов (оранжевые точки) по весу и цвету. АДАПТИРОВАНО ИЗ СЛАЙД-ДЕКИ ДЖЕЙСОНА МЕЙСА "МАШИНОСТРОЕНИЕ 101"

Это как раз то, что учёные демонстрируют в своей последней статье с помощью чисто математического исследования: они реализуют эту концепцию с помощью одного из простейших алгоритмов машинного обучения, известного как k-NN (метод k-ближайших соседей, при котором объекту присваивается наиболее распространённый среди соседей данного объекта класс, где k – количество соседей). Такой подход позволяет классифицировать объекты графическим образом.

Чтобы проще понять принципы работы kNN, рассмотрим задачу классификации фруктов: если вы хотите обучить модель kNN понимать разницу между яблоками и апельсинами, давайте выберем виды характеристик, которые позволят описать каждый фрукт. Допустим, это цвет и вес. Теперь для каждого плода в графике kNN введём по одной точке данных с соответствующим цветом в качестве значения по шкале «X» и весом – по шкале «Y». Так алгоритм kNN отображает все точки данных на двухмерной диаграмме и проводит линию границы посередине между яблоками и апельсинами. На этом этапе график аккуратно разделён на две области, которые представляют собой два класса. Теперь, в зависимости от того, в какую область попадают новые точки данных, алгоритм может решить, представляют они один или другой класс.

Чтобы изучить обучение LO-shot с помощью алгоритма kNN, исследователи создали серию крошечных наборов синтетических данных и тщательно спроектировали их программные метки. Затем они позволили алгоритму kNN построить обнаруженные им границы, и оказалось, что метод позволил успешно разбить график на большее число классов, чем количество изначально имевшихся точек данных. 

Но это ещё не всё. Сюрпризом стала появившаяся высокая степень контроля над местами прохождения границ областей-классов. Фактически, по-разному настраивая свои «условные метки», учёные смогли заставить алгоритм kNN рисовать точные узоры в форме цветов.

Исследователи использовали примеры с программной меткой, чтобы обучить алгоритм kNN кодировать все более сложные граничные линии, разбивая диаграмму на гораздо больше классов, чем на точки данных. Каждая из цветных областей на графиках представляет отдельный класс, в то время как круговые диаграммы сбоку от каждого графика показывают распределение меток для каждой точки данных. ИЛЬЯ СУХОЛУТСКИЙ И др.

Конечно, у этих теоретических изысканий есть некоторые ограничения. Идее обучения LO-shot предстоит быть применяемой к более сложным алгоритмам, но тогда задача разработки примеров с условной меткой значительно усложняется. С одной стороны – алгоритм kNN является интерпретируемым и визуальным, что позволяет нам создавать метки; а с другой – это может быть не так просто сделать вследствие сложности и «непрозрачности» нейросетей. В то же время удаление данных, которое работает для разработки примеров с программной меткой, также имеет существенный недостаток: оно требует, чтобы вы начали с гигантского набора данных, чтобы сократить его до чего-то более эффективного.

Сейчас Илья Сухолуцкий работает над поиском других способов создания примеров этих крошечных синтетических наборов данных – будь то создание вручную или с помощью другого алгоритма. Однако, несмотря на эти дополнительные препятствия в исследовании, в статье представлены теоретические основы обучения LO-shot, что само по себе может быть куда важнее – ведь, чем блуждать наугад, лучше иметь карту и знать пункт назначения.

«Вывод состоит в том, – говорит автор, – что в зависимости от того, какие наборы данных у вас есть, вы, вероятно, сможете добиться значительного повышения эффективности».

Это то, что больше всего интересует Тунчжоу Ван, аспиранта Массачусетского Технологического Института, который руководил упомянутым исследованием дистилляции данных. «Статья строится на действительно новой и важной цели: изучении мощных моделей из небольших наборов данных», – говорит он о вкладе Сухолуцкого.

Райан Хурана, исследователь из Монреальского Института Этики Искусственного Интеллекта, разделяет это мнение: «Наиболее важно то, что «менее чем одноразовое обучение» радикально снизит требования к данным для построения функционирующей модели». Это может сделать ИИ более доступным для компаний и отраслей, которым до сих пор мешали требования к данным в этой области. Это также может улучшить конфиденциальность данных, поскольку для обучения полезных моделей нужно будет получать меньше информации от отдельных лиц.

Сухолуцкий подчёркивает, что непосредственно экспериментировать ещё рано, но он взволнован. По его словам, каждый раз, когда он представляет свою статью коллегам-учёным, их первая реакция – сказать, что идея невозможна. Когда же приходит понимание, что это не так, перед ними внезапно открывается совершенно новый мир.


 

По материалам MIT