Объяснение обучения за несколько шагов: преобразование ИИ с минимальными данными

Опубликовано: 2025-01-13

Обучение за несколько шагов (FSL) трансформирует машинное обучение (ML), позволяя моделям обучаться и генерировать точные результаты всего на нескольких примерах, в отличие от традиционных методов, требующих огромных наборов данных. В этом руководстве рассматривается, как работает FSL, его применение, сравнение с обучением с нулевым выстрелом (ZSL), а также его проблемы и потенциал.

Оглавление

  • Что такое обучение в несколько этапов?
  • Обучение в несколько этапов и подсказка в несколько этапов: в чем разница?
  • Как работает обучение в несколько этапов
  • Обучение с небольшим количеством выстрелов и обучение с нулевым выстрелом
  • Приложения для быстрого обучения
  • Преимущества обучения в несколько этапов
  • Проблемы однократного обучения

Что такое обучение в несколько шагов (FSL)?

Обучение за несколько шагов (FSL) относится к семейству методов машинного обучения, предназначенных для создания адаптируемых моделей, способных генерировать точные выходные данные после обучения всего на нескольких помеченных примерах для каждой категории. Когда доступен только один помеченный пример для каждой категории, это называется однократным обучением. Например, современные смартфоны используют FSL для распознавания лица пользователя всего по нескольким фотографиям или даже по одной фотографии.

FSL особенно ценен, поскольку позволяет моделям машинного обучения решать проблемы, когда данных недостаточно, как это часто бывает в реальном мире. Модели FSL также могут решать более широкий круг задач, чем традиционные модели обучения с учителем, поскольку они учатся обобщать. Это экономит ресурсы, поскольку зачастую дешевле и быстрее адаптировать модель FSL к новой задаче, чем обучать совершенно новую модель с нуля. FSL часто описывают как обучение моделей машинного обучения «думать» больше как люди, научившись абстрагироваться всего от нескольких примеров.

FSL часто используется в приложениях компьютерного зрения, но также применяется в робототехнике и обработке естественного языка (NLP). Например, FSL использовался для перевода древних шумерских текстов — полезная задача, учитывая, что специалистов по шумерскому языку не хватает. Шумерские переводчики моделей FSL научились переводить всего лишь с небольшого набора высококачественных образцов клинописных табличек. Затем они аккуратно перевели большие объемы незнакомого текста, чтобы ученые могли их проанализировать.

Работайте умнее с Grammarly
Партнер по написанию ИИ для всех, у кого есть работа

Обучение в несколько этапов и подсказка в несколько этапов: в чем разница?

FSL и краткосрочные подсказки — это связанные концепции в ML и NLP, но они служат разным целям.

Обучение за несколько кадров

FSL — это метод обучения моделей, который учит модели классифицировать невидимые данные. Он работает путем корректировки параметров модели для адаптации к новым видам задач классификации, опираясь на предварительные знания. FSL связан с контролируемым обучением, но разница в том, что модели FSL обучаются на гораздо более ограниченном наборе данных.

Подсказка из нескольких кадров

Кратковременные подсказки — это способ работы с большими языковыми моделями (LLM). Он использует контекстное обучение — тип обучения, при котором модель использует информацию из подсказки, такую ​​как формат и тональность, для прогнозирования результата. В отличие от FSL и традиционного обучения с учителем, подсказка с небольшим количеством шагов не предполагает изменения параметров LLM. Когда вы используете подсказки с несколькими предложениями, вы предоставляете LLM несколько примеров того типа ответа, который вам нужен. Как и в случае с FSL, подсказка с несколькими действиями заключается в том, чтобы помочь модели обобщить, показав ей несколько примеров аналогичной задачи.

Как работает обучение в несколько этапов

Обучение за несколько шагов включает два этапа: во-первых, модели предварительно обучаются на общем наборе данных для изучения мира. Затем они проходят адаптацию задачи, где модели учатся делать обобщения на основе небольших выборок данных.

Предварительная подготовка

Первый этап для большинства моделей FSL начинается с предварительного обучения на большом размеченном наборе данных, как и обучение с учителем. Модель выполняет извлечение признаков из этого набора данных и учится классифицировать примеры, создавая базу знаний о закономерностях и связях в данных.

Адаптация задачи

После предварительного обучения следующим этапом FSL является обучение модели обобщению для новых задач классификации. Это называется адаптацией задачи и происходит в течение нескольких эпизодов обучения.

В каждом эпизоде ​​имеется набор из двух-пяти примеров для изучения модели и набор запросов с невидимыми целями, которые модель пытается классифицировать. Эта структура называется N-образной классификацией K-кадров, в которойNотносится к количеству категорий (называемых классами), аKотносится к количеству помеченных примеров (кадров) каждой категории.

Все модели FSL предназначены для адаптации к задачам. В рамках набора методов FSL одной из наиболее важных и интересных областей исследований является метаобучение.

Подходы метаобучения

Мета-обучение включает в себя выполнение модели задач, аналогичных или связанных с задачей классификации, для решения которой модель изначально была обучена. Он получает всего несколько примеров каждой новой задачи, но на основе них он учится обобщать, разрабатывая мета-структуру того, что делать при выполнении любой незнакомой задачи.

Вообще говоря, существует три типа подходов к метаобучению:

  1. Обучение на основе оптимизации.Сюда входят подходы, которые обучают модели быстрому улучшению их параметров. Некоторые из них используют двухэтапный процесс, в котором учащийся обучается конкретной задаче, а затем мета-учащийся использует функцию потерь со стадии учащегося для улучшения параметров модели для следующей задачи.
  2. Обучение на уровне метрики.Используемое в основном для задач компьютерного зрения, обучение метрике работает путем сопоставления извлеченных объектов в пространстве внедрения и использования расстояния между объектами на карте для вывода вероятности того, что два изображения похожи.
  3. Независимое от модели метаобучение (MAML).В MAML целью процесса обучения является уменьшение количества шагов градиента, необходимых для оптимизации параметров модели, независимо от задачи. MAML анализирует процессы обучения для задач, выявляет закономерности в том, как этот процесс работает, и разрабатывает модели, которые действуют как ярлыки, ускоряя процесс обучения с каждой новой задачей, которую он видит.

Список модельных архитектур, использующих методы метаобучения, постоянно растет, поскольку исследователи изобретают новые способы помочь моделям стать адаптируемыми.

Неметаобучающие подходы

Существуют также FSL и смежные с FSL методы, которые не используют метаобучение. FSL иногда используется вместе с этими методами для создания гибридного подхода:

  • Трансферное обучение.Этот метод включает в себя использование предварительно обученной модели и тонкую настройку внешних слоев нейронной сети. Трансферное обучение более полезно в сценариях, где задача, которую должна выполнять модель, близка к задаче, которой она уже обучалась.
  • Увеличение данных.FSL можно усилить с помощью дополнения данных, которое предполагает использование ваших ограниченных данных в качестве основы для создания синтетических данных с использованием генеративно-состязательных сетей (GAN) или вариационных автокодировщиков для увеличения количества выборок для вашего обучающего набора.

Обучение с небольшим количеством выстрелов и обучение с нулевым выстрелом

Обучение за несколько шагов (или однократное обучение) часто используется в сценариях, где имеется ограниченное количество, но высококачественных данных для обучения модели. Но что делать, если у вас вообще нет качественных данных? При нулевом обучении (ZSL) вы не даете своей модели никаких примеров и вместо этого просите ее полагаться исключительно на предварительные знания и семантические внедрения, которые она может использовать для решения незнакомых задач.

ZSL предлагает быстрое и гибкое решение для обработки ситуаций с очень небольшим объемом данных. Однако модели ZSL могут испытывать трудности со сдвигом предметной области (то есть они могут испытывать трудности, если тип данных, которые они видят, слишком отличаются от их базы знаний), и может быть сложно оценить, насколько хорошо работает модель.

Приложения для быстрого обучения

Приложения для FSL разнообразны и постоянно развиваются, но они обладают огромным потенциалом быть полезными в областях, где имеется относительно мало примеров. Некоторые недавние области исследований вариантов использования включают в себя:

  • Медицинская диагностика:FSL может помочь в классификации опухолей на основе изображений, когда недостаточно размеченных данных, чтобы традиционные модели обучения с учителем могли быть полезными.
  • Дистанционное зондирование:FSL может ускорить выполнение задач дистанционного зондирования, например, использование видеозаписи с БПЛА для оценки последствий экологических катастроф.
  • Прототипирование гоночных автомобилей Формулы-1:модели FSL предварительно обучаются на основе гидро- и аэродинамики, а также других данных для сотен автомобилей в тысячах гонок. Затем они используют FSL для прогнозирования аэродинамики и деградации деталей прототипов новых автомобилей на основе небольшого количества дорогостоящих тестовых запусков.
  • Машинный перевод:FSL помогла создать более эффективные машинные переводчики, которые используют очень мало входных данных и могут улавливать нюансы диалектов и региональных различий с беспрецедентной точностью.
  • Робототехника:FSL используется для обучения роботов захвату объектов, наблюдая за человеческими демонстрациями.
  • Анализ настроений.Модель FSL, изначально обученная на обзорах отелей, может использоваться для классификации отзывов о ресторанах.

FSL также является частью усилий по созданию общего искусственного интеллекта, поскольку он более точно имитирует подход людей к решению проблем.

Преимущества обучения в несколько этапов

Основные преимущества моделей FSL заключаются в том, что они могут решать проблемы, когда доступны ограниченные данные, и могут помочь сократить вычислительные и финансовые ресурсы, необходимые для обучения новых моделей.

Обобщение с ограниченными данными

Модели FSL могут сделать это, потому что они не запоминают изображения, звуки или язык в течение многих итераций. Вместо этого они учатся быстро анализировать сходства и различия. В то время как традиционные модели превосходно справляются с весьма специфическими задачами, такими как идентификация определенного вида птиц или сопоставление отпечатков пальцев, они терпят неудачу, как только вы просите их выполнить любую другую задачу.

Использование меньшего количества ресурсов

Такие методы, как MAML, являются гораздо более эффективным способом использования ресурсов для обучения моделей. Они позволяют быстро и эффективно адаптировать очень дорогие крупномасштабные модели к конкретным сценариям использования без дорогостоящих этапов переобучения. Одна из самых больших проблем в машинном обучении заключается в том, сколько данных требуется для обучения модели для получения полезных результатов, как с точки зрения составления больших высококачественных наборов данных, так и с точки зрения того, сколько времени и вычислений требуется. FSL обещает решить многие реальные проблемы, когда данных недостаточно или они пересекают домены.

Проблемы однократного обучения

Несмотря на свои обещания, у FSL есть проблемы, которые могут снизить эффективность модели.

Переобучение

Использование ограниченных наборов данных может привести к переоснащению, когда модель слишком точно согласуется с данными в обучающих наборах и с трудом поддается обобщению. Это знакомая проблема в машинном обучении, которая при использовании FSL возникает чаще, чем при других подходах к машинному обучению. Модель FSL, которая переоснащается, будет хорошо работать на тестовых данных, но не будет определять новые категории, когда ей будут представлены примеры из реальной жизни. Чтобы предотвратить это, важно обеспечить разнообразие ограниченных выборок, используемых для тренировок с несколькими выстрелами. Увеличение данных, обсуждавшееся выше, пытается уменьшить переобучение путем синтеза большего количества примеров для обучения.

Качество данных

Высококачественные данные как на этапе предварительного обучения, так и на этапе обучения с несколькими выстрелами важны. Модели FSL легче затрудняются из-за зашумленных и плохо размеченных данных. Они также неэффективны, когда в данных слишком много одного вида, а не другого, или когда в модели слишком много функций для анализа; в этих случаях они имеют тенденцию становиться чрезмерно сложными. Иногда исследователи могут справиться с этими проблемами, используя методы регуляризации, которые представляют собой способы сглаживания данных, помогающие модели выяснить, на что следует обращать внимание, а что игнорировать.