Объяснение нулевого обучения: будущее машинного обучения без меток
Опубликовано: 2025-01-13Обучение с нулевым выстрелом (ZSL) совершает революцию в машинном обучении (МО), позволяя моделям классифицировать или прогнозировать результаты для концепций, с которыми они никогда раньше не сталкивались, что знаменует собой отход от традиционных подходов, которые требуют обширных размеченных данных. В этом руководстве рассматривается, как работает ZSL, его приложения, его сравнение с обучением в несколько шагов (FSL), а также его проблемы и будущий потенциал.
Оглавление
- Что такое обучение с нулевым выстрелом?
- Как работает обучение с нулевым выстрелом
- Обучение с нулевым шагом против обучения с несколькими шагами и однократного обучения
- Обучение с нулевым выстрелом против подсказки с нулевым выстрелом
- Применение нулевого обучения
- Преимущества обучения с нуля
- Проблемы нулевого обучения
Что такое обучение с нулевым выстрелом (ZSL)?
ZSL позволяет моделям машинного обучения делать прогнозы по невидимым категориям, не требуя конкретных обучающих примеров для этих категорий. В отличие от традиционных моделей обучения с учителем, которые в значительной степени полагаются на помеченные наборы данных, где каждая категория должна быть явно представлена, ZSL использует вспомогательную информацию, такую как семантические внедрения или атрибуты, для обобщения знаний.
Например, модель обучения с учителем, обученная классифицировать животных, потребует помеченных примеров «собака», «кошка» и «зебра», чтобы распознавать их, тогда как модель ZSL, обученная на изображениях животных, может идентифицировать зебру на основе описательных атрибутов, таких как « полосатый» и «лошадиный», даже без предшествующих примеров. Это делает ZSL особенно полезным для задач, связанных с большими неразмеченными наборами данных, или в ситуациях, когда сбор помеченных данных нецелесообразен. Его приложения охватывают компьютерное зрение, обработку естественного языка (НЛП), робототехнику и многое другое.
Как работает обучение с нулевым выстрелом
Модели ZSL сначала предварительно обучаются на большом размеченном наборе данных для создания базы знаний. Модель извлекает вспомогательную информацию из помеченных данных, включая такие характеристики, как цвет, форма и тональность.
Затем он использует эти функции для отображения семантических отношений между видимыми и невидимыми категориями (или классами) данных. Этот процесс, называемый передачей знаний, позволяет модели ZSL понять, например, что утка и гусь связаны между собой, поскольку у них обоих есть клювы, перья и перепончатые лапы.
Наиболее распространенными методами являются ZSL на основе атрибутов, ZSL на основе семантического внедрения и обобщенный ZSL. Ниже мы рассмотрим каждый.
Обучение с нулевым шансом на основе атрибутов
Модели ZSL на основе атрибутов чаще всего используются для задач компьютерного зрения. Они работают путем обучения на наборах изображений, размеченных человеком. Метки состоят из атрибутов, которые человек, маркирующий, считает полезными. К каждому изображению человек применяет текстовое описание его особенностей, таких как цвет, форма или другие характеристики.
Например, при классификации изображений такие атрибуты, как «серый», «четвероногий» и «собака», могут описывать разные категории. Посредством обучения модель учится связывать эти атрибуты с конкретными категориями.
Когда вы показываете модели пример чего-то нового — например, типа животного, которого она раньше не видела, — она может определить, смотрит ли она на класс, похожий, но не такой же, как классы, наблюдаемые при обучении.
Когда модель сталкивается с невидимой категорией (например, волком), она может вывести класс, анализируя атрибуты, общие для изученных категорий, даже если метка «волк» не была явно частью обучения. Эти интерпретируемые человеком атрибуты улучшают объяснимость и позволяют обобщать модель на новые классы.
Обучение с нулевым выстрелом на основе семантического внедрения
Этот подход аналогичен ZSL на основе атрибутов, но вместо того, чтобы люди создавали метки атрибутов для обучения, модель генерирует так называемые семантические внедрения обучающих данных. Эти семантические внедрения кодируются как векторы — математические способы представления объектов реального мира — а затем отображаются в пространстве внедрения.
Пространство внедрения позволяет модели организовывать свои контекстные знания, группируя связанную информацию ближе друг к другу. Например, категории «собака» и «волк» будут ближе друг к другу в пространстве встраивания, чем категории «собака» и «птица», из-за общих семантических особенностей. Это похоже на то, как большие языковые модели (LLM) используют семантические внедрения для кластеризации синонимов из-за их схожего значения.
Когда модели предоставляются невидимые категории (другой способ сказать «новые данные, с которыми модель раньше не сталкивалась»), она проецирует векторы из этих новых классов в одно и то же пространство внедрения и измеряет расстояние между ними и векторами для уже известных ей классов. о. Это дает контекст модели для невидимых примеров и позволяет выводить семантические отношения между известными и неизвестными классами.
Обобщенное обучение с нулевым выстрелом
Большинство методов нулевого обучения обучают модель на одном типе данных, а затем применяют ее к другой, но связанной задаче. В этом заключается идея «нулевых выстрелов»: модель не подвергается воздействию каких-либо примеров новых классов до того, как встретит их в реальной жизни.
Однако реальные приложения не всегда такие черно-белые. Набор данных, который вы хотите, чтобы ваша модель ZSL классифицировала, может содержать элементы из известных классов наряду с новыми классами.
Проблема в том, что традиционные модели ZSL иногда могут проявлять сильную предвзятость и неправильно маркировать новые классы как вещи, которые он уже знает, если вы смешиваете новое и знакомое вместе. Поэтому полезно иметь модель ZSL, которую можно обобщить на набор данных, который может содержать классы, уже встречавшиеся в обучении.
В обобщенном ZSL модель делает дополнительный шаг для уменьшения смещения в сторону известных категорий. Прежде чем выполнить классификацию, он сначала решает, принадлежит ли рассматриваемый объект к известному или неизвестному классу.
Обучение с нулевым шагом против обучения с несколькими шагами и однократного обучения
Как и ZSL, обучение в несколько этапов (FSL) и однократное обучение (OSL) позволяют моделям глубокого обучения выполнять новые задачи с минимальным количеством новых данных или без них. Все три подхода основаны на картировании взаимосвязей между особенностями известных примеров для выявления закономерностей в неизвестных примерах. Их основная цель — создать модели, эффективные в реальных сценариях, когда данных недостаточно или нет времени на обучение новой модели для конкретной задачи.
Ключевое различие заключается в том, как они обрабатывают новые данные:
- FSLпредполагает предоставление модели небольшого количества помеченных примеров для нового класса, который необходимо идентифицировать.
- OSL— это более конкретный случай, когда в модели показан только один помеченный пример нового класса.
И FSL, и OSL требуют дополнительного этапа обучения по сравнению с ZSL, что увеличивает время, необходимое для изучения новых задач. Однако это дополнительное обучение позволяет им решать задачи, которые значительно отличаются от предварительно обученных знаний модели, что делает их более адаптируемыми на практике.
Хотя ZSL часто считают «гибким», поскольку он не требует размеченных примеров для новых задач, эта гибкость в значительной степени является теоретической. В реальных приложениях методы ZSL могут бороться с:
- Задачи, включающие сочетание видимых и невидимых примеров (например, обобщенные сценарии ZSL).
- Задачи, которые существенно отличаются от обучающих данных модели.
Модели ZSL также чувствительны к таким факторам, как разделение наборов данных во время предварительного обучения и оценки, что может повлиять на производительность. С другой стороны, FSL и OSL предлагают большую практическую гибкость для адаптации задач за счет включения новых примеров в процесс обучения, что позволяет им лучше работать в различных сценариях.
Обучение с нулевым выстрелом против подсказки с нулевым выстрелом
ZSL — это тип модельной архитектуры, предназначенный для различных задач глубокого обучения. Напротив, подсказка с нулевым выстрелом означает, что LLM, такой как ChatGPT или Claude, просит сгенерировать выходные данные без предоставления конкретных примеров в подсказке, которые могли бы служить руководством для ответа. В обоих случаях модель выполняет задачу без явных примеров того, что включает в себя эта задача.
При нулевых подсказках вы не предоставляете модели никаких примеров, связанных с задачей. Вместо этого вы полагаетесь на предварительно обученные знания LLM, чтобы сделать вывод и выполнить задачу.
Например, вы можете ввести текст обзора ресторана и попросить LLM классифицировать его как положительный, нейтральный или отрицательный, не предоставляя ему каких-либо образцов отзывов, которые можно было бы использовать в качестве справочного материала. LLM будет опираться на свою предварительную подготовку, чтобы определить подходящую метку для проверки.
Хотя обучение с нуля и подсказка с нуля имеют общую концепцию выполнения задач без примеров, существует ключевое различие:
- Обучение с нулевым выстрелом— это тип архитектуры модели, созданной для таких задач.
- Нулевые подсказки— это метод, специфичный для взаимодействия с LLM, а не модельная архитектура.
Применение нулевого обучения
Поскольку ZSL ориентирован на помощь моделям глубокого обучения в адаптации к новым задачам, он находит применение во многих областях машинного обучения, включая компьютерное зрение, НЛП и робототехнику. ZSL можно использовать в здравоохранении, анализе настроений, обслуживании клиентов, переводе документов и кибербезопасности, например:
- Анализ настроений:при появлении последних новостей модель НЛП с нулевым шансом может выполнить анализ настроений на основе комментариев общественности, чтобы практически в реальном времени увидеть реакцию общественности.
- Многоязычная обработка документов:модели NLP с нулевым выстрелом, обученные извлекать информацию из налоговых документов на английском языке, могут выполнять такое же извлечение из налоговых документов на испанском языке без дополнительного обучения.
- Медицинская диагностика:модели ZSL использовались для идентификации рентгеновских снимков пациентов с COVID-19 без каких-либо визуальных примеров. Идентификация основана на текстовых описаниях того, как выглядят положительные рентгеновские снимки, сделанных врачами, работающими в этой области.
- Более тонкие чат-боты:модели ZSL NLP могут понимать сленг и идиомы, с которыми они раньше не сталкивались во время чатов с людьми, что позволяет им более осмысленно отвечать на вопросы, которым они не были специально обучены.
- Обнаружение аномалий:ZSL можно использовать в сфере кибербезопасности для обнаружения необычных закономерностей в сетевой активности или маркировки новых видов хакерских атак по мере появления новых угроз.
Преимущества обучения с нулевого выстрела
Традиционные подходы к обучению с учителем часто непрактичны для многих реальных приложений, учитывая большие наборы данных, время обучения, деньги и вычислительные ресурсы, которые им требуются. ZSL может смягчить некоторые из этих проблем. Преимущества включают сокращение затрат, связанных с обучением новой модели и преодолением ситуаций, когда данных недостаточно или они еще недоступны:
Экономически эффективная разработка
Приобретение и обработка больших размеченных наборов данных, необходимых для контролируемого обучения, является дорогостоящим и отнимает много времени. Обучение модели на высококачественном размеченном наборе данных может стоить десятки тысяч долларов, помимо стоимости серверов, облачных вычислений и инженеров.
ZSL обещает снизить стоимость проектов ML, позволяя учреждениям перепрофилировать модели для новых задач без дополнительного обучения. Это также позволяет небольшим организациям или частным лицам перепрофилировать модели, созданные другими.
Решение проблем с дефицитом данных
Гибкость ZSL делает его хорошим инструментом для ситуаций, когда данных мало или когда данные все еще появляются. Например, это полезно для диагностики новых заболеваний, когда информация еще не получила широкого распространения, или в ситуациях стихийных бедствий, когда информация быстро меняется. ZSL также полезен для обнаружения аномалий, когда данные слишком значительны для обработки людьми-аналитиками.
Проблемы нулевого обучения
ZSL в значительной степени полагается на наличие высококачественных обучающих данных на этапе предварительного обучения, чтобы достаточно хорошо понять семантические отношения между категориями и обобщить их на новые. Без высококачественных данных ZSL может давать ненадежные результаты, которые иногда трудно оценить.
Общие проблемы, с которыми сталкиваются модели ZSL, включают проблемы с адаптацией к задачам, которые отличаются от задач, на которых они уже обучались, а также проблемы с обучающими данными, из-за которых они слишком сильно полагаются на определенные метки при прогнозировании невидимых классов.
Адаптация домена
Модели ZSL работают лучше всего, когда их просят работать с новыми данными из предметной области, которые не сильно отличаются от тех, на которых они обучались. Например, если модель обучалась на неподвижных фотографиях, ей будет сложно классифицировать видео.
Модели ZSL полагаются на сопоставление вспомогательной информации из неизвестных данных с известными данными, поэтому, если источники данных слишком различаются, у модели нет возможности обобщить свои знания для новой задачи.
Проблема с хабом
Проблема хабности в ZSL возникает, когда модель начинает использовать лишь несколько меток при прогнозировании невидимых категорий. Это происходит, когда многие точки во встроенном пространстве признаков группируются вместе, образуя «концентраторы», которые смещают модель в сторону определенных меток.
Это может произойти из-за шума в обучающих данных, слишком большого количества примеров одних типов данных и недостаточного количества других или из-за того, что семантические внедрения модели недостаточно различны.