Трансферное обучение: ярлык в умнее, более быстрое развитие ИИ

Опубликовано: 2025-02-04

Повторное использование и адаптация предварительно обученных моделей ИИ меняет задачи машинного обучения (ML). Переносное обучение является эффективным и экономически эффективным методом для адаптации крупных и сложных систем ИИ к новым областям и проблемам. В этом руководстве мы рассмотрим ключевые аспекты обучения передачи: как оно работает, его различные типы и приложения, а также его преимущества и проблемы.

Оглавление

Что такое переносное обучение?
Как работает Transfer Learning?
Перенос обучения против тонкой настройки
Типы обучения передачи
Преимущества обучения передачи
Проблемы перевода обучения
Применения трансферного обучения

Что такое переносное обучение?

Transfer Learning-это мощный метод машинного обучения, которая использует предварительно обученную модель для другой, но связанной задачи. Он использует общие знания, полученные в существующей модели в качестве основы, чтобы узнать, как решать проблемы в более конкретных связанных доменах.

Transfer Learning предлагает несколько преимуществ: он ускоряет разработку и развертывание приложений индивидуального искусственного интеллекта (ИИ), снижает затраты на ресурсы и часто обеспечивает лучшую производительность, чем построение модели с нуля. В результате, передача обучения особенно ценным для организаций, стремящихся разработать специализированные решения искусственного интеллекта без огромных объемов данных или вычислительной мощности, обычно требуемой для обучения модели с нуля.

Работать умнее с грамматикой

Партнер по написанию искусственного интеллекта для всех, у кого есть работа

Пример обучения передачи

Рассмотрим пример производителя, который хочет создать систему ИИ для обнаружения дефектов продукта. Одним из вариантов является нанятие специализированных практикующих ML, собирать и курировать миллионы соответствующих изображений продукта и выделить время и вычислительные ресурсы, необходимые для обучения модели с нуля. Transfer Learning представляет гораздо лучший вариант: вместо этого производитель может начать с модели, которая уже завершила дорогостоящее и трудоемкое обучение для большого стандартизированного набора данных изображения, такого как ImageNet. Затем производитель может быстро и эффективно использовать обучение передачи для адаптации модели для обнаружения дефектов в определенных изображениях продуктов.

Как работает Transfer Learning?

Трансферный обучение адаптирует общие знания модели с новой, связанной задачей. Процесс обычно включает в себя три ключевых шага:

Выбор соответствующей предварительно обученной модели
Обновление архитектуры модели
Обучение модели по новым данным

1. Выберите предварительно обученную модель

Первым шагом является выбор модели, которая уже была обучена набору данных в домене, связанном с целевой задачей. Предварительно обученная модель должна была выучить общие и высокие функции, относящиеся к новому приложению.

Пример в здравоохранении:организация здравоохранения может начать с модели, предварительно обученного набору данных NIH (Национальный институт здравоохранения) Spekx-Ray14, который содержит обширную набор маркированных медицинских изображений. Модель изучила бы общие функции, такие как рентгеновские изображения, структурированы и как биологические свойства коррелируют с компонентами изображения. Эта модель может служить основой для разработки диагностических инструментов для конкретных состояний, расположенных в области груди и видимых на рентгеновских изображениях, таких как пневмония или рак легких.
Пример в финансах:Финансовое предприятие может использовать Finbert, модель, предварительно обученную финансовым документам, вызовы доходов и нормативно-правовые документы. Модель узнала бы общие функции, такие как структура финансового языка и конкретные термины, указывающие на рыночные настроения и эффективность бизнеса. Модель Финберта может послужить основой для более специализированных функциональных возможностей, таких как автоматическое помещение в отношении заявлений в отчетах о доходах.

Выбор правой предварительно обученной модели включает в себя обеспечение того, чтобы ее первоначальное обучение хорошо соответствовало предполагаемому применению, поскольку это увеличивает вероятность успешной адаптации.

2. Изменение модельной архитектуры

После того, как выбрана подходящая предварительно обученная модель, ее архитектура адаптирована в соответствии с новой задачей. Этот шаг обычно включает в себя:

Замена выходных слоев:конечные слои предварительно обученной модели, предназначенные для исходной задачи, удаляются и заменяются новыми специфическими слоями (например, полностью подключенными уровнями для классификации).
Сохранение общих черт:внутренние слои, которые отражают обобщаемые шаблоны, такие как края в изображениях или лингвистические отношения в тексте, часто сохраняются. Эти функции могут эффективно перенесены на связанные задачи.

Степень архитектурной модификации зависит от конкретного случая использования и степени сходства между исходными и целевыми задачами.

3. Обучение модели по новым данным

На последнем этапе модифицированная модель обучается на наборе данных, адаптированном для новой задачи. К этому шагу можно приблизиться двумя основными способами, в зависимости от размера набора данных и сходства между задачами:

Извлечение функций:
- Только недавно добавленные слои обучаются, в то время как исходные слои остаются неизменными.
- Этот метод идеален, когда новая задача тесно связана с исходной задачей или когда целевой набор данных невелик.
Тонкая настройка:
- Вся модель переподходит, но с меньшим набором данных и скоростью обучения, чтобы не потерю ценных особенностей, изученных на этапе предварительного обучения.
- Этот подход лучше подходит для больших наборов данных или когда новая задача значительно отличается от исходной задачи.

Независимо от этого подхода, цель состоит в том, чтобы разоблачить модель достаточным соответствующим данным, что позволяет эффективно изучать и обобщать новое приложение.

Перенос обучения против тонкой настройки

Передача обучения часто путается с точной настройкой. Хотя концепции тесно связаны, есть заметные различия. Самое главное, что переносное обучение-это общий процесс адаптации предварительно обученной модели для новой цели и может или не может включать точную настройку. С другой стороны, тонкая настройка является одним из нескольких методов, используемых для переподготовки некоторых или всех параметров модели как часть общего процесса обучения передачи. Точная настройка-это не просто подмножество перевода обучения; Он имеет приложения в других контекстах в ML за пределами трансферного обучения, такие как улучшение производительности модели на конкретных подгруппах данных или адаптация модели к смещению распределений данных.

Кроме того, обучение передачи обычно требует фактических изменений в архитектуре модели, таких как удаление и замена существующих слоев или реструктуризация соединений между слоями. Напротив, тонкая настройка, как правило, включает в себя небольшие, точные регулировки параметров без существенных изменений в архитектуре.

Подумайте о переносе обучения как об ремонте здания, разработанного для одной цели, чтобы его можно было использовать для другой, например, преобразование гаража в квартиру. Это, вероятно, будет включать в себя структурные обновления, такие как установка окон и изоляции или даже добавление новых номеров и утилит. Точная настройка, с другой стороны, больше похожа на использование гаража в качестве дополнительного рабочего пространства, не внося основных изменений в структуре. Например, огни могут быть заменены, и могут быть добавлены новые полки, но общая структура и архитектура гаража остаются неизменными.

Типы обучения передачи

Переносное обучение может принимать несколько форм, каждая из которых подходит для конкретных сценариев. Соответствующий тип зависит от таких факторов, как доступность помеченных данных в целевой области, сходство между исходными и целевыми задачами и конкретные бизнес -требования. Основными типами обучения переноса являются индуктивное обучение переноса,обучение трансдуктивной передачеинеконтролируемое обучение передачи. Кроме того, современные подходы, такие какнесколько выстреловинулевое обучение,часто используют методы обучения передачи.

Индуктивный перевод обучения

Индуктивное обучение переноса является наиболее распространенным типом обучения передачи и используется, когда задачи цели и исходного источника тесно связаны и очень разные.

Пример:организация здравоохранения может использовать Transfer Learning для адаптации модели, обученной классификации общих изображений МРТ для обнаружения конкретных заболеваний мозга.

В этом сценарии требуются общие возможности общих возможностей визуального распознавания модели исходной модели, но требуются помеченные данные в целевом домене. Переносное обучение особенно эффективно для задач, где доступны новые этикетки, но сама задача отличается от (и, как правило, более специализированной версии) источника.

Трансдуктивный перевод обучение

При обучении трансдуктивной передаче задачи источника и целевых задач одинаковы, но проблема проблемной.

Пример:спам-фильтр, обученный на английском языке, может быть адаптирован для классификации французских электронных писем. В этом сценарии распознавание текстовой модели исходной модели и понимание структуры электронной почты хорошо передает целевую задачу, даже если словарный запас и языковые шаблоны различаются. Задача (классификация электронной почты) остается неизменной, но данные (язык) отличаются. Этот подход полезен, когда исходный домен имеет изобильные помеченные данные, а целевой домен имеет мало или нет.

Неконтролируемое обучение передачи

Неконтролируемое обучение передачи используется, когда помеченные данные недоступны в целевой области. Как правило, этот тип обучения передачи используется для обучения моделей для выполнения неконтролируемых задач, таких как кластеризация или уменьшение размерности.

Пример:ИТ-организация может использовать неконтролируемое трансферное обучение, чтобы помочь системе обнаружения угроз, способствующей ИИ, определить новые типы угроз без помеченных примеров.

В этом случае модель может перенести свое общее понимание нормальных закономерностей по сравнению с потенциальными угрозами новым, ранее неизвестным типам угроз.

Несколько выстрелов

Несколько выстрелов (FSL)-это метод ML, который использует Transfer Learning, чтобы помочь модели учиться на очень ограниченных данных. В FSL модели учатся выполнять новые задачи или классификации, используя всего несколько примеров.

Пример:модель распознавания лица может идентифицировать нового человека на основе только одной или двух фотографий.

Нулевое обучение

Zero-Shot Learning (ZSL)-это метод ML, который помогает модели изучать новые классы, которые не можно увидеть на обучении. ZSL часто использует концепции Transfer Learning, но полагается на семантические отношения и вспомогательную информацию, чтобы обобщить изученные знания для новых категорий.

Пример:модель может научиться распознавать тилапию, основанную на ее понимании других видов рыбы и ее знания, что тилапия - это тип рыбы, несмотря на то, что во время тренировки никогда не видели тилапию.

Преимущества обучения передачи

Transfer Learning предоставляет несколько преимуществ для организаций, стремящихся разработать индивидуальные решения для ИИ. К ним относятся сниженные требования к разработке и ресурсам, хорошая производительность с ограниченными данными и улучшенную модель.

Сокращенные требования к разработке и ресурсам

Переносное обучение - отличный способ одновременно сократить цикл разработки и сократить требования к ресурсам для приложений для искусственного интеллекта. Построение модели с нуля включает в себя сбор, очистку и маркировку данных - и это еще до начала обучения. С обучением передачи, развитие и развертывание становятся в течение нескольких недель или даже дней вместо месяцев. Обучение модели с нуля часто требует значительного вычислительного времени и мощности, тогда как переносное обучение нет. Это означает, что организации могут принести свои решения в области искусственного интеллекта на рынок быстрее и с меньшими затратами.

Хорошая производительность с ограниченными данными

Передаточное обучение позволяет моделям хорошо работать, даже с ограниченными наборами данных обучения. Это чрезвычайно полезно для организаций в специализированных областях, таких как производство или здравоохранение, где маркированные данные трудно найти или дорого закупить. Например, организация здравоохранения может иметь только несколько сотен маркированных примеров конкретных заболеваний, но может использовать переносное обучение для построения системы эффективности обнаружения независимо от.

Улучшенная модель надежность и надежность

Несмотря на то, что это может показаться неинтуированным, модели, обучаемые с помощью обучения передачи, часто обобщаются лучше, чем модели, обученные с нуля на ограниченных данных. Это связано с тем, что крупномасштабные наборы данных, используемые для предварительного обучения, предоставляют разнообразные модели и функции, которые можно обобщать для более конкретных доменов и задач. Кроме того, начиная с модели, которая уже была протестирована, снижает риск отказа модели и повышает надежность. Это снижение снижения риска важно в регулируемых отраслях, таких как здравоохранение и финансы.

Проблемы перевода обучения

Несмотря на многочисленные преимущества, Transfer Learning также имеет несколько проблем и ограничений. Организации должны понимать эти проблемы, чтобы они могли разработать правильную стратегию реализации и иметь реалистичные ожидания. Эти проблемы включают негативную перенос, несоответствие доменов и выбор модели.

Отрицательная передача

При отрицательной передаче знания из исходного домена препятствуют изучению целевой задачи и приводят к предварительно обученной модели, работающей хуже, чем одна обученная с нуля. Это одна из наиболее распространенных проблем с обучением передачи и обычно возникает, когда целевые и исходные домены слишком разные. Например, модель компьютерного зрения, обученная классифицировать породы собак на изображениях, вероятно, будет работать плохо, если она адаптирована к анализу медицинского изображения, поскольку изученные особенности не имеют отношения к новой задаче. Особенности, которые помогают различать породы собак, такие как текстура меха, длина хвоста и форма уха, не имеют значимого применения при попытке классифицировать медицинские сканирования. Организации должны тщательно сравнить исходные и целевые домены, чтобы избежать негативной передачи.

Несоответствие домена

Несоответствие доменов происходит, когда различия между данными, доступными для источника и целевых доменов, снижают производительность модели. Эти различия могут включать варианты качества или распределения данных. В отличие от негативного переноса, модель, страдающая от несоответствия доменов, все еще может работать лучше, чем одна из них с нуля. Например, модель, обученная большому, разнообразному набору данных кошачьих изображений, не преуспеет в идентификации собак. Тем не менее, модель по -прежнему будет добиться большего успеха в целом, чем модель, обученная небольшому набору изображений собак.

Выбор и модификация модели

Выбор соответствующей предварительно обученной модели и выяснение того, как ее модифицировать, может быть сложным и трудоемким. Организации должны рассмотреть все виды факторов, включая выравнивание между источниками и целевыми областями, доступной инфраструктурой и персоналом ресурсов, размером и качеством набора обучения и архитектурой моделей. Кроме того, предварительно обученные модели часто создаются с учетом предположений и зависимостей, которые могут быть не сразу очевидны. Выбор соответствующей модели и внесение правильных модификаций требуют опыта, времени для экспериментов и инфраструктуры, к которой могут быть доступны не все организации.

Применения трансферного обучения

Переносное обучение - более простой и более надежный способ создания систем ИИ для конкретных задач или доменов, чем создание новой модели. Впоследствии этот метод обнаружил широкое распространение и имеет многочисленные приложения, включая компьютерное зрение, обработку естественного языка (NLP), а также распознавание речи и поколение.

Компьютерное зрение

Передача обучения было очень успешным в компьютерном видении. Организации могут создавать пользовательские приложения Vision относительно легко, используя предварительно обученные модели зрения, которые изучали обобщаемые функции из миллионов изображений. Например, безопасная фирма может адаптировать предварительно обученную модель компьютерного зрения для обнаружения подозрительного поведения в подачах наблюдения или определить конкретные объекты, представляющие интерес, все без огромных объемов обучающих данных или специализированной разработки модели.

Обработка естественного языка (NLP)

Основным применением обучения трансферу является обучение модели для выполнения конкретных задач NLP. Например, юридическая фирма может выбрать предварительно обученную модель NLP в качестве основы для инструмента анализа документов, а затем научить модель обработать конкретные правовые домены с использованием трансферного обучения.

Распознавание речи и поколение

Переносное обучение также используется для обучения моделей для специализированных речевых приложений. Например, колл-центр может адаптировать обобщенную речевую модель для понимания отраслевой терминологии и создания более адаптированной автоматизированной системы обслуживания клиентов. Другим примером будет использование Transfer Learning для адаптации модели голосовой команды, обученной для общих языковых задач для обработки определенных диалектов и языков.