Полуконтролируемое обучение: что это такое и как оно работает
Опубликовано: 2024-07-18В сфере машинного обучения полуконтролируемое обучение представляет собой умный гибридный подход, устраняющий разрыв между контролируемыми и неконтролируемыми методами за счет использования как размеченных, так и неразмеченных данных для обучения более надежных и эффективных моделей.
Оглавление
- Что такое полуконтролируемое обучение?
- Полуконтролируемое обучение против контролируемого и неконтролируемого обучения
- Как работает полуконтролируемое обучение
- Типы полуконтролируемого обучения
- Применение полуконтролируемого обучения
- Преимущества полуконтролируемого обучения
- Недостатки полуконтролируемого обучения
Что такое полуконтролируемое обучение?
Полуконтролируемое обучение — это тип машинного обучения (ML), который использует комбинацию помеченных и неразмеченных данных для обучения моделей. Полуконтролируемый означает, что модель получает указания из небольшого количества размеченных данных, где входные данные явно связаны с правильными выходными данными, а также из большего пула неразмеченных данных, которого обычно больше. Эти модели обычно находят начальную информацию в небольшом объеме размеченных данных, а затем дополнительно совершенствуют свое понимание и точность, используя более крупный пул неразмеченных данных.
Машинное обучение — это разновидность искусственного интеллекта (ИИ), которая использует данные и статистические методы для создания моделей, имитирующих человеческие рассуждения, а не полагается на жестко закодированные инструкции. Используя элементы контролируемого и неконтролируемого подходов, полуконтролируемый метод представляет собой отличный и мощный способ улучшить качество прогнозирования без обременительных инвестиций в маркировку людьми.
Полуконтролируемое обучение против контролируемого и неконтролируемого обучения
В то время как обучение с учителем опирается исключительно на размеченные данные, а обучение без учителя работает с полностью неразмеченными данными, обучение с учителем сочетает в себе эти два понятия.
Обучение под присмотром
Контролируемое обучение использует размеченные данные для обучения моделей конкретным задачам. Двумя основными типами являются:
- Классификация: определяет, к какому классу или группе принадлежит элемент.Это может быть бинарный выбор, выбор из нескольких вариантов или членство в нескольких группах.
- Регрессия: прогнозирует результаты на основе наиболее подходящей линии из существующих данных. Обычно используется для прогнозирования, например прогнозирования погоды или финансовых показателей.
Обучение без присмотра
Обучение без учителя позволяет выявить закономерности и структуры в немаркированных данных с помощью трех основных методов:
- Кластеризация: определяет группы точек, имеющих схожие значения.Они могут быть исключительными (каждая точка данных находится ровно в одном кластере), перекрывающимися (степени членства в одном или нескольких кластерах) или иерархическими (несколько уровней кластеров).
- Ассоциация: определяет, какие предметы чаще встречаются одновременно, например, товары, которые часто покупают вместе.
- Уменьшение размерности: упрощает наборы данных за счет сжатия данных до меньшего количества переменных, тем самым сокращая время обработки и улучшая способность модели к обобщению.
Полуконтролируемое обучение
Полуконтролируемое обучение использует как размеченные, так и неразмеченные данные для повышения производительности модели. Этот подход особенно полезен, когда маркировка данных требует больших затрат или времени.
Этот тип машинного обучения идеален, когда у вас есть небольшой объем помеченных данных и большой объем неразмеченных данных. Определив, какие немаркированные точки точно соответствуют помеченным, полуконтролируемая модель может создать более тонкие границы классификации или модели регрессии, что приведет к повышению точности и производительности.
Как работает полуконтролируемое обучение
Процесс полуконтролируемого обучения включает в себя несколько этапов, сочетающих в себе элементы как контролируемых, так и неконтролируемых методов обучения:
- Сбор и маркировка данных. Соберите набор данных, включающий небольшую часть помеченных данных и большую часть немаркированных данных.Оба набора данных должны иметь одинаковые функции, также известные как столбцы или атрибуты.
- Предварительная обработка и извлечение признаков: очистка и предварительная обработка данных, чтобы дать модели наилучшую основу для обучения: выборочная проверка для обеспечения качества, удаление дубликатов и ненужных признаков.Рассмотрите возможность создания новых функций, которые преобразуют важные функции в значимые диапазоны, отражающие изменения в данных (например, преобразование дат рождения в возраст) в процессе, известном как извлечение.
- Первоначальное контролируемое обучение: обучите модель, используя помеченные данные.Этот начальный этап помогает модели понять взаимосвязь между входными и выходными данными.
- Обучение без учителя. Применяйте методы обучения без учителя к немаркированным данным для выявления закономерностей, кластеров или структур.
- Уточнение модели. Объедините информацию из размеченных и неразмеченных данных для уточнения модели.Этот шаг часто включает в себя итеративное обучение и корректировки для повышения точности.
- Оценка и настройка. Оцените производительность модели, используя стандартные показатели контролируемого обучения, такие как точность, точность, отзыв и показатель F1.Точная настройка модели путем корректировки явных инструкций (известных как гиперпараметры) и повторной оценки до достижения оптимальной производительности.
- Развертывание и мониторинг: разверните модель для реального использования, постоянно отслеживайте ее производительность и обновляйте ее новыми данными по мере необходимости.
Типы полуконтролируемого обучения
Обучение с полуконтролем может быть реализовано с использованием нескольких методов, каждый из которых использует маркированные и немаркированные данные для улучшения процесса обучения. Вот основные типы, а также подтипы и ключевые понятия:
Самообучение
Самообучение, также известное как самообучение или самонавешивание ярлыков, является наиболее простым подходом. В этом методе модель, первоначально обученная на помеченных данных, прогнозирует метки для неразмеченных данных и записывает степень их достоверности. Модель итеративно переобучается, применяя свои наиболее достоверные прогнозы в качестве дополнительных помеченных данных — эти сгенерированные метки известны какпсевдометки. Этот процесс продолжается до тех пор, пока производительность модели не стабилизируется или не улучшится в достаточной степени.
- Начальное обучение: модель обучается на небольшом размеченном наборе данных.
- Прогнозирование меток. Обученная модель прогнозирует метки для немаркированных данных.
- Установление порога достоверности: выбираются только прогнозы, превышающие определенный уровень достоверности.
- Повторное обучение: выбранные псевдоразмеченные данные добавляются в обучающий набор, и модель повторно обучается.
Этот метод прост, но эффективен, особенно когда модель может делать точные прогнозы на раннем этапе. Однако если первоначальные прогнозы неверны, это может привести к усилению собственных ошибок. Используйте кластеризацию, чтобы убедиться, что псевдометки соответствуют естественным группировкам в данных.
Совместное обучение
Совместное обучение, обычно используемое для задач классификации, включает в себя обучение двух или более моделей на разных представлениях или подмножествах данных. Наиболее достоверные прогнозы каждой модели на основе немаркированных данных дополняют обучающий набор другой модели. Этот метод использует разнообразие нескольких моделей для улучшения обучения.
- Подход с двумя представлениями: набор данных разделен на два отдельных представления, то есть подмножества исходных данных, каждое из которых содержит разные функции.Каждое из двух новых представлений имеет одну и ту же метку, но в идеале они являются условно независимыми, а это означает, что знание значений в одной таблице не даст вам никакой информации о другой.
- Обучение модели: две модели обучаются отдельно для каждого представления с использованием помеченных данных.
- Взаимная маркировка: каждая модель прогнозирует метки для немаркированных данных, а лучшие прогнозы — либо все прогнозы, превышающие определенный порог достоверности, либо просто фиксированное число в верхней части списка — используются для переобучения другой модели.
Совместное обучение особенно полезно, когда данные можно просматривать в нескольких представлениях, предоставляющих дополнительную информацию, например, медицинские изображения и клинические данные, связанные с одним и тем же пациентом. В этом примере одна модель будет прогнозировать заболеваемость на основе изображения, а другая — на основе данных медицинской документации.
Этот подход помогает снизить риск усиления неверных прогнозов, поскольку две модели могут корректировать друг друга.
Генеративные модели
Генеративные модели изучают вероятность одновременного возникновения заданных пар входных и выходных данных, известную как совместное распределение вероятностей. Этот подход позволяет им генерировать новые данные, похожие на те, которые они уже видели. Эти модели используют помеченные и неразмеченные данные для определения основного распределения данных и улучшения процесса обучения. Как можно догадаться из названия, это основа генеративного ИИ, способного создавать текст, изображения и так далее.
- Генеративно-состязательные сети (GAN): GAN состоят из двух моделей: генератора и дискриминатора.Генератор создает синтетические точки данных, а дискриминатор пытается отличить эти синтетические точки данных от реальных данных. По мере их обучения генератор улучшает свою способность создавать реалистичные данные, а дискриминатор становится лучше выявлять фальшивые данные. Этот состязательный процесс продолжается, каждая модель стремится превзойти другую. GAN можно применять к полуконтролируемому обучению двумя способами:
- Модифицированный дискриминатор: вместо того, чтобы просто классифицировать данные как «поддельные» или «настоящие», дискриминатор обучен классифицировать данные по нескольким классам плюс поддельный класс.Это позволяет дискриминатору как классифицировать, так и различать.
- Использование немаркированных данных: дискриминатор оценивает, соответствует ли ввод помеченным данным, которые он видел, или является поддельной точкой данных от генератора.Эта дополнительная задача заставляет дискриминатор распознавать немаркированные данные по их сходству с маркированными данными, помогая ему изучить характеристики, которые делают их похожими.
- Вариационные автоэнкодеры (VAE): VAE выясняют, как кодировать данные в более простое абстрактное представление, которое они могут декодировать в максимально близкое представление исходных данных.Используя как помеченные, так и неразмеченные данные, VAE создает единую абстракцию, которая отражает основные характеристики всего набора данных и, таким образом, повышает его производительность при работе с новыми данными.
Генеративные модели — это мощные инструменты для полуконтролируемого обучения, особенно с обильными, но сложными неразмеченными данными, например, при языковом переводе или распознавании изображений. Конечно, вам нужны ярлыки, чтобы GAN или VAE знали, к чему стремиться.
Методы на основе графов
Методы на основе графов представляют точки данных в виде узлов на графике с различными подходами к пониманию и извлечению полезной информации о связях между ними. Некоторые из многих графических методов, применяемых в обучении с учителем, включают:
- Распространение меток: относительно простой подход, при котором числовые значения, известные как ребра, указывают на сходство между соседними узлами.При первом запуске модели немаркированные точки с наиболее сильными краями помеченной точки заимствуют метку этой точки. По мере того, как помечается больше точек, процесс повторяется до тех пор, пока не будут помечены все точки.
- Графовые нейронные сети (GNN): используют методы обучения нейронных сетей, такие как внимание и свертка, для применения знаний из помеченных точек данных к немаркированным, особенно в очень сложных ситуациях, таких как социальные сети и анализ генов.
- Автокодировщики графов. Подобно VAE, они создают единое абстрактное представление, которое фиксирует помеченные и немаркированные данные. Этот подход часто используется для поиска недостающих звеньев, то есть потенциальных связей, не отраженных на графике.
Методы на основе графов особенно эффективны для сложных данных, которые естественным образом образуют сети или имеют внутренние связи, например социальные сети, биологические сети и системы рекомендаций.
Применение полуконтролируемого обучения
Некоторые из многих применений полуконтролируемого обучения включают в себя:
- Классификация текста. Если у вас очень большой набор доступных данных, например, миллионы обзоров продуктов или миллиарды электронных писем, вам нужно пометить только часть из них.Полуконтролируемый подход будет использовать оставшиеся данные для уточнения модели.
- Анализ медицинских изображений. Время медицинских экспертов стоит дорого, и они не всегда точны.Дополнение анализа изображений, таких как МРТ или рентгеновские снимки, множеством немаркированных изображений может привести к созданию модели, которая равна или даже превосходит их точность.
- Распознавание речи. Транскрибирование речи вручную — утомительный и трудоемкий процесс, особенно если вы пытаетесь уловить множество диалектов и акцентов.Сочетание размеченных речевых данных с огромным количеством неразмеченного звука улучшит способность модели точно различать сказанное.
- Обнаружение мошенничества. Сначала обучите модель на небольшом наборе помеченных транзакций, выявляя известные случаи мошенничества и законные случаи.Затем добавьте больший набор немаркированных транзакций, чтобы выявить в модели подозрительные закономерности и аномалии, повысив ее способность выявлять новые или развивающиеся мошеннические действия в финансовых системах.
- Сегментация клиентов. Полуконтролируемое обучение может повысить точность за счет использования небольшого размеченного набора данных для определения начальных сегментов на основе определенных моделей и демографических данных, а затем добавления большего пула неразмеченных данных для уточнения и расширения этих категорий.
Преимущества полуконтролируемого обучения
- Экономичность: полуконтролируемое обучение снижает потребность в обширных маркированных данных, снижая затраты и усилия на маркировку, а также влияние человеческих ошибок и предвзятости.
- Улучшенные прогнозы. Объединение помеченных и неразмеченных данных часто приводит к лучшему качеству прогнозов по сравнению с обучением с учителем, поскольку оно предоставляет модели больше данных для обучения.
- Масштабируемость. Полуконтролируемое обучение хорошо подходит для реальных приложений, в которых тщательная маркировка нецелесообразна, например, для миллиардов потенциально мошеннических транзакций, поскольку оно обрабатывает большие наборы данных с минимальным количеством помеченных данных.
- Гибкость: сочетание сильных сторон контролируемого и неконтролируемого обучения делает этот подход адаптируемым ко многим задачам и областям.
Недостатки полуконтролируемого обучения
- Сложность: интеграция размеченных и неразмеченных данных часто требует сложных методов предварительной обработки, таких как нормализация диапазонов данных, вменение пропущенных значений и уменьшение размерности.
- Допущения: полуконтролируемые методы часто полагаются на предположения о распределении данных, например, точки данных в одном и том же кластере, заслуживающие одного и того же ярлыка, что не всегда может быть верным.
- Потенциал для шума. Немаркированные данные могут вносить шум и неточности, если их не обрабатывать должным образом с помощью таких методов, как обнаружение выбросов и проверка на соответствие маркированным данным.
- Сложнее оценить: без большого количества размеченных данных вы не получите много полезной информации от стандартных подходов к оценке контролируемого обучения.