Обучение без учителя: что это такое и как оно работает

Опубликовано: 2024-07-03

Разгадайте тайны обучения без учителя — революционной технологии, которая позволяет машинам стать автономными аналитиками данных, извлекая ценную информацию без вмешательства человека.

Оглавление

  • Что такое обучение без учителя?
  • Неконтролируемое и контролируемое обучение
  • Как работает обучение без учителя
  • Виды обучения без учителя
  • Применение обучения без учителя
  • Преимущества обучения без учителя
  • Недостатки обучения без учителя

Что такое обучение без учителя?

Обучение без учителя — это тип машинного обучения (МО), который самостоятельно находит закономерности и взаимосвязи в данных. Термин«неконтролируемый»означает, что модель использует немаркированные данные, то есть она не получает от людей инструкций о том, что искать, или даже указаний о том, на что она смотрит. Вместо этого он использует алгоритмы для оценки наборов данных и поиска корреляций, сходств, различий и других способов описания данных с помощью математики.

Машинное обучение — это разновидность искусственного интеллекта (ИИ), которая использует данные и статистические методы для создания моделей, имитирующих человеческие рассуждения, а не полагается на жестко закодированные инструкции. Обучение без учителя использует исследовательский подход, основанный на данных, для получения выводов из больших наборов данных, таких как группировка объектов по общим характеристикам или определение того, какие точки данных имеют тенденцию встречаться одновременно, что может быть реализовано как сортировка изображений лиственных деревьев от вечнозеленых или поиск что люди, которые транслируют«Улицу Сезам»,скорее всего, тоже посмотрятДэниела Тайгера.

Работайте умнее с Grammarly
Партнер по написанию ИИ для всех, у кого есть работа

Неконтролируемое и контролируемое обучение

В отличие от методов без учителя, обучение с учителем использует маркированные данные, которые сопоставляют входные данные с правильными выходными данными. И наоборот, обучение без учителя не имеет входных и выходных данных для интуитивного понимания модели, есть только данные для анализа.

Метки обеспечивают так называемый контроль процесса обучения модели, помогая ей провести обратный инжиниринг для получения правильного ответа на основе заданных входных данных. Использование обучения с учителем имеет смысл, когда у вас есть данные такого рода, к которым модель может стремиться и на основе которых можно экстраполировать, в том числе:

  • Решения «да» или «нет» , такие как обнаружение спама или мошенничества.
  • Классификация , например идентификация объектов на изображении или распознавание речи.
  • Прогнозирование , например цен на жилье или погоды.

Обучение без учителя, напротив, предназначено не для получения правильного ответа, а скорее для поиска закономерностей или группировок в данных. Три основных приложения:

  • Кластеризация , например сегментация клиентов или группировка документов.
  • Ассоциация , например системы рекомендаций или аномалии безопасности.
  • Уменьшение размерности , обычно используемое для сжатия больших наборов данных, чтобы сделать их более управляемыми.

Машинное обучение не ограничивается только контролируемыми или неконтролируемыми методами; это всего лишь два конца спектра. Другие типы методов машинного обучения включают полуконтролируемое обучение, обучение с подкреплением и самоконтролируемое обучение.

Как работает обучение без учителя

Обучение без учителя концептуально просто: алгоритмы обрабатывают большие объемы данных, чтобы определить, как связаны между собой различные точки данных. Поскольку данные не размечены, обучение без учителя не имеет контекста или цели. Это просто попытка найти закономерности и другие характеристики.

Вот краткий обзор процесса обучения без присмотра:

1 Сбор и очистка данных.При обучении без учителя за раз оценивается одна таблица, поэтому, если у вас есть несколько наборов данных, вам необходимо осторожно объединить их. Также важно максимально привести данные в порядок, например удалить дубликаты и исправить ошибки.

2 Масштабирование функций.Неконтролируемые алгоритмы могут быть сбиты с толку большими диапазонами, поэтому рассмотрите возможность преобразования функций в более узкие диапазоны, используя следующие методы:

  • Нормализация: преобразует верхнее значение в 1, наименьшее значение в 0, а все остальное в десятичное число.
  • Стандартизация: среднее значение указывается как 0, а стандартное отклонение — как 1, при этом каждая точка данных корректируется соответствующим образом.
  • Логарифмическое преобразование: сжимает широкие диапазоны, поэтому при логарифме по основанию 10 100 000 становится 6, а 1 000 000 становится 7.

3 Выбор алгоритма.Для каждого типа обучения без учителя существует несколько алгоритмов, каждый из которых имеет сильные и слабые стороны (мы рассмотрим их в следующем разделе). Вы можете применить разные алгоритмы к одному и тому же набору данных и сравнить.

4 Обнаружение и идентификация закономерностей.Выбранный алгоритм приступает к работе. Это может занять от нескольких секунд до нескольких часов, в зависимости от размера набора данных и эффективности алгоритма. Если у вас большой набор данных, вы можете запустить алгоритм на подмножестве, прежде чем обрабатывать его целиком.

5 Интерпретация.На этом этапе пришло время людям взять верх. Аналитик данных может использовать диаграммы, выборочные проверки и различные расчеты для анализа и интерпретации данных.

6 Приложение.Как только вы будете уверены, что получаете полезные результаты, используйте их. О некоторых применениях обучения без учителя мы поговорим позже.

Виды обучения без учителя

Существует несколько типов обучения без учителя, но наиболее широко используются три типа: кластеризация, правила ассоциации и уменьшение размерности.

Кластеризация

Кластеризация создает группы точек данных. Это действительно полезно для объединения элементов, похожих друг на друга, чтобы их позже можно было классифицировать с помощью человеческого анализа. Например, если у вас есть набор данных, который включает возраст клиента и среднюю сумму транзакции в долларах, он может найти кластеры, которые помогут вам решить, куда направить свои рекламные доллары.

Типы кластеризации включают в себя:

  • Эксклюзивная или жесткая кластеризация.Каждая точка данных может принадлежать только одному кластеру. Один популярный подход, известный как k-средние, позволяет вам указать, сколько кластеров вы хотите создать, хотя другие могут определить оптимальное количество кластеров.
  • Перекрытие или мягкая кластеризация. Этот подход позволяет точке данных находиться в нескольких кластерах и иметь «степень» членства в каждом, а не просто внутри или снаружи.
  • Иерархическая кластеризация. Если это делается снизу вверх, это называется иерархической агломеративной кластеризацией или HAC; Сверху вниз называется разделительной кластеризацией. Оба включают в себя множество кластеров, организованных во все более крупные кластеры.
  • Вероятностная кластеризация. Это другой подход, который определяет процентную вероятность того, что любая заданная точка данных принадлежит к любой категории. Одним из преимуществ этого подхода является то, что он может присвоить определенной точке данных очень низкую вероятность быть частью данного кластера, что может выявить аномальные или поврежденные данные.

Правила ассоциации

Этот подход, также известный как интеллектуальный анализ ассоциативных правил или изучение ассоциативных правил, позволяет обнаружить интересные взаимосвязи между точками данных. Чаще всего правила ассоциации используются для выяснения того, какие предметы обычно покупаются или используются вместе, чтобы модель могла предложить следующую вещь, которую стоит купить или показать для просмотра.

Три основные концепции ассоциативных правил:

  • Поддерживать.Как часто A и B встречаются вместе в процентах от всех доступных экземпляров (например, транзакций)? A и B могут быть отдельными элементами или наборами, представляющими несколько элементов.
  • Уверенность. Как часто случается так, что если видят А, то видят и Б?
  • Поднимать. Какова вероятность того, что A и B будут видны вместе, по сравнению с ситуацией, когда корреляции не было бы? Лифт – это мера «интересности» ассоциации.

Уменьшение размерности

Уменьшение размерности соответствует количеству столбцов в таблице. Другими терминами для столбцов в этом контексте являютсяфункцииилиатрибуты. По мере роста количества функций в наборе данных анализ данных и достижение оптимальных результатов становится все более сложной задачей.

Для обработки многомерных данных требуется больше времени, вычислительной мощности и энергии. Это также может привести к получению некачественных результатов. Одним из особенно пагубных примеров является переобучение, тенденция моделей машинного обучения учиться слишком многому на деталях обучающих данных за счет более широких закономерностей, которые хорошо обобщаются на новые данные.

Алгоритмы уменьшения размерности создают упрощенные наборы данных путем сжатия исходных данных в более мелкие, более управляемые версии, сохраняющие наиболее важную информацию. Они работают путем объединения коррелирующих функций и выявления отклонений от общей тенденции, эффективно сокращая количество столбцов без потери ключевых деталей.

Например, если у вас есть набор данных об отелях и их удобствах, модель может обнаружить, что многие функции коррелируют с звездным рейтингом, поэтому она может сжать такие атрибуты, как спа-центр, обслуживание номеров и круглосуточную стойку регистрации, в один столбец.

Обычно инженеры уменьшают размерность на этапе предварительной обработки, чтобы улучшить производительность и результаты других процессов, включая, помимо прочего, кластеризацию и изучение правил ассоциации.

Применение обучения без учителя

Вот некоторые примеры:

  • Анализ потребительской корзины.Розничные торговцы широко используют правила ассоциации. Например, если вы положили хот-доги в корзину для покупок, она может предложить вам купить кетчуп и булочки для хот-догов, потому что другие покупатели увидели высокий рост от этих комбинаций. Те же данные могут привести к тому, что они будут ставить в супермаркете кетчуп и хот-доги рядом друг с другом.
  • Рекомендательные двигатели. Они изучают ваши личные данные — демографические данные и модели поведения — и сравнивают их с данными других, чтобы угадать, что вам может понравиться купить или посмотреть в следующий раз. Они могут использовать три типа обучения без учителя: кластеризацию, чтобы определить, какие шаблоны поведения других клиентов могут предсказать ваши, правила ассоциации, чтобы найти корреляции между определенными действиями или покупками, и уменьшение размерности, чтобы упростить обработку сложных наборов данных.
  • Сегментация клиентов. В то время как маркетологи делили свою аудиторию на названные категории на протяжении десятилетий, неконтролируемая кластеризация может выделить группы, о которых, возможно, не думал ни один человек. Этот подход позволяет проводить анализ на основе поведения и может помочь командам по-новому нацелить сообщения и рекламные акции.
  • Обнаружение аномалий.Поскольку оно очень хорошо понимает закономерности, обучение без учителя часто используется для предупреждения об отклонениях от нормы. Использование включает в себя маркировку мошеннических покупок по кредитным картам, поврежденных данных в таблицах и возможностей арбитража на финансовых рынках.
  • Распознавание речи.Компьютерам сложно анализировать речь, поскольку им приходится бороться с фоновым шумом, акцентами, диалектами и голосами. Обучение без учителя помогает механизмам распознавания речи узнать, какие звуки соотносятся с какими фонемами (единицами речи) и какие фонемы обычно слышны вместе, а также фильтровать фоновый шум и другие улучшения.

Преимущества обучения без учителя

  • Низкое участие человека.Как только система обучения без присмотра окажется надежной, ее запуск не потребует особых усилий, кроме обеспечения правильной маршрутизации входных и выходных данных.
  • Работает с необработанными данными. Нет необходимости предоставлять метки, то есть указывать, какой результат должен быть результатом данного ввода. Эта возможность обрабатывать данные в том виде, в каком они поступают, чрезвычайно ценна при работе с огромными объемами нетронутых данных.
  • Открытие скрытых закономерностей. Не имея никакой цели или плана, кроме поиска закономерностей, обучение без учителя может указать вам на «неизвестное известное» — выводы, основанные на данных, которые вы ранее не рассматривали, но которые имеют смысл после их представления. Этот подход особенно полезен для поиска иголок в стогах сена, например, для анализа ДНК на предмет причины гибели клеток.
  • Исследование данных. За счет уменьшения размерности и поиска закономерностей и кластеров обучение без учителя дает аналитикам преимущество в понимании новых наборов данных.
  • Инкрементное обучение. Многие модели без присмотра могут учиться по ходу дела: по мере поступления новых данных они могут оценить последние входные данные по отношению к тому, что они уже обнаружили. Это требует гораздо меньше времени и вычислительных усилий.

Недостатки обучения без учителя

  • Вам нужно много данных.Обучение без учителя чревато большими ошибками, если обучение проводится на ограниченном количестве примеров. Он может обнаружить закономерности в данных, которые не соответствуют реальному миру (переобучение), резко измениться при появлении новых данных (нестабильность) или не иметь достаточно информации для определения чего-либо значимого (ограниченное обнаружение закономерностей).
  • Низкая интерпретируемость. Может быть трудно понять, почему алгоритм, например логика кластеризации, пришел к определенному выводу.
  • Ложные срабатывания. Неконтролируемая модель может слишком много считывать аномальные, но неважные точки данных без меток, указывающих на то, что заслуживает внимания.
  • Трудно дать систематическую оценку.Поскольку не существует «правильного» ответа для сравнения, не существует прямого способа измерить точность или полезность результатов. Проблему можно несколько смягчить, запустив разные алгоритмы на одних и тех же данных, но в конечном итоге показатель качества будет во многом субъективным.