Что такое логистическая регрессия в машинном обучении?

Опубликовано: 2024-10-04

Логистическая регрессия — краеугольный метод статистического анализа и машинного обучения (МО). В этом подробном руководстве объясняются основы логистической регрессии и обсуждаются различные типы, реальные приложения, а также преимущества и недостатки использования этого мощного метода.

Оглавление

  • Что такое логистическая регрессия?
  • Виды логистической регрессии
  • Логистическая и линейная регрессия
  • Как работает логистическая регрессия
  • Приложения
  • Преимущества
  • Недостатки

Что такое логистическая регрессия?

Логистическая регрессия, также известная как логит-регрессия или логит-модель, представляет собой тип алгоритма обучения с учителем, используемый для задач классификации, особенно для прогнозирования вероятности двоичного результата (т. е. двух возможных классов). Он основан на одноименных статистических методах, которые оценивают вероятность наступления конкретного события. Например, логистическую регрессию можно использовать для прогнозирования вероятности того, что электронное письмо является спамом или что клиент совершит покупку или покинет веб-сайт.

Модель оценивает соответствующие свойства события (называемые «переменными-предикторами» или «особенностями»). Например, если событием является «прибытие электронного письма», соответствующие свойства могут включать IP-адрес источника, адрес электронной почты отправителя или рейтинг читаемости контента. Он моделирует взаимосвязь между этими предикторами и вероятностью результата с помощью логистической функции, которая имеет следующую форму:

ж (х) знак равно 1 / ( 1 + е )

Эта функция выводит значение от 0 до 1, обозначающее предполагаемую вероятность события (может быть написано: «С вероятностью 80% это письмо является спамом»).

Логистическая регрессия широко используется в машинном обучении, особенно для задач двоичной классификации. Сигмовидная функция (тип логистической функции) часто используется для преобразования выходных данных любой модели двоичной классификации в вероятность. Хотя логистическая регрессия проста, она служит основой для более сложных моделей, таких как нейронные сети, где аналогичные логистические функции используются для моделирования вероятностей. Терминлогит-модельотносится к моделям, которые используют эту логит-функцию для сопоставления входных признаков с прогнозируемыми вероятностями.

Работайте умнее с Grammarly
Партнер по написанию ИИ для всех, у кого есть работа

Виды логистической регрессии

Существует три основных типа логистической регрессии: бинарная, полиномиальная и порядковая.

Бинарная логистическая регрессия

Это стандартная и наиболее распространенная форма логистической регрессии, также известная как бинарная регрессия. Когда терминлогистическая регрессияиспользуется без уточнений, он обычно относится к этому типу. Название «двоичный» происходит от того факта, что он учитывает ровно два результата; его можно рассматривать как ответ на вопросы «да» или «нет». Бинарная регрессия может справиться с более сложными вопросами, если их переформулировать в виде цепочек «да» или «нет» или бинарных вопросов.

Пример:представьте, что вы рассчитываете шансы трех взаимоисключающих вариантов: уйдет ли клиент (т. е. перестанет использовать продукт), подпишется на бесплатную версию услуги или подпишется на платную премиум-версию. Цепная бинарная регрессия может решить эту проблему, ответив на следующую цепочку вопросов:

  • Уйдет ли клиент (да или нет)?
  • Если нет, подпишется ли клиент на бесплатную услугу (да или нет)?
  • Если нет, подпишется ли клиент на платную премиум-услугу (да или нет)?

Полиномиальная логистическая регрессия

Эта форма логистической регрессии, также известная как полиномиальная регрессия, является расширением бинарной регрессии, которая может отвечать на вопросы с более чем двумя потенциальными результатами. Это позволяет избежать необходимости связывать вопросы в цепочку для решения более сложных проблем. Полиномиальная регрессия предполагает, что вычисляемые шансы не имеют каких-либо взаимозависимостей или порядка и что набор рассматриваемых вариантов охватывает все возможные исходы.

Пример.Полиномиальная регрессия хорошо работает при прогнозировании того, какой цвет покупатель, скорее всего, захочет для автомобиля, который он покупает, из списка доступных цветов. Однако он не очень хорошо работает для расчета шансов, когда порядок имеет значение, например, для оценки зеленого, желтого и красного цветов как тегов серьезности для проблемы поддержки клиентов, где проблема всегда начинается с зеленого цвета и может быть повышена до желтого, а затем красный (желтый всегда следует за зеленым, а красный всегда следует за желтым).

Порядковая логистическая регрессия

Эта специализированная форма логистической регрессии, также известная как модель пропорциональных шансов для регрессии, предназначена для порядковых значений — ситуаций, когда относительный порядок результатов имеет значение. Порядковая логистическая регрессия используется, когда результаты имеют естественный порядок, но расстояния между категориями неизвестны.

Пример:его можно использовать для расчета вероятности того, что гость отеля скорее всего оценит свое пребывание по пятибалльной шкале: очень плохо, плохо, нейтрально, хорошо и очень хорошо. Относительный порядок важен: плохое всегда хуже нейтрального, и важно отметить, в каком направлении будут двигаться отзывы по шкале. Когда порядок имеет значение, порядковая регрессия может дать количественную оценку взаимосвязей между значениями, шансы которых рассчитываются (например, она может обнаружить, что плохое имеет тенденцию проявляться вдвое реже, чем нейтральное).

Логистическая регрессия против линейной регрессии

Хотя логистическая регрессия и линейная регрессия различаются, они часто появляются в схожих контекстах, поскольку они являются частью более крупного связанного набора математических инструментов. Логистическая регрессия обычно рассчитывает вероятности для дискретных результатов, тогда как линейная регрессия вычисляет ожидаемые значения для непрерывных результатов.

Например, если кто-то попытается предсказать наиболее вероятную температуру на день в будущем, модель линейной регрессии станет хорошим инструментом для этой работы. Модели логистической регрессии, напротив, пытаются рассчитать или предсказать шансы для двух или более вариантов из фиксированного списка вариантов. Вместо прогнозирования конкретной температуры модель логистической регрессии может дать вероятность того, что конкретный день попадет в диапазон теплых, комфортных или холодных температур.

Поскольку они созданы для решения отдельных вариантов использования, две модели делают разные предположения о статистических свойствах прогнозируемых ими значений и реализуются с помощью разных статистических инструментов. Логистическая регрессия обычно предполагает статистическое распределение, применимое к дискретным значениям, например распределение Бернулли, тогда как линейная регрессия может использовать распределение Гаусса. Логистическая регрессия для эффективной работы часто требует больших наборов данных, в то время как линейная регрессия обычно более чувствительна к влиятельным выбросам. Кроме того, логистическая регрессия делает предположения о структуре рассчитываемых шансов, тогда как линейная регрессия делает предположения о том, как ошибки распределяются в наборе обучающих данных.

Различия между этими моделями заставляют их работать лучше в своих конкретных идеальных сценариях использования. Логистическая регрессия будет более точной для прогнозирования категориальных значений, а линейная регрессия будет более точной при прогнозировании непрерывных значений. Однако эти два метода часто путают друг с другом, поскольку их результаты можно перепрофилировать с помощью простых математических вычислений. Выходные данные модели логистической регрессии после преобразования можно применять к тем же типам задач, что и выходные данные линейной модели, экономя на затратах на обучение двух отдельных моделей. Но это тоже не сработает; то же самое верно и наоборот.

Как работает логистическая регрессия?

Логистическая регрессия, своего рода контролируемый алгоритм обучения, зависит от обучения на хорошо аннотированных наборах данных. Наборы данных обычно содержат списки представлений объектов, соответствующие ожидаемым результатам модели для каждого из них.

Чтобы получить более четкое понимание логистической регрессии, важно сначала усвоить следующую ключевую терминологию:

  • Переменные-предикторы:свойства или особенности, учитываемые логистической моделью при расчете шансов на исход. Например, переменные-предсказатели для оценки вероятности того, что клиент купит продукт, могут включать демографические данные и историю просмотров.
  • Представление функции:конкретный экземпляр переменных-предикторов. Например, если переменными-предикторами являются «почтовый индекс», «штат» и «группа доходов», одним представлением признака может быть «90210», «Калифорния» и «75 тыс.+/год».
  • Функция связи:математическая функция, лежащая в основе модели регрессии, которая связывает переменные-предикторы с шансами на конкретный результат. Функция будет следовать шаблону:

θ = b(μ)

где θ— шансы для прогнозирования по категории,b— конкретная функция (обычно S-образная функция, называемая сигмоидой), аμпредставляет прогнозируемое значение (из непрерывного диапазона значений).

  • Логистическая функция:конкретная функция связи, используемая в логистической регрессии, определяемая как

σ ( Икс ) знак равно1 / ( 1 +е)

Он нормализует выходные данные до вероятности от 0 до 1, преобразуя пропорциональные изменения переменных-предикторов, основанные на умножении, в последовательные аддитивные изменения шансов.

  • Логит-функция:обратная логистической функции, преобразующая значения вероятности в логарифм шансов, которая помогает объяснить, как переменные-предикторы связаны с шансами на результат. Это помогает объяснить, как переменные-предикторы связаны с вероятностью исхода. Это определяется как:

логит р знак равноσ ( п ) -1знак равно ln ( п / ( 1 – п ) )

Для заданных коэффициентов pон выполняет обратную логистическую функцию.

  • Логарифмические потери:также известные как перекрестные энтропийные потери или логистические потери. Они измеряют разницу между прогнозируемыми вероятностями и фактическими результатами в классификационных моделях. Для бинарной классификации ее часто называют «двоичной кросс-энтропией».

В основе процесса логистической регрессии лежит решение, какую функцию связи использовать. Для бинарной логистической регрессии это всегда будет логистическая функция. В более сложных регрессиях будут использоваться другие виды сигмовидных функций; одна из самых популярных сигмовидных функций известна как softmax и очень часто используется в моделях машинного обучения и в случаях использования полиномиальной регрессии.

Во время обучения система также будет зависеть от функции потерь, которая рассчитывает, насколько хорошо работает регрессия или ее соответствие. Цель систем можно рассматривать как сокращение расстояния между предсказанным результатом или шансами и тем, что происходит в реальном мире (иногда это расстояние называют «сюрпризом»). Для логистической регрессии функция потерь является разновидностью очень популярной функции логарифмических потерь.

Для обучения модели логистической регрессии можно использовать различные стандартные алгоритмы обучения ML, включая градиентный спуск, оценку максимального правдоподобия и стохастический градиентный спуск.

Применение логистической регрессии в машинном обучении

Модели машинного обучения логистической регрессии обычно используются для задач классификации или для прогнозирования классов на основе частичной информации. Варианты использования охватывают множество областей, включая финансы, здравоохранение, эпидемиологию и маркетинг. Двумя наиболее известными приложениями являются обнаружение спама в электронной почте и медицинская диагностика.

Обнаружение спама в электронной почте

Логистическая регрессия может быть эффективным инструментом для классификации сообщений, например, для идентификации электронных писем как спама или нет, хотя в сложных случаях часто используются более продвинутые методы. Адрес отправителя, пункт назначения, текстовое содержимое сообщения, IP-адрес источника и т. д. — все свойства электронного письма — могут быть помечены как переменные-предсказатели и учтены при определении вероятности того, что данное электронное письмо является спамом. Инструменты фильтрации спама в электронной почте быстро обучают и обновляют двоичные логистические модели новых сообщений электронной почты, а также быстро обнаруживают и реагируют на новые стратегии спама.

Более продвинутые версии спам-фильтров предварительно обрабатывают электронные письма, чтобы их было легче идентифицировать как спам. Например, сценарий может добавить процент электронных писем, помеченных как спам для IP-адреса отправителя в электронном письме, и регрессия может принять во внимание эту информацию.

Медицинский диагноз

Модели логистической регрессии обычно используются для диагностики таких заболеваний, как диабет и рак молочной железы. Они учатся и опираются на анализ, проведенный врачами и медицинскими исследователями.

Для диагностики с большим количеством изображений, такой как обнаружение рака, медицинские исследователи и специалисты создают наборы данных на основе различных тестов, изображений и сканирований. Затем эти данные обрабатываются и преобразуются в списки текстовых оценок. Изображение может быть проанализировано на такие детали, как плотность пикселей, количество и средний радиус различных кластеров пикселей и т. д. Эти измерения затем включаются в список переменных-предсказателей, которые включают результаты других тестов и оценок. Системы логистической регрессии учатся на их основе и прогнозируют, будет ли у пациента диагностирован рак.

Помимо прогнозирования медицинского диагноза с высокой точностью, системы логистической регрессии также могут указывать, какие результаты тестов наиболее важны для его оценки. Эта информация может помочь определить приоритетность тестов для нового пациента, ускоряя процесс диагностики.

Преимущества логистической регрессии в ML

Логистическую регрессию часто предпочитают из-за ее простоты и интерпретируемости, особенно в тех случаях, когда результаты необходимо получить относительно быстро и когда важно понимание данных.

Быстрые и практические результаты

С практической точки зрения логистическую регрессию легко реализовать и легко интерпретировать. Он работает надежно и предоставляет ценную информацию, даже если данные не полностью соответствуют предположениям или ожиданиям. Базовые математические модели эффективны и относительно просты в оптимизации, что делает логистическую регрессию надежным и практичным выбором для многих приложений.

Полезная информация о свойствах данных

Теоретически логистическая регрессия превосходно справляется с задачами двоичной классификации и, как правило, очень быстро классифицирует новые данные. Это может помочь определить, какие переменные связаны с интересующим результатом, давая представление о том, на чем следует сосредоточить дальнейший анализ данных. Логистическая регрессия часто обеспечивает высокую точность в простых случаях использования; даже когда точность для определенных наборов данных снижается, это все равно дает значимое представление об относительной важности переменных и направлении их воздействия (положительного или отрицательного).

Недостатки логистической регрессии в ML

Логистическая регрессия делает предположения о данных, которые она анализирует, помогая базовым алгоритмам работать быстрее и проще для понимания за счет ограничения их полезности. Их нельзя использовать для моделирования непрерывных результатов или нелинейных связей, они могут потерпеть неудачу, если связь с моделью слишком сложна, и не будут соответствовать требованиям, если они анализируют слишком много данных.

Ограничено дискретными результатами

Логистическую регрессию можно использовать только для прогнозирования дискретных результатов. Если проблема требует непрерывного прогнозирования, более подходящими являются такие методы, как линейная регрессия.

Предположим, что линейные отношения

Модель предполагает линейную связь между переменными-предикторами и предполагаемыми шансами, что редко встречается в реальных данных. Это часто требует дополнительной предварительной обработки и корректировок для повышения точности. Кроме того, логистическая регрессия предполагает, что решения о классификации могут быть приняты с использованием простых линейных функций, которые могут не отражать сложности реальных сценариев. В результате логистическая регрессия часто представляет собой приближение, которое может потребовать регулярной оптимизации и обновлений, чтобы оставаться актуальным.

Может не смоделировать сложные отношения

Если набор переменных-предикторов не имеет линейной связи с рассчитанными шансами или если переменные-предикторы недостаточно независимы друг от друга, логистическая регрессия может вообще не работать или может обнаруживать только подмножество линейных связей. когда система обладает сочетанием как линейных, так и других более сложных свойств.

Переобучение больших наборов данных

Для более крупных и сложных наборов данных логистическая регрессия склонна к переобучению, когда модель становится слишком близкой к конкретным данным, на которых она обучалась, улавливая шум и мелкие детали, а не общие закономерности. Это может привести к снижению производительности при работе с новыми, невидимыми данными. Такие методы, как регуляризация, могут помочь смягчить переобучение, но при применении логистической регрессии к сложным данным необходимо тщательное рассмотрение.