Регрессия в машинном обучении: что это такое и как работает

Опубликовано: 2024-11-13

Регрессия в машинном обучении (ML) — это фундаментальная концепция, используемая для прогнозирования непрерывных значений на основе входных функций. Независимо от того, оцениваете ли вы цены на жилье или прогнозируете продажи, регрессионные модели устанавливают взаимосвязи между переменными. В этой статье мы разберем различные типы регрессионных моделей, лежащие в их основе алгоритмы и то, когда лучше всего применять каждый метод. Вы также узнаете, как работает регрессия, варианты ее практического использования, а также преимущества и проблемы, связанные с использованием регрессии в машинном обучении.

Оглавление

  • Что такое регрессия?
  • Типы регрессионных моделей
  • Алгоритмы, используемые для регрессии
  • Примеры регрессии
  • Преимущества регрессии
  • Проблемы регрессии

Что такое регрессия в машинном обучении?

Регрессия — это тип контролируемого обучения, используемый для прогнозирования непрерывных значений на основе входных данных. Он оценивает взаимосвязи между переменными, чтобы предсказать и объяснить различные вещи, такие как цены на жилье, тенденции фондового рынка или погодные условия. Регрессионные модели сопоставляют входные характеристики с непрерывной целевой переменной, обеспечивая точные числовые прогнозы.

Например, используя данные о погоде за прошедшую неделю, регрессионная модель может спрогнозировать завтрашние осадки. Прогнозируемые значения являются непрерывными, то есть они могут находиться в любом месте числовой шкалы, например, температура, измеренная с точностью до десятичной точки, или прогнозируемый доход от продаж на предстоящие месяцы.

Работайте умнее с Grammarly
Партнер по написанию ИИ для всех, у кого есть работа

Регрессия и классификация: в чем разница?

В то время как регрессия предсказывает непрерывные результаты, классификация фокусируется на прогнозировании дискретных категорий или классов. Например, регрессионная модель может предсказать точное количество осадков завтра, тогда как модель классификации может предсказать, будет ли дождь вообще (да или нет). Ключевое отличие состоит в том, что регрессия имеет дело с числовыми значениями, а классификация распределяет данные по заранее определенным категориям.

В некоторых случаях можно адаптировать выходные данные регрессионной модели к задаче классификации и наоборот, но оба подхода обычно подходят для разных типов задач.

Регрессия: алгоритм, модель или анализ?

Регрессию иногда называют регрессионным анализом— широким статистическим термином, используемым для описания поиска непрерывных связей между наблюдениями и результатами. Алгоритм регрессии — это особый математический инструмент, предназначенный для выявления этих взаимосвязей. Когда алгоритм используется для обучения модели машинного обучения, результат называетсямоделью регрессии.

Эти три термина —регрессионный анализ,алгоритм регрессииимодель регрессии— часто используются как взаимозаменяемые, но каждый из них представляет собой отдельный аспект процесса регрессии.

Типы регрессии в машинном обучении

Модели регрессии бывают разных форм, каждая из которых предназначена для обработки различных взаимосвязей между входными данными и прогнозируемыми результатами. Хотя линейная регрессия является наиболее часто используемой и относительно простой для понимания, другие модели, такие как полиномиальная, логистическая и байесовская регрессия, лучше подходят для более сложных или специализированных задач. Ниже приведены некоторые основные типы регрессионных моделей и случаи, когда они обычно используются.

Простая и множественная (линейная) регрессия

Линейная регрессия, популярный метод регрессии, известен своей простотой интерпретации, быстрым обучением и надежной работой в различных приложениях. Он оценивает взаимосвязь между объясняющими и целевыми переменными с помощью прямых линий. Простая линейная регрессия включает одну объясняющую переменную, тогда как множественная линейная регрессия включает две или более. Обычно, когда кто-то обсуждает регрессионный анализ, они имеют в виду линейную регрессию.

Полиномиальная регрессия

Если прямые линии не могут удовлетворительно объяснить взаимосвязь между наблюдаемыми переменными и ожидаемыми результатами, лучшим вариантом может быть модель полиномиальной регрессии. Эта модель ищет непрерывные, сложные взаимосвязи и может идентифицировать закономерности, которые лучше всего описываются с помощью кривых или комбинации кривых и прямых линий.

Логистическая регрессия

Когда связь между наблюдениями и прогнозируемыми значениями не является непрерывной (или дискретной), логистическая регрессия является наиболее распространенным инструментом для работы. Дискретность в этом контексте означает ситуации, когда дроби или действительные числа не так важны (скажем, при прогнозировании количества клиентов, которые зайдут в кафе, логистическая регрессия ответит 4 или 5 вместо чего-то более сложного для интерпретации, например 4,35).

Наиболее известной формой логистической регрессии являетсябинарная регрессия, которая предсказывает ответы на бинарные (т. е. да/нет) вопросы; обычно логистическая регрессия является бинарной. Более сложные варианты, такие как полиномиальная регрессия, предсказывают ответы на вопросы, предлагающие более двух вариантов ответа. Логистические модели по своей сути полагаются на выбор одной из нескольких функций для преобразования непрерывных входных данных в дискретные.

Байесовская регрессия

Методы линейной и других регрессий требуют значительных обучающих данных для получения точных прогнозов. Напротив, байесовская регрессия — это усовершенствованный статистический алгоритм, который может делать надежные прогнозы с меньшим количеством данных, при условии, что некоторые статистические свойства данных известны или могут быть оценены. Например, прогнозирование продаж нового продукта во время курортного сезона может оказаться затруднительным для линейной регрессии из-за отсутствия данных о продажах нового продукта. Байесовская регрессия может предсказать данные о продажах с более высокой точностью, если предположить, что продажи нового продукта следуют тому же статистическому распределению, что и продажи других аналогичных продуктов. Обычно байесовские регрессии предполагают, что данные следуют гауссовскому статистическому распределению, что приводит к взаимозаменяемому использованию терминовбайесовскаяигауссовская регрессия.

Регрессия со смешанными эффектами

Регрессия предполагает, что существует неслучайная связь между наблюдаемыми данными и прогнозируемыми данными. Иногда эту взаимосвязь трудно определить из-за сложных взаимозависимостей в наблюдаемых данных или случайного случайного поведения. Модели смешанных эффектов — это регрессионные модели, включающие механизмы обработки случайных данных и других моделей поведения, которые сложно моделировать. Эти модели также взаимозаменяемо называются моделями со смешанными эффектами или моделями со смешанными ошибками.

Другие алгоритмы регрессии

Регрессия очень хорошо изучена. Существует множество других, более сложных или специализированных алгоритмов регрессии, в том числе те, которые используют биномиальные, полиномиальные и продвинутые методы смешанных эффектов, а также те, которые объединяют несколько алгоритмов. Объединение нескольких алгоритмов может быть организовано в последовательном порядке, например, в нескольких последовательных слоях, или выполняться параллельно, а затем каким-либо образом агрегироваться. Систему, в которой параллельно выполняется несколько моделей, часто называют лесом.

Алгоритмы, используемые для регрессионного анализа

Многие типы алгоритмов регрессии используются в машинном обучении для создания моделей регрессии. Некоторые алгоритмы предназначены для построения моделей определенных типов (в этом случае алгоритм и модель часто имеют одно и то же имя). Другие сосредоточены на улучшении аспектов существующих моделей, таких как повышение их точности или эффективности. Ниже мы рассмотрим некоторые из наиболее часто используемых алгоритмов. Однако прежде чем мы это сделаем, важно понять, как они оцениваются: как правило, это основано на двух ключевых свойствах: дисперсии и смещении.

  • Дисперсияизмеряет, насколько колеблются прогнозы модели при обучении на разных наборах данных. Модель с высокой дисперсией может очень точно соответствовать обучающим данным, но плохо работать с новыми, невидимыми данными — явление, известное как переобучение. В идеале алгоритмы регрессии должны создавать модели с низкой дисперсией, то есть они хорошо обобщаются на новые данные и не слишком чувствительны к изменениям в обучающем наборе.
  • Смещениеотносится к ошибке, возникающей при аппроксимации реальной проблемы, которая может быть слишком сложной, с помощью упрощенной модели. Высокая погрешность может привести к недостаточной подгонке, когда модель не может уловить важные закономерности в данных, что приводит к неточным прогнозам. В идеале смещение должно быть низким, что указывает на то, что модель эффективно отражает взаимосвязи в данных, не упрощая их. В некоторых случаях смещение можно смягчить за счет улучшения обучающих данных или корректировки параметров алгоритма регрессии.

Простая и множественная (линейная) регрессия

Простая линейная регрессия анализирует взаимосвязь между одной объясняющей переменной и прогнозируемым результатом, что делает ее самой простой формой регрессии. Множественная линейная регрессия более сложна и находит связи между двумя или более переменными и одним результатом. Они оба находят отношения, имеющие линейную структуру, основанные на линейных уравнениях, которые обычно соответствуют следующему шаблону:

y =β + β1x + ε

Здесьy— результат, который нужно спрогнозировать,x— переменная, на основе которой его можно спрогнозировать,ε— ошибка, которую необходимо попытаться минимизировать, аβиβ1 — значения, которые рассчитывает регрессия.

Линейная регрессия использует контролируемый процесс обучения для построения связей между объясняющими переменными и прогнозируемыми результатами. В процессе обучения данные обучения анализируются неоднократно, улучшая параметры лежащих в основе линейных уравнений с каждой итерацией данных. Наиболее распространенные методы оценки эффективности параметров включают расчет средних значений ошибок для всех доступных данных, используемых при тестировании или обучении. Примеры методов расчета ошибок включаютсреднеквадратическую ошибку(среднее значение квадратов расстояний между прогнозами и фактическими результатами),среднюю абсолютную ошибкуи более сложные методы, такие какостаточная сумма квадратов(общие ошибки, а не среднее).

Полиномиальная регрессия

Полиномиальная регрессия решает более сложные задачи, чем линейная регрессия, и требует решения систем линейных уравнений, обычно с использованием расширенных матричных операций. Он может находить в данных кривые связи, а не только те, которые можно представить прямыми линиями. При правильном применении это уменьшит дисперсию в задачах, в которых линейная регрессия не работает. Его также сложнее понять, реализовать и оптимизировать, поскольку он зависит от сложных математических концепций и операций.

Полиномиальная регрессия попытается решить уравнения, связывающиеyи кратныеx, с помощью уравнений полиномиальной формы, следующих следующему шаблону:

y =β + β1x + β2x2+ … + ε

Алгоритм полиномиальной регрессии будет искать как идеальные значенияβдля использования, так и форму полинома (сколько показателей степениxможет потребоваться для определения связи междуyи каждымx?).

Лассо-регрессия

Лассо-регрессия (что означает наименьшее абсолютное сжатие и оператор выбора), также известная как лассо,L1и нормальная регрессияL1, — это метод, используемый для уменьшения переобучения и повышения точности модели. Он работает путем применения штрафа к абсолютным значениям коэффициентов модели, эффективно уменьшая или уменьшая некоторые коэффициенты до нуля. Это приводит к созданию более простых моделей, из которых исключаются ненужные функции. Алгоритм лассо помогает предотвратить переобучение, контролируя сложность модели, делая модель более интерпретируемой, не жертвуя при этом слишком большой точностью.

Лассо особенно полезно, когда независимые переменные коррелируют. Например, при прогнозировании погоды температура и влажность могут коррелировать, что приводит к переобучению. Лассо уменьшает влияние таких корреляций, создавая более надежную модель.

Гребневая регрессия

Гребневая регрессия (также известная какL2, нормаL2или регуляризация Тихонова) — это еще один метод предотвращения переобучения, особенно когда присутствует мультиколлинеарность (корреляция между объясняющими переменными). В отличие от лассо, которое может сжимать коэффициенты до нуля, регрессия Риджа добавляет штраф, пропорциональный квадрату коэффициентов модели. Цель состоит в том, чтобы внести небольшие корректировки в коэффициенты, не удаляя полностью переменные.

Примеры вариантов использования регрессии

Регрессионные модели широко используются в различных отраслях для прогнозирования на основе исторических данных. Выявляя закономерности и взаимосвязи между переменными, эти модели могут предоставить ценную информацию для принятия решений. Ниже приведены три хорошо известных примера областей применения регрессии.

Анализ и прогноз погоды

Регрессионный анализ позволяет прогнозировать погодные условия, например ожидаемую температуру и количество осадков на каждый день следующей недели. Часто несколько различных алгоритмов регрессии обучаются на исторических данных о погоде, включая влажность, скорость ветра, атмосферное давление и облачность. Ежечасные или ежедневные измерения этих переменных служат функциями для обучения модели, а задача алгоритма — прогнозировать изменения температуры с течением времени. Когда для прогнозирования погодных условий параллельно используются множественные алгоритмы регрессии (ансамбль), их прогнозы обычно объединяются посредством усреднения, такого как взвешенное усреднение.

Прогнозирование продаж и доходов

В бизнес-контексте регрессионные модели часто используются для прогнозирования доходов и других ключевых показателей эффективности. Модель множественной регрессии может учитывать переменные, влияющие на объем продаж, такие как показатели маркетинговых кампаний, отзывы клиентов и макроэкономические тенденции. Затем перед моделью ставится задача спрогнозировать продажи и доходы на определенный будущий период. По мере поступления новых данных модель может быть переобучена или обновлена ​​для уточнения прогнозов на основе последних наблюдений.

Прогнозирование результатов здравоохранения

Регрессионные модели имеют множество применений для прогнозирования последствий для здоровья. Например, байесовские модели могут использоваться для оценки коэффициентов заболеваемости на основе исторических данных пациентов. Эти модели помогают ответить на такие вопросы, как «Что может произойти, если мы скорректируем дозировку лекарства?» Линейную регрессию можно использовать для выявления факторов риска, например, для прогнозирования изменений в состоянии здоровья пациента на основе корректировки образа жизни. Логистическая регрессия, обычно используемая для диагностики, рассчитывает отношение шансов наличия заболевания на основе истории болезни пациента и других соответствующих переменных.

Преимущества регрессии

Алгоритмы и модели регрессии, особенно линейная регрессия, являются основополагающими компонентами многих систем машинного обучения. Они получили широкое распространение благодаря следующим преимуществам:

  • Они могут быть быстрыми.Методы регрессии позволяют быстро установить связи между несколькими переменными (признаками) и целевым значением, что делает их полезными для исследовательского анализа данных и ускорения обучения моделей машинного обучения.
  • Они универсальны. Многие модели регрессии, такие как линейная, полиномиальная и логистическая регрессия, хорошо изучены и могут быть адаптированы для решения широкого спектра реальных задач — от прогнозирования до задач классификации.
  • Их можно легко реализовать. Например, модели линейной регрессии можно реализовать, не требуя сложных математических или инженерных методов, что делает их доступными для специалистов по обработке данных и инженеров с различными уровнями квалификации.
  • Их легко понять. Модели регрессии, особенно линейная регрессия, предлагают интерпретируемые результаты, в которых взаимосвязи между переменными и их влияние на прогнозируемый результат часто очевидны. Это делает их полезными для выявления тенденций и закономерностей в данных, которые могут служить основой для дальнейшего, более глубокого анализа. В некоторых случаях регрессионные модели могут отказаться от интерпретируемости в пользу более высокой точности, в зависимости от варианта использования.

Проблемы регрессии

Хотя регрессионные модели предлагают множество преимуществ, они также имеют свои проблемы. Часто эти проблемы выражаются в снижении производительности или возможности обобщения, особенно при работе со сложными проблемами или ограниченными данными. Ниже приведены некоторые из наиболее распространенных проблем, с которыми сталкиваются при регрессионном анализе.

  • Переоснащение:моделям часто сложно сбалансировать предвзятость и дисперсию. Если модель слишком сложна, она может очень хорошо соответствовать историческим данным (уменьшая дисперсию), но становится предвзятой при использовании новых данных. Часто это происходит потому, что модель запоминает данные обучения вместо изучения обобщенной абстракции.
  • Недооснащение:модель, которая слишком проста для решения рассматриваемой задачи, может страдать от высокой систематической ошибки. Он покажет высокий уровень ошибок как в обучающих данных, так и в невидимых данных, что указывает на то, что он не изучил основные закономерности. Чрезмерные корректировки для исправления высокого смещения могут привести к недостаточной подгонке, когда модель не сможет отразить сложность данных.
  • Сложные данные обучения:модели регрессии обычно предполагают, что наблюдения, используемые для обучения, независимы. Если данные содержат сложные взаимосвязи или присущую им случайность, модели может быть сложно построить точные и надежные прогнозы.
  • Неполные или отсутствующие данные.Алгоритмы контролируемой регрессии требуют больших объемов данных для изучения закономерностей и учета крайних случаев. При работе с отсутствующими или неполными данными модель может работать неэффективно, особенно при изучении сложных взаимосвязей, требующих обширного охвата данных.
  • Выбор переменных-предикторов:модели регрессии полагаются на то, что люди выбирают правильные переменные-предикторы (признаки). Если включено слишком много нерелевантных переменных, производительность модели может ухудшиться. И наоборот, если выбрано слишком мало или неправильные переменные, модель может не суметь точно решить проблему или сделать надежные прогнозы.