기계 학습의 회귀: 정의 및 작동 방식
게시 됨: 2024-11-13기계 학습(ML)의 회귀는 입력 특성을 기반으로 연속 값을 예측하는 데 사용되는 기본 개념입니다. 주택 가격을 추정하든 판매를 예측하든 회귀 모델은 변수 간의 관계를 설정합니다. 이 기사에서는 다양한 유형의 회귀 모델, 그 뒤에 있는 알고리즘, 각 방법이 가장 잘 적용되는 시기를 분석합니다. 또한 회귀의 작동 방식, 실제 사용 사례, 기계 학습에서 회귀 사용과 관련된 장점과 과제에 대해 알아봅니다.
목차
- 회귀란 무엇입니까?
- 회귀 모델 유형
- 회귀에 사용되는 알고리즘
- 회귀의 예
- 회귀의 이점
- 회귀의 과제
머신러닝에서 회귀란 무엇인가요?
회귀는 입력 데이터를 기반으로 연속 값을 예측하는 데 사용되는 지도 학습 유형입니다. 변수 간의 관계를 추정하여 주택 가격, 주식 시장 동향, 기상 조건 등 다양한 것을 예측하고 설명합니다. 회귀 모델은 입력 특징을 연속형 목표 변수에 매핑하여 정확한 수치 예측을 가능하게 합니다.
예를 들어 회귀 모델은 지난 주의 날씨 데이터를 사용하여 내일의 강수량을 예측할 수 있습니다. 예측하는 값은 연속적입니다. 즉 소수점까지 측정된 온도나 향후 몇 달 동안 예상되는 판매 수익과 같이 수치 척도의 어느 위치에나 포함될 수 있습니다.
회귀와 분류: 차이점은 무엇인가요?
회귀는 지속적인 결과를 예측하는 반면 분류는 개별 범주 또는 클래스를 예측하는 데 중점을 둡니다. 예를 들어 회귀 모델은 내일 정확한 강수량을 예측할 수 있는 반면 분류 모델은 비가 올지 여부(예 또는 아니요)를 예측할 수 있습니다. 주요 차이점은 회귀는 숫자 값을 처리하는 반면, 분류는 미리 정의된 범주에 데이터를 할당한다는 것입니다.
경우에 따라 회귀 모델의 출력을 분류 작업에 적용하거나 그 반대로 적용하는 것이 가능하지만 일반적으로 두 가지 접근 방식은 서로 다른 유형의 문제에 적합합니다.
회귀: 알고리즘, 모델 또는 분석?
회귀분석은 관측값과 결과 간의 지속적인 관계 검색을 설명하는 데 사용되는 광범위한 통계 용어인 회귀분석이라고도 합니다. 회귀 알고리즘은 이러한 관계를 식별하도록 설계된 특정 수학적 도구입니다. 알고리즘을 사용하여 기계 학습 모델을 훈련하는 경우 결과를회귀 모델이라고 합니다.
회귀 분석,회귀 알고리즘,회귀 모델이라는 세 가지 용어는 종종 같은 의미로 사용되지만 각각은 회귀 프로세스의 서로 다른 측면을 나타냅니다.
기계 학습의 회귀 유형
회귀 모델은 다양한 형태로 제공되며 각각은 입력 데이터와 예측 결과 간의 다양한 관계를 처리하도록 설계되었습니다. 선형 회귀가 가장 자주 사용되며 상대적으로 이해하기 쉽지만 다항식, 로지스틱, 베이지안 회귀와 같은 다른 모델은 더 복잡하거나 전문적인 작업에 더 적합합니다. 다음은 회귀 모델의 주요 유형과 일반적으로 사용되는 경우입니다.
단순 및 다중(선형) 회귀
널리 사용되는 회귀 기법인 선형 회귀는 해석이 쉽고, 훈련 속도가 빠르며, 다양한 응용 분야에서 안정적인 성능을 발휘하는 것으로 알려져 있습니다. 직선을 이용하여 설명변수와 목표변수 간의 관계를 추정합니다. 단순 선형 회귀에는 하나의 설명 변수가 포함되는 반면, 다중 선형 회귀에는 두 개 이상의 설명 변수가 포함됩니다. 일반적으로 누군가 회귀 분석에 대해 논의할 때 선형 회귀를 의미합니다.
다항식 회귀
직선이 관찰된 변수와 예상 결과 사이의 관계를 만족스럽게 설명하지 못하는 경우 다항식 회귀 모델이 더 나은 옵션일 수 있습니다. 이 모델은 연속적이고 복잡한 관계를 추구하며 곡선 또는 곡선과 직선의 조합을 사용하여 가장 잘 설명된 패턴을 식별할 수 있습니다.
로지스틱 회귀
관측값과 예측 값 간의 관계가 연속적(또는 불연속적)이 아닌 경우 로지스틱 회귀는 해당 작업에 가장 일반적인 도구입니다. 이 맥락에서 이산은 분수나 실수가 관련성이 없는 상황을 의미합니다. 예를 들어 커피숍에 들어올 고객 수를 예측하는 경우 로지스틱 회귀는 해석하기 어려운 값(예: 4.35) 대신 4 또는 5로 응답합니다.
로지스틱 회귀의 가장 잘 알려진 형태는이진 회귀(즉, 예/아니요) 질문에 대한 답을 예측하는 이진 회귀입니다. 일반적으로 로지스틱 회귀는 이진입니다. 다항 회귀와 같은 보다 복잡한 변형은 두 가지 이상의 선택을 제공하는 질문에 대한 답을 예측합니다. 로지스틱 모델의 핵심은 연속 입력을 이산 입력으로 변환하는 여러 기능 중 하나를 선택하는 것입니다.
베이지안 회귀
선형 및 기타 회귀 기술은 정확한 예측을 위해 상당한 훈련 데이터가 필요합니다. 대조적으로, 베이지안 회귀는 데이터의 통계 속성 중 일부가 알려져 있거나 추정될 수 있는 경우 더 적은 데이터로 신뢰할 수 있는 예측을 할 수 있는 고급 통계 알고리즘입니다. 예를 들어, 연휴 기간 동안 신제품 판매를 예측하는 것은 신제품 판매 데이터가 부족하기 때문에 선형 회귀 분석이 어려울 수 있습니다. 베이지안 회귀는 신제품의 매출이 다른 유사 제품의 매출과 동일한 통계 분포를 따른다고 가정하여 더 높은 정확도로 매출 데이터를 예측할 수 있습니다. 일반적으로 베이지안 회귀에서는 데이터가 가우스 통계 분포를 따른다고 가정하므로베이지안 회귀와가우스 회귀라는용어를 서로 바꿔서 사용할 수 있습니다.
혼합 효과 회귀
회귀 분석에서는 관측된 데이터와 예측된 데이터 사이에 무작위 관계가 없다고 가정합니다. 때로는 관찰된 데이터의 복잡한 상호 의존성이나 가끔씩 발생하는 무작위 동작으로 인해 이 관계를 정의하기가 어렵습니다. 혼합 효과 모델은 무작위 데이터와 모델링하기 어려운 기타 동작을 처리하는 메커니즘을 포함하는 회귀 모델입니다. 이러한 모델은 혼합, 혼합 효과 또는 혼합 오류 모델이라고도 합니다.
기타 회귀 알고리즘
회귀는 매우 잘 연구되었습니다. 이항, 다항 및 고급 혼합 효과 기술을 사용하는 알고리즘과 여러 알고리즘을 결합하는 알고리즘을 포함하여 더 복잡하거나 전문화된 회귀 알고리즘이 많이 있습니다. 결합된 여러 알고리즘은 여러 순차적 레이어와 같이 순차적 순서로 구성되거나 병렬로 실행된 다음 어떤 방식으로 집계될 수 있습니다. 여러 모델을 병렬로 실행하는 시스템을 흔히 포리스트라고 합니다.
회귀 분석에 사용되는 알고리즘
회귀 모델을 생성하기 위해 기계 학습에서는 다양한 유형의 회귀 알고리즘이 사용됩니다. 일부 알고리즘은 특정 유형의 모델을 구축하도록 설계되었습니다(이 경우 알고리즘과 모델은 종종 동일한 이름을 공유합니다). 다른 사람들은 정확성이나 효율성을 높이는 등 기존 모델의 측면을 개선하는 데 중점을 둡니다. 아래에서는 보다 일반적으로 사용되는 알고리즘 중 일부를 다룰 것입니다. 하지만 그렇게 하기 전에 평가 방법을 이해하는 것이 중요합니다. 일반적으로 평가는 분산과 편향이라는 두 가지 주요 속성을 기반으로 합니다.
- 분산은다양한 데이터세트로 훈련할 때 모델의 예측이 얼마나 변동하는지를 측정합니다. 분산이 높은 모델은 훈련 데이터에 매우 근접하게 적합할 수 있지만, 보이지 않는 새로운 데이터에서는 성능이 좋지 않을 수 있습니다. 이는 과적합이라고 알려진 현상입니다. 이상적으로 회귀 알고리즘은 분산이 낮은 모델을 생성해야 합니다. 즉, 새로운 데이터에 대해 잘 일반화되고 훈련 세트의 변화에 지나치게 민감하지 않습니다.
- 편향은너무 복잡할 수 있는 실제 문제를 단순화된 모델로 근사함으로써 발생하는 오류를 말합니다. 편향이 높으면 모델이 데이터의 중요한 패턴을 포착하지 못해 부정확한 예측으로 이어지는 과소적합이 발생할 수 있습니다. 이상적으로는 편향이 낮아야 합니다. 이는 모델이 과도하게 단순화하지 않고 데이터의 관계를 효과적으로 포착한다는 것을 나타냅니다. 어떤 경우에는 학습 데이터를 개선하거나 회귀 알고리즘의 매개변수를 조정하여 편향을 완화할 수 있습니다.
단순 및 다중(선형) 회귀
단순 선형 회귀는 단일 설명 변수와 예측 결과 간의 관계를 분석하여 가장 간단한 형태의 회귀입니다. 다중 선형 회귀는 더 복잡하며 두 개 이상의 변수와 하나의 결과 사이의 관계를 찾습니다. 둘 다 일반적으로 이 패턴에 맞는 선형 방정식을 기반으로 선형 구조를 갖는 관계를 찾습니다.
y =β + β1x + ε
여기서y는예측할 결과,x는 예측할 변수,ε은 최소화하려는 오류,β와β1 은 회귀 분석에서 계산하는 값입니다.
선형 회귀는 지도 학습 프로세스를 사용하여 설명 변수와 예측 결과 간의 연관성을 구축합니다. 학습 프로세스에서는 훈련 데이터를 반복적으로 검사하여 데이터를 반복할 때마다 기본 선형 방정식의 매개변수를 개선합니다. 매개변수 성능을 평가하는 가장 일반적인 방법은 테스트 또는 훈련에 사용되는 모든 사용 가능한 데이터에 대한 평균 오류 값을 계산하는 것입니다. 오류 계산 방법의 예로는평균 제곱 오류(예측과 실제 결과 사이의 제곱 거리의 평균),평균 절대 오류및잔차 제곱합(평균이 아닌 총 오류)과 같은 더 복잡한 방법이 있습니다.
다항식 회귀
다항식 회귀는 선형 회귀보다 더 복잡한 문제를 처리하며 일반적으로 고급 행렬 연산을 사용하여 선형 방정식 시스템을 풀어야 합니다. 직선으로 표시할 수 있는 관계뿐만 아니라 곡선으로 나타나는 데이터에서도 관계를 찾을 수 있습니다. 올바르게 적용하면 선형 회귀가 실패하는 문제의 분산이 줄어듭니다. 또한 고급 수학적 개념과 연산에 의존하기 때문에 이해, 구현 및 최적화가 더 어렵습니다.
다항식 회귀는 다음 패턴을 따르는 다항식 모양의 방정식을 사용하여y와 여러x를 관련시키는 방정식을 풀려고 시도합니다.
y =β + β1x + β2x2+ … + ε
다항식 회귀 알고리즘은 사용할 이상적인β값과 다항식의 모양(y와 각x사이의 관계를 정의하는 데 필요한x의 지수 수는 몇 개입니까?)을 모두 찾습니다.
올가미 회귀
Lasso,L1및L1표준 회귀라고도 알려진 Lasso 회귀(최소 절대 수축 및 선택 연산자를 나타냄)는 과적합을 줄이고 모델 정확도를 향상시키는 데 사용되는 기술입니다. 이는 모델 계수의 절대값에 페널티를 적용하여 일부 계수를 0으로 효과적으로 축소하거나 줄이는 방식으로 작동합니다. 이는 관련 없는 기능이 제외된 단순한 모델로 이어집니다. 올가미 알고리즘은 모델 복잡성을 제어하여 과적합을 방지하고 정확도를 크게 희생하지 않고도 모델을 더 쉽게 해석할 수 있도록 해줍니다.
올가미는 설명 변수가 상관될 때 특히 유용합니다. 예를 들어, 날씨 예측에서 온도와 습도는 상관관계가 있어 과적합으로 이어질 수 있습니다. Lasso는 이러한 상관관계의 영향을 줄여 보다 강력한 모델을 만듭니다.
능선 회귀
능형 회귀(L2,L2규범 또는 Tikhonov 정규화라고도 함)는 특히 다중 공선성(설명 변수 간 상관 관계)이 있는 경우 과적합을 방지하는 또 다른 기술입니다. 계수를 0으로 축소할 수 있는 올가미와 달리 Ridge 회귀는 모델 계수의 제곱에 비례하여 페널티를 추가합니다. 목표는 변수를 완전히 제거하지 않고 계수를 약간 조정하는 것입니다.
회귀 사용 사례의 예
회귀 모델은 과거 데이터를 기반으로 예측을 수행하기 위해 다양한 산업에서 널리 사용됩니다. 변수 간의 패턴과 관계를 식별함으로써 이러한 모델은 의사 결정에 귀중한 통찰력을 제공할 수 있습니다. 다음은 회귀가 적용되는 세 가지 잘 알려진 영역의 예입니다.
기상 분석 및 예측
회귀분석을 통해 다음 주 요일별 예상 기온, 강우량 등 날씨 패턴을 예측할 수 있습니다. 습도, 풍속, 기압, 구름량 등의 과거 날씨 데이터에 대해 여러 가지 회귀 알고리즘이 훈련되는 경우가 많습니다. 이러한 변수에 대한 시간별 또는 일별 측정값은 모델이 학습할 수 있는 기능으로 사용되며, 알고리즘은 시간에 따른 온도 변화를 예측하는 역할을 합니다. 여러 회귀 알고리즘(앙상블)을 병렬로 사용하여 날씨 패턴을 예측하는 경우 해당 예측은 일반적으로 가중 평균과 같은 평균 형태를 통해 결합됩니다.
매출 및 수익 예측
비즈니스 맥락에서 회귀 모델은 수익 및 기타 주요 성과 지표를 예측하는 데 자주 사용됩니다. 다중 회귀 모델은 마케팅 캠페인의 지표, 고객 피드백, 거시경제 추세 등 판매량에 영향을 미치는 변수를 사용할 수 있습니다. 그런 다음 모델은 지정된 미래 기간 동안 판매 및 수익을 예측하는 임무를 맡습니다. 새로운 데이터를 사용할 수 있게 되면 최신 관찰 내용을 기반으로 예측을 개선하기 위해 모델을 재교육하거나 업데이트할 수 있습니다.
의료 결과 예측
회귀 모델은 건강 결과를 예측하는 데 다양한 용도로 사용됩니다. 예를 들어, 베이지안 모델은 과거 환자 데이터로부터 학습하여 발병률 비율을 추정하는 데 사용될 수 있습니다. 이러한 모델은 "약물의 복용량을 조정하면 어떤 일이 일어날 수 있나요?"와 같은 질문에 대답하는 데 도움이 됩니다. 생활방식 조정에 따른 환자의 건강 변화 예측과 같은 위험 요인을 식별하기 위해 선형 회귀를 사용할 수 있습니다. 진단에 일반적으로 사용되는 로지스틱 회귀 분석은 환자의 병력 및 기타 관련 변수를 기반으로 질병 존재에 대한 승산비를 계산합니다.
회귀의 이점
회귀 알고리즘 및 모델, 특히 선형 회귀는 많은 기계 학습 시스템의 기본 구성 요소입니다. 다음과 같은 이점 때문에 널리 사용됩니다.
- 그들은 빠를 수 있습니다.회귀 기술은 여러 변수(특성)와 목표 값 간의 관계를 신속하게 설정할 수 있으므로 탐색적 데이터 분석에 유용하고 기계 학습 모델의 학습 속도를 높일 수 있습니다.
- 그들은 다재다능합니다. 선형, 다항식 및 로지스틱 회귀와 같은 많은 회귀 모델은 잘 연구되었으며 예측에서 분류 작업에 이르기까지 광범위한 실제 문제를 해결하는 데 적용할 수 있습니다.
- 구현하기 쉽습니다. 예를 들어, 선형 회귀 모델은 복잡한 수학적 또는 엔지니어링 기술 없이도 구현할 수 있으므로 다양한 기술 수준의 데이터 과학자 및 엔지니어가 액세스할 수 있습니다.
- 이해하기 쉽습니다. 회귀 모델, 특히 선형 회귀는 변수 간의 관계와 예측 결과에 미치는 영향이 명확한 해석 가능한 결과를 제공합니다. 이는 더 심층적인 분석을 제공할 수 있는 데이터의 추세와 패턴을 식별하는 데 유용합니다. 경우에 따라 회귀 모델은 사용 사례에 따라 더 높은 정확도를 위해 해석 가능성을 절충할 수 있습니다.
회귀의 과제
회귀 모델은 많은 이점을 제공하지만 그에 따른 과제도 있습니다. 종종 이러한 과제는 성능 저하나 일반화 가능성 저하로 반영되며, 특히 복잡한 문제나 제한된 데이터로 작업할 때 더욱 그렇습니다. 다음은 회귀 분석에서 직면하는 가장 일반적인 문제 중 일부입니다.
- 과적합:모델은 종종 편향과 분산의 균형을 맞추는 데 어려움을 겪습니다. 모델이 너무 복잡하면 과거 데이터에 매우 잘 맞을 수 있지만(분산 감소) 새 데이터에 노출되면 편향됩니다. 이는 모델이 일반화된 추상화를 학습하는 대신 훈련 데이터를 기억하기 때문인 경우가 많습니다.
- 과소적합:당면한 문제에 비해 너무 단순한 모델은 높은 편향으로 인해 어려움을 겪을 수 있습니다. 훈련 데이터와 보이지 않는 데이터 모두에 대해 높은 오류율이 표시되어 기본 패턴을 학습하지 않았음을 나타냅니다. 높은 편향을 수정하기 위해 과도하게 조정하면 모델이 데이터의 복잡성을 포착하지 못하는 과소적합이 발생할 수 있습니다.
- 복잡한 훈련 데이터:회귀 모델은 일반적으로 훈련에 사용되는 관측치가 독립적이라고 가정합니다. 데이터에 복잡한 관계나 본질적인 무작위성이 포함되어 있는 경우 모델이 정확하고 신뢰할 수 있는 예측을 구축하는 데 어려움을 겪을 수 있습니다.
- 불완전하거나 누락된 데이터:지도 회귀 알고리즘은 패턴을 학습하고 특수 사례를 설명하기 위해 많은 양의 데이터가 필요합니다. 누락되거나 불완전한 데이터를 처리할 때, 특히 광범위한 데이터 범위가 필요한 복잡한 관계를 학습할 때 모델이 제대로 작동하지 않을 수 있습니다.
- 예측 변수 선택:회귀 모델은 올바른 예측 변수(특성)를 선택하기 위해 사람의 도움을 받습니다. 관련 없는 변수가 너무 많이 포함되면 모델 성능이 저하될 수 있습니다. 반대로 너무 적거나 잘못된 변수를 선택하면 모델이 문제를 정확하게 해결하지 못하거나 신뢰할 수 있는 예측을 하지 못할 수 있습니다.