기계 학습에서 선형 회귀란 무엇입니까?
게시 됨: 2024-09-06선형 회귀는 데이터 분석 및 기계 학습(ML)의 기본 기술입니다. 이 가이드는 선형 회귀, 구성 방법, 유형, 응용 프로그램, 이점 및 단점을 이해하는 데 도움이 됩니다.
목차
- 선형 회귀란 무엇입니까?
- 선형 회귀 유형
- 선형 회귀와 로지스틱 회귀
- 선형 회귀는 어떻게 작동하나요?
- 선형 회귀의 응용
- ML의 선형 회귀의 장점
- ML 선형 회귀의 단점
선형 회귀란 무엇입니까?
선형 회귀는 기계 학습에서 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 데 사용되는 통계 방법입니다. 관찰된 데이터에 선형 방정식을 적용하여 관계를 모델링하며, 종종 더 복잡한 알고리즘의 시작점 역할을 하며 예측 분석에 널리 사용됩니다.
기본적으로 선형 회귀는 일련의 데이터 포인트를 통해 가장 적합한 직선을 찾아 종속 변수(예측하려는 결과)와 하나 이상의 독립 변수(예측에 사용하는 입력 기능) 간의 관계를 모델링합니다.회귀선이라고 하는 이 선은 종속 변수(예측하려는 결과)와 독립 변수(예측에 사용하는 입력 특성) 간의 관계를 나타냅니다. 단순 선형 회귀선의 방정식은 다음과 같이 정의됩니다.
y = mx + c
여기서 y 는 종속 변수, x 는 독립 변수, m은 선의 기울기, c 는 y절편입니다. 이 방정식은 잔차라고 알려진 예측 값과 관찰 값 간의 차이를 최소화하는 것을 목표로 입력을 예측 출력에 매핑하기 위한 수학적 모델을 제공합니다. 선형 회귀는 이러한 잔차를 최소화하여 데이터를 가장 잘 나타내는 모델을 생성합니다.
개념적으로 선형 회귀는 그래프의 점을 통해 직선을 그려 해당 데이터 점 사이에 관계가 있는지 확인하는 것으로 시각화할 수 있습니다. 데이터 포인트 세트에 대한 이상적인 선형 회귀 모델은 데이터 세트의 모든 포인트 값에 가장 근접한 선입니다.
선형 회귀 유형
선형 회귀에는단순 선형 회귀와다중 선형 회귀라는두 가지 주요 유형이 있습니다.
단순 선형 회귀
단순 선형 회귀는 직선을 사용하여 단일 독립 변수와 종속 변수 간의 관계를 모델링합니다. 단순 선형 회귀 방정식은 다음과 같습니다.
y = mx + c
여기서 y 는 종속 변수, x 는 독립 변수, m 은 선의 기울기, c 는 y 절편입니다.
이 방법은 단일 변수 시나리오를 처리할 때 명확한 통찰력을 얻을 수 있는 간단한 방법입니다. 환자의 키가 체중에 어떻게 영향을 미치는지 이해하려고 하는 의사를 생각해 보십시오. 각 변수를 그래프에 표시하고 단순 선형 회귀를 사용하여 가장 적합한 선을 찾는 방식으로 의사는 환자의 키만을 기준으로 환자의 체중을 예측할 수 있습니다.
다중 선형 회귀
다중 선형 회귀는 단순 선형 회귀의 개념을 확장하여 둘 이상의 변수를 수용하므로 다중 요인이 종속 변수에 어떻게 영향을 미치는지 분석할 수 있습니다. 다중 선형 회귀 방정식은 다음과 같습니다.
y = b0 + b1x1 + b2x2 + … + bnxn
여기서 y 는 종속변수이고, x 1 , x 2 , …, xn은 독립변수이고, b 1 , b 2 , …, bn은 각 독립변수와 종속변수 간의 관계를 설명하는 계수입니다.
예를 들어, 주택 가격을 추정하려는 부동산 중개업자를 생각해 보십시오. 에이전트는 집 크기나 우편번호와 같은 단일 변수를 기반으로 하는 간단한 선형 회귀를 사용할 수 있지만 주택 가격은 종종 여러 요소의 복잡한 상호 작용에 의해 결정되므로 이 모델은 너무 단순합니다. 집 크기, 이웃, 침실 수와 같은 변수를 통합하는 다중 선형 회귀는 보다 정확한 예측 모델을 제공할 가능성이 높습니다.
선형 회귀와 로지스틱 회귀
선형 회귀는 종종 로지스틱 회귀와 혼동됩니다. 선형 회귀는연속형변수에 대한 결과를 예측하는 반면, 로지스틱 회귀는 종속 변수가범주형, 종종 이진형(예 또는 아니오)일 때 사용됩니다. 범주형 변수는 연령 그룹이나 지불 방법과 같이 유한한 수의 범주를 사용하여 숫자가 아닌 그룹을 정의합니다. 반면에 연속형 변수는 임의의 수치 값을 취할 수 있으며 측정 가능합니다. 계량형 변수의 예로는 체중, 가격, 일일 기온 등이 있습니다.
선형 회귀에 사용되는 선형 함수와 달리 로지스틱 회귀는 로지스틱 함수라고 하는 S자형 곡선을 사용하여 범주형 결과의 확률을 모델링합니다. 이진 분류의 예에서 "예" 범주에 속하는 데이터 요소는 S자 모양의 한쪽에 속하고 "아니요" 범주의 데이터 요소는 다른 쪽에 속합니다. 실질적으로 로지스틱 회귀는 이메일이 스팸인지 여부를 분류하거나 고객이 제품을 구매할지 여부를 예측하는 데 사용될 수 있습니다. 기본적으로 선형 회귀는 정량적 값을 예측하는 데 사용되는 반면 로지스틱 회귀는 분류 작업에 사용됩니다.
선형 회귀는 어떻게 작동하나요?
선형 회귀는 일련의 데이터 포인트를 통해 가장 적합한 선을 찾는 방식으로 작동합니다. 이 프로세스에는 다음이 포함됩니다.
1 모델 선택:첫 번째 단계에서는 종속변수와 독립변수 간의 관계를 설명하는 적절한 선형 방정식이 선택됩니다.
2 모델 피팅:다음으로 OLS(Ordinary Least Squares)라는 기술을 사용하여 관측된 값과 모델에서 예측한 값 간의 차이 제곱의 합을 최소화합니다. 이는 가장 적합한 선을 찾기 위해 선의 기울기와 절편을 조정하여 수행됩니다. 이 방법의 목적은 예측값과 실제값 사이의 오류 또는 차이를 최소화하는 것입니다. 이 피팅 프로세스는 모델이 훈련 데이터로부터 학습하는 지도 머신러닝의 핵심 부분입니다.
3 모델 평가:마지막 단계에서는 독립 변수에서 예측 가능한 종속 변수의 분산 비율을 측정하는 R-제곱과 같은 측정항목을 사용하여 적합도를 평가합니다. 즉, R-제곱은 데이터가 실제로 회귀 모델에 얼마나 잘 맞는지를 측정합니다.
이 프로세스는 새로운 데이터를 기반으로 예측을 수행하는 데 사용할 수 있는 기계 학습 모델을 생성합니다.
ML의 선형 회귀 적용
기계 학습에서 선형 회귀는 결과를 예측하고 다양한 분야의 변수 간 관계를 이해하는 데 일반적으로 사용되는 도구입니다. 다음은 해당 응용 프로그램의 몇 가지 주목할만한 예입니다.
소비자 지출 예측
소득 수준은 선형 회귀 모델에서 소비자 지출을 예측하는 데 사용될 수 있습니다. 특히 다중 선형 회귀 분석은 과거 소득, 연령, 고용 상태 등의 요소를 통합하여 포괄적인 분석을 제공할 수 있습니다. 이는 경제학자들이 데이터 기반 경제 정책을 개발하는 데 도움을 주고 기업이 소비자 행동 패턴을 더 잘 이해하는 데 도움이 될 수 있습니다.
마케팅 영향 분석
마케팅 담당자는 선형 회귀를 사용하여 광고 지출이 판매 수익에 어떤 영향을 미치는지 이해할 수 있습니다. 과거 데이터에 선형 회귀 모델을 적용하면 미래 판매 수익을 예측할 수 있으므로 마케팅 담당자는 예산과 광고 전략을 최적화하여 효과를 극대화할 수 있습니다.
주가 예측
금융계에서 선형 회귀는 주가를 예측하는 데 사용되는 많은 방법 중 하나입니다. 분석가와 투자자는 과거 주식 데이터와 다양한 경제 지표를 사용하여 보다 현명한 투자 결정을 내리는 데 도움이 되는 여러 선형 회귀 모델을 구축할 수 있습니다.
환경상황 예측
환경 과학에서는 선형 회귀를 사용하여 환경 조건을 예측할 수 있습니다. 예를 들어, 교통량, 기상 조건, 인구 밀도와 같은 다양한 요인이 오염 물질 수준을 예측하는 데 도움이 될 수 있습니다. 그런 다음 정책 입안자, 과학자 및 기타 이해관계자가 이러한 기계 학습 모델을 사용하여 다양한 조치가 환경에 미치는 영향을 이해하고 완화할 수 있습니다.
ML의 선형 회귀의 장점
선형 회귀는 기계 학습의 핵심 기술이 되는 몇 가지 장점을 제공합니다.
사용 및 구현이 간단함
대부분의 수학적 도구 및 모델과 비교하여 선형 회귀는 이해하고 적용하기 쉽습니다. 특히 고급 알고리즘의 기초로서 귀중한 통찰력과 경험을 제공하여 새로운 기계 학습 실무자를 위한 출발점으로 적합합니다.
계산적으로 효율적
기계 학습 모델은 리소스 집약적일 수 있습니다. 선형 회귀에는 많은 알고리즘에 비해 상대적으로 낮은 계산 능력이 필요하며 여전히 의미 있는 예측 통찰력을 제공할 수 있습니다.
해석 가능한 결과
고급 통계 모델은 강력하지만 해석하기 어려운 경우가 많습니다. 선형 회귀와 같은 간단한 모델을 사용하면 변수 간의 관계를 쉽게 이해할 수 있으며, 각 변수의 영향은 계수로 명확하게 표시됩니다.
고급 기술의 기초
선형 회귀를 이해하고 구현하면 고급 기계 학습 방법을 탐색하기 위한 견고한 기반이 제공됩니다. 예를 들어 다항식 회귀는 선형 회귀를 기반으로 변수 간의 보다 복잡하고 비선형적인 관계를 설명합니다.
ML 선형 회귀의 단점
선형 회귀는 기계 학습에서 유용한 도구이지만 몇 가지 주목할만한 제한 사항이 있습니다. 적절한 기계 학습 도구를 선택하려면 이러한 단점을 이해하는 것이 중요합니다.
선형 관계를 가정
선형 회귀 모델은 종속 변수와 독립 변수 간의 관계가 선형이라고 가정합니다. 복잡한 실제 시나리오에서는 항상 그런 것은 아닙니다. 예를 들어, 사람의 평생 동안 키는 비선형적이며, 어린 시절에 급속하게 성장하던 성장이 성인기에 접어들면서 느려지고 멈춥니다. 따라서 선형 회귀를 사용하여 높이를 예측하면 부정확한 예측이 발생할 수 있습니다.
특이치에 대한 민감도
이상값은 데이터세트에 있는 대부분의 관측값에서 크게 벗어나는 데이터 포인트입니다. 적절하게 처리하지 않으면 이러한 극단값 포인트로 인해 결과가 왜곡되어 부정확한 결론을 내릴 수 있습니다. 기계 학습에서 이러한 민감도는 이상치가 모델의 예측 정확도와 신뢰성에 불균형적으로 영향을 미칠 수 있음을 의미합니다.
다중공선성
다중 선형 회귀 모델에서는 상관 관계가 높은 독립 변수가 결과를 왜곡할 수 있는데, 이러한 현상을다중 공선성이라고 합니다. 예를 들어, 집이 클수록 침실이 더 많은 경향이 있으므로 집의 침실 수와 크기는 높은 상관관계가 있을 수 있습니다. 이로 인해 개별 변수가 주택 가격에 미치는 개별적인 영향을 판단하기 어려워 결과를 신뢰할 수 없게 됩니다.
일정한 오류 확산을 가정
선형 회귀 분석에서는 관측값과 예측값 간의 차이(오류 확산)가 모든 독립 변수에 대해 동일하다고 가정합니다. 이것이 사실이 아니면 모델이 생성한 예측이 신뢰할 수 없을 수 있습니다. 지도 기계 학습에서 오류 확산을 해결하지 못하면 모델이 편향되고 비효율적인 추정치를 생성하여 전반적인 효율성이 저하될 수 있습니다.