기계 학습에서 로지스틱 회귀란 무엇입니까?
게시 됨: 2024-10-04로지스틱 회귀는 통계 분석 및 기계 학습(ML)의 초석 방법입니다. 이 포괄적인 가이드에서는 로지스틱 회귀의 기본 사항을 설명하고 다양한 유형, 실제 응용 프로그램, 이 강력한 기술 사용의 장점과 단점에 대해 논의합니다.
목차
- 로지스틱 회귀란 무엇입니까?
- 로지스틱 회귀 유형
- 로지스틱 회귀와 선형 회귀
- 로지스틱 회귀의 작동 방식
- 응용
- 장점
- 단점
로지스틱 회귀란 무엇입니까?
로짓 회귀 또는 로짓 모델이라고도 알려진 로지스틱 회귀는 분류 작업, 특히 이진 결과(예: 가능한 두 클래스)의 확률을 예측하는 데 사용되는 지도 학습 알고리즘의 한 유형입니다. 이는 특정 사건이 발생할 확률을 추정하는 동일한 이름의 통계 방법을 기반으로 합니다. 예를 들어, 로지스틱 회귀를 사용하여 이메일이 스팸일 가능성, 고객이 구매하거나 웹사이트를 떠날 가능성을 예측할 수 있습니다.
모델은 이벤트의 관련 속성("예측 변수" 또는 "특징"이라고 함)을 평가합니다. 예를 들어 이벤트가 "이메일 도착"인 경우 관련 속성에는 소스 IP 주소, 보낸 사람 이메일 주소 또는 콘텐츠 가독성 등급이 포함될 수 있습니다. 이는 다음과 같은 형식의 로지스틱 함수를 사용하여 이러한 예측 변수와 결과 확률 간의 관계를 모델링합니다.
f (x) = 1 / ( 1 + e -x )
이 함수는 이벤트의 예상 확률을 나타내는 0에서 1 사이의 값을 출력합니다("이 이메일은 스팸일 가능성이 80%입니다"라고 말할 수 있음).
로지스틱 회귀는 ML, 특히 이진 분류 작업에 널리 사용됩니다. 시그모이드 함수(로지스틱 함수의 일종)는 이진 분류 모델의 출력을 확률로 변환하는 데 자주 사용됩니다. 로지스틱 회귀는 간단하지만 유사한 로지스틱 함수를 사용하여 확률을 모델링하는 신경망과 같은 보다 복잡한 모델의 기본 기술로 사용됩니다.로짓 모델이라는 용어는 이 로짓 함수를 사용하여 입력 특성을 예측 확률에 매핑하는 모델을 나타냅니다.
로지스틱 회귀 유형
로지스틱 회귀에는 이항형, 다항형, 순서형의 세 가지 주요 유형이 있습니다.
이진 로지스틱 회귀
이진 회귀라고도 알려진 이는 로지스틱 회귀의 표준이자 가장 일반적인 형태입니다.로지스틱 회귀라는 용어가 한정자 없이 사용되는 경우 일반적으로 이 유형을 나타냅니다. "바이너리"라는 이름은 정확히 두 가지 결과를 고려한다는 사실에서 유래되었습니다. 예 또는 아니요 질문에 대답하는 것으로 생각할 수 있습니다. 이진 회귀는 예 또는 아니오 또는 이진 질문의 체인으로 재구성되는 경우 더 복잡한 질문을 처리할 수 있습니다.
예:상호 배타적인 세 가지 옵션, 즉 클라이언트가 제품을 이탈할지(예: 제품 사용을 중단할지), 서비스 무료 버전에 가입할지, 유료 프리미엄 버전에 가입할지의 확률을 계산한다고 상상해 보세요. 연결된 이진 회귀는 다음 질문 체인에 답하여 이 문제를 해결할 수 있습니다.
- 클라이언트가 이탈합니까(예 또는 아니요)?
- 그렇지 않은 경우 고객이 무료 서비스에 가입합니까(예 또는 아니요)?
- 그렇지 않다면 고객이 유료 프리미엄 서비스에 가입할 것인가(예 또는 아니오)?
다항 로지스틱 회귀
다항 회귀라고도 알려진 이 형태의 로지스틱 회귀는 두 개 이상의 잠재적 결과가 있는 질문에 답할 수 있는 이진 회귀의 확장입니다. 더 복잡한 문제를 해결하기 위해 연쇄 질문이 필요하지 않습니다. 다항 회귀에서는 계산되는 확률에 상호 의존성이나 순서가 없으며 고려되는 옵션 집합이 가능한 모든 결과를 포괄한다고 가정합니다.
예:다항 회귀는 고객이 사용 가능한 색상 목록에서 구매하는 자동차에 대해 어떤 색상을 원할지 예측하는 데 효과적입니다. 그러나 고객 지원 문제의 심각도 태그로 녹색, 노란색, 빨간색 색상을 평가하는 등 주문이 중요한 확률 계산에는 제대로 작동하지 않습니다. 여기서 문제는 항상 녹색으로 시작하여 노란색으로 에스컬레이션될 수 있습니다. 빨간색(노란색은 항상 녹색 뒤에 있고 빨간색은 항상 노란색 뒤에 있음).
순서형 로지스틱 회귀
회귀에 대한 비례 승산 모델이라고도 알려진 이 특수한 형태의 로지스틱 회귀는 결과 간의 상대적 순서가 중요한 상황인 순서 값을 위해 설계되었습니다. 순서형 로지스틱 회귀 분석은 결과에 자연 순서가 있지만 범주 간의 거리를 알 수 없는 경우에 사용됩니다.
예:호텔 투숙객이 투숙 순위를 5단계(매우 나쁨, 나쁨, 보통, 좋음, 매우 좋음)로 평가할 가능성이 있는 확률을 계산하는 데 사용될 수 있습니다. 상대적인 순서가 중요합니다. 나쁨은 항상 중립보다 나쁩니다. 리뷰가 규모에 따라 어떤 방향으로 움직일지 주목하는 것이 중요합니다. 순서가 중요한 경우 순서 회귀는 확률이 계산되는 값 사이의 관계를 정량화할 수 있습니다(예: 나쁜 항목이 중립 항목의 절반으로 나타나는 경향이 있음을 감지할 수 있음).
로지스틱 회귀와 선형 회귀
로지스틱 회귀와 선형 회귀는 다르지만 더 큰 관련 수학 도구 세트의 일부이기 때문에 유사한 맥락에서 나타나는 경우가 많습니다. 로지스틱 회귀는 일반적으로 이산적 결과에 대한 확률을 계산하는 반면, 선형 회귀는 연속 결과에 대한 기대값을 계산합니다.
예를 들어, 미래의 하루에 가장 가능성이 높은 온도를 예측하려는 경우 선형 회귀 모델이 해당 작업에 좋은 도구가 될 것입니다. 이와 대조적으로 로지스틱 회귀 모델은 고정된 선택 목록 중에서 두 개 이상의 옵션에 대한 확률을 계산하거나 예측하려고 시도합니다. 특정 온도를 예측하는 대신 로지스틱 회귀 모델은 특정 날짜가 따뜻함, 쾌적함 또는 추운 온도 범위에 속할 확률을 제공할 수 있습니다.
두 모델은 별도의 사용 사례를 해결하기 위해 구축되었으므로 예측하는 값의 통계적 속성에 대해 서로 다른 가정을 하고 서로 다른 통계 도구를 사용하여 구현됩니다. 로지스틱 회귀는 일반적으로 베르누이 분포와 같은 이산 값에 적용되는 통계 분포를 가정하는 반면, 선형 회귀는 가우스 분포를 사용할 수 있습니다. 로지스틱 회귀는 효과적으로 작동하려면 더 큰 데이터 세트가 필요한 경우가 많은 반면, 선형 회귀는 일반적으로 영향력 있는 이상값에 더 민감합니다. 또한 로지스틱 회귀는 계산하는 확률의 구조에 대해 가정하는 반면, 선형 회귀는 훈련 데이터 세트에서 오류가 어떻게 분포되는지에 대해 가정합니다.
이러한 모델 간의 차이점으로 인해 특정 이상적인 사용 사례에 대해 더 나은 성능을 발휘할 수 있습니다. 로지스틱 회귀는 범주형 값을 예측하는 데 더 정확하고, 선형 회귀는 연속 값을 예측하는 데 더 정확합니다. 하지만 두 기술은 간단한 수학적 계산을 통해 출력의 용도를 변경할 수 있기 때문에 서로 혼동되는 경우가 많습니다. 변환 후 로지스틱 회귀 모델의 출력을 선형 모델의 출력과 동일한 종류의 문제에 적용할 수 있으므로 두 개의 개별 모델을 교육하는 데 드는 비용이 절약됩니다. 그러나 그것은 잘 작동하지 않습니다. 반대의 경우에도 마찬가지이다.
로지스틱 회귀는 어떻게 작동하나요?
일종의 지도 학습 알고리즘인 로지스틱 회귀는 주석이 잘 달린 데이터 세트의 학습에 의존합니다. 데이터 세트에는 일반적으로 각각에 대해 예상되는 모델 출력과 일치하는 기능 표현 목록이 포함됩니다.
로지스틱 회귀를 보다 명확하게 이해하려면 먼저 다음 주요 용어를 이해하는 것이 중요합니다.
- 예측 변수:결과에 대한 확률을 계산할 때 로지스틱 모델에서 고려하는 속성 또는 기능입니다. 예를 들어, 고객의 제품 구매 가능성을 추정하기 위한 예측 변수에는 인구통계 데이터 및 검색 기록이 포함될 수 있습니다.
- 특징 표현:예측 변수의 특정 인스턴스입니다. 예를 들어 예측 변수가 "우편번호", "주" 및 "소득 계층"인 경우 한 특성 표현은 "90210", "캘리포니아" 및 "75K+/년"일 수 있습니다.
- 연결 함수:예측 변수를 특정 결과의 확률에 연결하는 회귀 모델의 핵심에 있는 수학적 함수입니다. 이 함수는 다음 패턴을 따릅니다.
θ = b(μ)
여기서 θ는예측할 범주당 확률이고,b는특정 함수(보통 시그모이드라고 하는S모양 함수)이며,μ는예측 값(값의 연속 범위에서)을 나타냅니다.
- 로지스틱 함수:로지스틱 회귀에 사용되는 특정 연결 함수로, 다음과 같이 정의됩니다.
σ ( x ) =1 / ( 1 +e-x)
출력을 0과 1 사이의 확률로 정규화하여 예측 변수의 비례적, 곱셈 기반 변경을 일관되고 가산적인 배당률 변경으로 변환합니다.
- 로짓 함수(Logit function):로지스틱 함수의 역함수로, 확률 값을 로그 확률로 변환합니다. 이는 예측 변수가 결과의 확률과 어떻게 관련되는지 설명하는 데 도움이 됩니다. 이는 예측 변수가 결과 확률과 어떻게 관련되는지 설명하는 데 도움이 됩니다. 이는 다음과 같이 정의됩니다.
로짓 p =σ ( p ) -1= ln ( p / ( 1 – p ) )
주어진 배당률 p에 대해 로지스틱 함수의 역을 수행합니다.
- 로그 손실:교차 엔트로피 손실 또는 로지스틱 손실이라고도 하며 분류 모델에서 예측 확률과 실제 결과 간의 차이를 측정합니다. 이진 분류의 경우 종종 "이진 교차 엔트로피"라고 합니다.
로지스틱 회귀 프로세스의 핵심은 사용할 링크 함수를 결정하는 것입니다. 이진 로지스틱 회귀의 경우 이는 항상 로지스틱 함수가 됩니다. 더 복잡한 회귀에서는 다른 종류의 시그모이드 함수를 사용합니다. 가장 인기 있는 시그모이드 함수 중 하나는 소프트맥스(softmax)로 알려져 있으며 ML 모델 및 다항 회귀 사용 사례에 매우 자주 사용됩니다.
훈련 중에 시스템은 회귀가 얼마나 잘 수행되는지 또는 적합성을 계산하는 손실 함수에도 의존합니다. 시스템의 목표는 예측된 결과 또는 확률과 실제 세계에서 일어나는 일 사이의 거리를 줄이는 것으로 생각할 수 있습니다(때때로 이 거리를 "놀라움"이라고 함). 로지스틱 회귀의 경우 손실 함수는 매우 널리 사용되는 로그 손실 함수의 변형입니다.
경사하강법, 최대 가능성 추정, 확률적 경사하강법을 비롯한 다양한 표준 ML 훈련 알고리즘을 사용하여 로지스틱 회귀 모델을 훈련할 수 있습니다.
ML의 로지스틱 회귀 적용
로지스틱 회귀 ML 모델은 일반적으로 분류 작업에 사용되거나 부분 정보에서 클래스를 예측하는 데 사용됩니다. 사용 사례는 금융, 의료, 역학, 마케팅 등 다양한 영역에 걸쳐 있습니다. 가장 잘 알려진 두 가지 응용 프로그램은 이메일 스팸 탐지 및 의료 진단입니다.
이메일 스팸 감지
로지스틱 회귀는 이메일을 스팸으로 식별하는 등 통신을 분류하는 데 효과적인 도구가 될 수 있지만 복잡한 경우에는 더 발전된 방법이 사용되는 경우가 많습니다. 보낸 사람 주소, 대상, 메시지의 텍스트 내용, 소스 IP 주소 등 이메일의 모든 속성은 예측 변수로 표시될 수 있으며 해당 이메일이 스팸일 확률을 설명할 수 있습니다. 이메일 스팸 필터 도구는 새로운 이메일 메시지에 대한 이진 물류 모델을 신속하게 훈련 및 업데이트하고 새로운 스팸 전략을 신속하게 감지하고 대응합니다.
스팸 필터의 고급 버전은 이메일을 사전 처리하여 스팸으로 더 쉽게 식별할 수 있도록 합니다. 예를 들어, 스크립트는 이메일에서 보낸 사람의 IP 주소에 대해 스팸으로 표시된 이메일의 비율을 추가할 수 있으며 회귀 분석에서는 해당 정보를 고려할 수 있습니다.
의료 진단
로지스틱 회귀 모델은 일반적으로 당뇨병 및 유방암과 같은 질병 진단을 지원하는 데 사용됩니다. 그들은 의사와 의학 연구자들이 수행한 분석으로부터 배우고 이를 토대로 구축합니다.
암 진단과 같이 이미지가 많은 진단을 위해 의료 연구원 및 전문가는 다양한 테스트, 이미징 및 스캔을 통해 데이터 세트를 구축합니다. 그런 다음 이 데이터는 처리되어 텍스트 평가 목록으로 변환됩니다. 픽셀 밀도, 다양한 픽셀 클러스터의 수 및 평균 반경 등과 같은 세부 사항에 대해 이미지를 분석할 수 있습니다. 그런 다음 이러한 측정값은 다른 테스트 및 평가 결과를 포함하는 예측 변수 목록에 포함됩니다. 로지스틱 회귀 시스템은 이를 통해 학습하고 환자가 암 진단을 받을 가능성이 있는지 예측합니다.
높은 정확도로 의료 진단을 예측하는 것 외에도 로지스틱 회귀 시스템은 평가와 가장 관련성이 높은 테스트 결과를 나타낼 수도 있습니다. 이 정보는 새로운 환자에 대한 검사의 우선순위를 정하고 진단 과정을 가속화하는 데 도움이 될 수 있습니다.
ML의 로지스틱 회귀의 장점
로지스틱 회귀는 단순성과 해석 가능성으로 인해 선호되는 경우가 많습니다. 특히 결과를 비교적 빠르게 생성해야 하고 데이터에 대한 통찰력이 중요한 경우에는 더욱 그렇습니다.
빠르고 실용적인 결과
실용적인 관점에서 볼 때 로지스틱 회귀는 구현하기 쉽고 해석하기 쉽습니다. 데이터가 가정이나 기대와 완벽하게 일치하지 않는 경우에도 안정적으로 수행되고 귀중한 통찰력을 제공합니다. 기본 수학적 모델은 효율적이고 최적화가 상대적으로 간단하므로 로지스틱 회귀는 많은 응용 분야에서 강력하고 실용적인 선택이 됩니다.
데이터 속성에 대한 유용한 통찰력
이론적으로 로지스틱 회귀는 이진 분류 작업에 탁월하며 일반적으로 새 데이터를 분류하는 데 매우 빠릅니다. 이는 어떤 변수가 관심 결과와 연관되어 있는지 식별하는 데 도움이 되며 추가 데이터 분석이 어디에 초점을 맞춰야 하는지에 대한 통찰력을 제공합니다. 로지스틱 회귀는 간단한 사용 사례에서 높은 정확도를 제공하는 경우가 많습니다. 특정 데이터 세트의 정확도가 감소하더라도 변수의 상대적 중요성과 영향 방향(긍정적 또는 부정적)에 대한 의미 있는 통찰력을 제공합니다.
ML의 로지스틱 회귀의 단점
로지스틱 회귀는 분석하는 데이터에 대한 가정을 만들어 유용성을 제한하는 대신 기본 알고리즘을 더 빠르고 쉽게 이해할 수 있도록 돕습니다. 연속 결과나 비선형 관계를 모델링하는 데 사용할 수 없으며, 모델과의 관계가 너무 복잡하면 실패할 수 있고, 너무 많은 데이터를 분석하면 과적합됩니다.
개별 결과로 제한됨
로지스틱 회귀는 개별 결과를 예측하는 데에만 사용할 수 있습니다. 문제에 지속적인 예측이 필요한 경우 선형 회귀와 같은 기술이 더 적합합니다.
선형 관계 가정
모델은 예측 변수와 추정 확률 사이의 선형 관계를 가정하는데, 이는 실제 데이터에서는 거의 발생하지 않습니다. 이로 인해 정확성을 높이기 위해 추가 전처리 및 조정이 필요한 경우가 많습니다. 또한 로지스틱 회귀에서는 실제 시나리오의 복잡성을 반영하지 않을 수 있는 간단한 선형 함수를 사용하여 분류 결정을 내릴 수 있다고 가정합니다. 결과적으로 로지스틱 회귀는 관련성을 유지하기 위해 정기적인 최적화와 업데이트가 필요할 수 있는 근사치인 경우가 많습니다.
복잡한 관계를 모델링하지 못할 수 있음
예측 변수 집합이 계산된 확률과 선형 관계가 없거나 예측 변수가 서로 충분히 독립적이지 않은 경우 로지스틱 회귀가 완전히 작동하지 않거나 선형 관계의 하위 집합만 감지할 수 있습니다. 시스템에 선형 특성과 기타 보다 복잡한 특성이 혼합되어 있는 경우.
대규모 데이터 세트에 과적합
더 크고 복잡한 데이터 세트의 경우 로지스틱 회귀는 모델이 훈련된 특정 데이터와 너무 밀접하게 정렬되어 일반적인 패턴이 아닌 노이즈와 사소한 세부 사항을 포착하는 과적합 경향이 있습니다. 이로 인해 보이지 않는 새로운 데이터의 성능이 저하될 수 있습니다. 정규화와 같은 기술은 과적합을 완화하는 데 도움이 될 수 있지만 복잡한 데이터에 로지스틱 회귀를 적용할 때는 신중한 고려가 필요합니다.