배깅을 통해 강력한 AI 모델 구축: 기술, 이점 및 애플리케이션

게시 됨: 2025-01-09

배깅은 예측 모델의 일관성을 향상시키는 앙상블 기계 학습(ML) 기술입니다. 이 가이드에서는 배깅의 작동 방식을 설명하고, 배깅의 장점, 과제 및 응용 프로그램을 논의하고, 이를 부스팅과 같은 관련 기술과 비교합니다.

목차

  • 배깅이란 무엇입니까?
  • 분산 대 편향
  • 배깅 대 부스팅
  • 배깅 작동 방식
  • 배깅 알고리즘의 유형
  • 배깅의 응용
  • 배깅의 장점
  • 배깅의 과제와 한계

배깅이란 무엇입니까?

배깅(또는 더 공식적으로는 부트스트랩집계조정 )은 여러 개의 유사한 ML 모델을 사용하여 출력 정확도를 향상시키는 앙상블 학습 기술입니다. 기본적으로 앙상블 학습은 여러 모델을 결합하여 개별 모델보다 더 나은 성능을 달성합니다.

이 접근 방식에는 훈련 데이터를 무작위 하위 집합으로 분할하고 각각에 대해 서로 다른 모델을 훈련시키는 것이 포함됩니다. 새로운 입력의 경우 모든 모델의 예측이 집계되어 최종 출력을 생성합니다. 이 기술은 무작위 하위 집합을 활용하여 모델 간의 불일치를 줄여 보다 일관된 예측을 제공합니다.

배깅은 ML 시스템의 분산을 최소화하여 일관성을 향상시키는 데 특히 효과적입니다.

Grammarly로 더욱 스마트하게 작업하세요
할 일이 있는 모든 사람을 위한 AI 글쓰기 파트너

분산 대 편향

편향과 분산을 줄이는 것은 모든 ML 모델 또는 시스템의 기본 목표입니다.

편향은 ML 시스템이 보는 데이터에 대한 가정으로 인해 발생하는 오류를 설명합니다. 일반적으로 모델이 평균적으로 얼마나 잘못된지 계산하여 결정됩니다. 분산은 모델 일관성을 측정합니다. 유사한 입력에 대해 모델의 출력이 얼마나 다른지 확인하여 추정합니다.

높은 편견

예를 들어, 주택의 특징(예: 면적, 침실 수)을 통해 주택 판매 가격을 예측하는 문제를 생각해 보겠습니다. 단순한 모델은 단순화된 가정을 많이 하고 면적만 살펴보므로 편향이 높아질 수 있습니다. 현실은 가정보다 더 복잡하기 때문에 훈련 데이터에서도 일관되게 문제가 발생합니다. 따라서 실제 가격 예측 변수(예: 위치, 학교 수준, 침실 수)를 파악할 수 없습니다.

높은 분산

더 복잡한 모델은 훈련 데이터의모든추세를 포착하고 높은 분산을 가질 수 있습니다. 예를 들어, 이 모델은 실제 예측 변수는 아니지만 집 번호(기본적으로 거리 주소의 숫자 부분)와 가격 간의 작은 상관 관계를 학습 데이터에서 찾아 사용할 수 있습니다. 훈련 데이터에서는 잘 작동하지만 실제 데이터에서는 좋지 않습니다.

분산-편향 트레이드오프

이상적인 모델은 낮은 편향과 낮은 분산을 가지며 유사한 입력에 대해 일관되게 올바른 출력을 생성합니다. 높은 편향은 일반적으로 모델이 너무 단순하여 훈련 데이터의 패턴을 포착할 수 없기 때문에 발생합니다(과소적합). 높은 분산은 일반적으로 모델이 훈련 데이터에서 가짜 패턴을 포착하여 과적합으로 인해 발생합니다.

모델의 정교함을 높이면 더 많은 패턴을 포착할 수 있어 편향이 낮아질 수 있습니다. 그러나 이 보다 정교한 모델은 훈련 데이터에 과적합되는 경향이 있어 분산이 높아지며 그 반대의 경우도 마찬가지입니다. 실제로 균형 잡힌 편향-분산 절충은 달성하기 어렵습니다.

배깅은 분산을 줄이는 데 중점을 둡니다. 앙상블의 각 모델은 데이터 세트에 과적합되기 때문에 분산이 높을 수 있습니다. 그러나 각 모델은 무작위 데이터 세트를 가져오므로 서로 다른 허위 패턴을 발견하게 됩니다. 주택 가격 예에서 한 모델은 짝수로 주택을 과대평가할 수 있고, 다른 모델은 이를 과소평가할 수 있으며, 대부분은 주택 번호를 완전히 무시할 수 있습니다.

이러한 임의의 패턴은 예측을 평균화할 때 평균을 내는 경향이 있어 진정한 기본 관계를 남깁니다. 따라서 앙상블은 개별 모델에 비해 분산을 낮추고 과적합을 줄입니다.

배깅 대 부스팅

부스팅과 같은 맥락에서 배깅에 대해 이야기하는 것을 들을 수 있습니다. 이는 가장 일반적인 앙상블 학습 기술이며 많은 인기 있는 ML 모델을 뒷받침합니다. 부스팅은 모델이 이전 모델의 오류에 대해 훈련되는 기술입니다. 그런 다음 이 모델 그룹은 모든 입력에 응답하는 데 사용됩니다. 두 기술의 차이점에 대해 더 자세히 논의해 보겠습니다.

배깅 부스팅
모델 훈련 모델은 데이터의 다양한 하위 집합에 대해 병렬로 훈련됩니다. 모델은 순차적으로 학습되며 각 모델은 이전 모델의 오류에 중점을 둡니다.
오류 감소 초점 분산 감소 편견 감소
일반적인 알고리즘 랜덤 포레스트, 배깅된 의사결정 트리 AdaBoost, 그래디언트 부스팅, XGBoost
과적합 위험 무작위 샘플링으로 인한 과적합 위험 감소 과적합 위험이 더 높음
계산 복잡성 낮추다 더 높은

두 기술 모두 일반적이지만 부스팅이 더 많이 사용됩니다. 부스팅은 편향분산을 모두 줄일 수 있는 반면, 배깅은 일반적으로 분산에만 영향을 미칩니다.

배깅 작동 방식

배깅이 실제로 어떻게 작동하는지 생각해 봅시다. 요점은 훈련 데이터를 무작위로 분할하고, 분할된 데이터에 대해 모델을 병렬로 훈련하고, 모든 모델을 사용하여 입력에 응답하는 것입니다. 우리는 차례로 각각을 다룰 것입니다.

데이터 분할

n개의데이터 포인트가 있는 훈련 데이터 세트가 있고m개모델의 배깅된 앙상블을 만들고 싶다고 가정합니다. 그런 다음 각각n개의 포인트가 있는m개의데이터 세트(모델당 하나씩)를 생성해야 합니다. 각 데이터 세트에n개보다 많거나 적은 포인트가 있는 경우 일부 모델은 과도하게 또는 과소 학습됩니다.

하나의 새로운 무작위 데이터 세트를 생성하기 위해 원래 훈련 데이터 세트에서n개의포인트를 무작위로 선택합니다. 중요한 것은 각 선택 후에 포인트를 원래 데이터 세트로 반환한다는 것입니다. 결과적으로, 새로운 무작위 데이터 세트는 원래 데이터 포인트 중 일부의 복사본을 두 개 이상 가지게 되고 다른 것의 복사본은 전혀 가지지 않게 됩니다. 평균적으로 이 데이터 세트는 63%의 고유 데이터 포인트와 37%의 중복된 데이터 포인트로 구성됩니다.

그런 다음 이 프로세스를 반복하여m개의데이터세트를 모두 생성합니다. 데이터 포인트 표현의 변화는 앙상블 모델 간의 다양성을 생성하는 데 도움이 되며, 이는 전체 분산을 줄이는 데 중요한 요소 중 하나입니다.

모델 훈련

m개의 무작위 데이터세트를 사용하면 각 데이터세트에 대해 하나의 모델로m개의모델을 간단히 훈련할 수 있습니다. 유사한 편향을 보장하려면 전체적으로 동일한 종류의 모델을 사용해야 합니다. 모델을 병렬로 훈련할 수 있어 훨씬 더 빠른 반복이 가능합니다.

모델 집계

이제m개의훈련된 모델이 있으므로 이를 앙상블로 사용하여 모든 입력에 응답할 수 있습니다. 각 입력 데이터 포인트는 각 모델에 병렬로 공급되며 각 모델은 해당 출력에 응답합니다. 그런 다음 모델의 출력을 집계하여 최종 답변에 도달합니다. 분류 문제인 경우 출력 모드(가장 일반적인 출력)를 사용합니다. 회귀 문제인 경우 출력의 평균을 취합니다.

여기서 분산을 줄이는 핵심은 훈련 데이터의 차이로 인해 각 모델이 어떤 종류의 입력에서는 더 좋고 다른 입력에서는 더 나쁘다는 것입니다. 그러나 전반적으로 한 모델의 오류는 다른 모델에 의해 상쇄되어 분산이 낮아집니다.

배깅 알고리즘의 유형

알고리즘으로서의 배깅은 모든 유형의 모델에 적용될 수 있습니다. 실제로는 매우 일반적인 두 가지 배깅 모델, 즉 랜덤 포레스트와 배깅 의사결정 트리가 있습니다. 두 가지 모두를 간략하게 살펴보겠습니다.

랜덤 포레스트

랜덤 포레스트는 의사 결정 트리의 앙상블이며 각각은 무작위 데이터 세트에 대해 훈련되었습니다. 의사결정 트리는 적절한 레이블을 찾을 때까지 입력 데이터에 대한 예/아니요 질문에 답하여 예측을 수행하는 모델입니다.

랜덤 포레스트에서 각 의사결정 트리는 동일한 하이퍼파라미터(트리의 최대 깊이 또는 분할당 최소 샘플과 같은 미리 설정된 구성)를 갖지만 훈련 데이터세트와는 다른(무작위로 선택된) 기능을 사용합니다. 특성 무작위화가 없으면 각 의사결정 트리는 훈련 데이터의 차이에도 불구하고 유사한 답변으로 수렴될 수 있습니다. 랜덤 포레스트는 ML에서 매우 인기 있는 선택이며 ML 작업 해결을 위한 좋은 시작점이 되는 경우가 많습니다.

배깅된 의사결정 트리

배깅된 의사결정 트리는 모든 트리가 교육 데이터 세트의 동일한 기능을 사용한다는 점을 제외하면 Random Forest와 매우 유사합니다. 이는 트리의 출력 다양성을 감소시키며, 이는 장단점이 있습니다. 긍정적인 측면에서는 트리가 더 안정적이고 유사한 답변을 제공할 가능성이 높습니다. 이는 어떤 기능이 중요한지 결정하는 데 사용될 수 있습니다. 단점은 편차가 그다지 줄어들지 않는다는 것입니다. 이러한 이유로 랜덤 포레스트는 배깅된 의사결정 트리보다 훨씬 더 많이 사용됩니다.

배깅의 응용

배깅은 분산이 원하는 것보다 높은 모든 ML 문제에 사용할 수 있습니다. ML 모델이 있는 한 가방에 담을 수 있습니다. 이를 보다 구체적으로 만들기 위해 몇 가지 예를 검토하겠습니다.

분류 및 회귀

분류와 회귀는 ML의 핵심 문제 중 두 가지입니다. 사용자는 이미지의 주제를 고양이 또는 개로 분류하기를 원할 수 있습니다. 또는 사용자는 회귀 분석을 통해 주택 판매 가격을 예측하려고 할 수도 있습니다. 우리가 살펴본 것처럼 배깅은 두 가지 모두에 대한 변동을 줄이는 데 도움이 될 수 있습니다.

분류에서는 앙상블 모델의 모드가 사용됩니다. 회귀에서는 평균이 사용됩니다.

기능 선택

특징 선택은 데이터 세트에서 가장 중요한 특징, 즉 올바른 출력을 가장 잘 예측하는 특징을 찾는 것입니다. 관련 없는 기능 데이터를 제거함으로써 모델 개발자는 과적합 가능성을 줄일 수 있습니다.

가장 중요한 특징을 알면 모델을 더 쉽게 해석할 수 있습니다. 또한 모델 개발자는 이 지식을 사용하여 훈련 데이터의 기능 수를 줄여 훈련 속도를 높일 수 있습니다. 배깅된 의사결정 트리는 중요한 기능을 찾아내는 데 효과적입니다. 그 안에 큰 비중을 차지하는 기능이 중요한 기능일 가능성이 높습니다.

전자상거래에서의 포장

전자상거래에서 배깅은 고객 이탈을 예측하는 데 특히 중요합니다. 이탈 데이터에 대해 훈련된 ML 모델은 복잡하고 시끄러운 고객 행동 패턴으로 인해 변동이 큰 경우가 많습니다. 훈련 데이터 세트에 과적합될 수 있습니다. 또한 고객 이름의 모음 수가 고객 이탈 가능성에 영향을 미친다고 가정하는 등 허위 관계를 추론할 수도 있습니다.

훈련 데이터 세트에는 이러한 과적합을 유발하는 몇 가지 예만 포함될 수 있습니다. 배깅 모델을 사용하면 앙상블은 허위 상관 관계를 무시하면서 실제 이탈 지표를 더 잘 식별할 수 있으므로 보다 신뢰할 수 있는 이탈 예측이 가능합니다.

배깅의 장점

배깅은 모델 분산과 과적합을 줄이고 데이터 문제를 해결하는 데 도움이 될 수 있습니다. 이는 또한 가장 병렬화 가능하고 효율적인 배깅 기술 중 하나입니다.

분산 감소

모델 분산은 모델이 데이터에서 실제로 의미 있는 패턴을 학습하지 않음을 나타냅니다. 대신, 그다지 의미가 없고 불완전한 훈련 데이터의 증상인 무작위 상관관계를 포착하고 있습니다.

배깅은 모델의 분산을 줄입니다. 앙상블은 전체적으로 입력과 출력 사이의 의미 있는 관계에 중점을 둡니다.

새로운 데이터에 잘 일반화

배깅 모델은 의미 있는 관계를 포착할 가능성이 높기 때문에 새로운 데이터나 보이지 않는 데이터로 일반화할 수 있습니다. 좋은 일반화는 기계 학습의 궁극적인 목표이므로 배깅은 많은 모델에 유용한 기술인 경우가 많습니다.

거의 모든 ML 문제에서 훈련 데이터 세트는 실제 데이터를 완전히 나타내지 않으므로 올바른 일반화가 중요합니다. 다른 경우에는 실제 데이터 분포가 시간이 지남에 따라 변경될 수 있으므로 적응 가능한 모델이 필요합니다. 배깅은 두 경우 모두에 도움이 됩니다.

고도로 병렬화 가능

부스팅과 달리 배깅된 모델을 생성하는 것은 병렬성이 뛰어납니다. 각 모델은 독립적으로 동시에 훈련할 수 있으므로 빠른 실험과 보다 쉬운 하이퍼파라미터 튜닝이 가능합니다(물론 병렬로 훈련할 충분한 컴퓨팅 리소스가 있는 경우).

또한 각 모델은 다른 모델과 독립적이므로 교체하거나 교체할 수 있습니다. 예를 들어, 약한 모델은 다른 무작위 하위 집합에서 재교육되어 다른 모델을 건드리지 않고도 성능을 향상시킬 수 있습니다.

배깅의 과제와 한계

불행하게도 더 많은 모델을 추가하면 복잡성이 더 커집니다. 추가적인 복잡성이라는 문제는 배깅된 모델에 더 많은 컴퓨팅 리소스가 필요하고, 해석 및 이해가 더 어렵고, 더 많은 하이퍼파라미터 조정이 필요하다는 것을 의미합니다.

더 많은 계산 리소스가 필요함

더 많은 모델을 실행하려면 더 많은 리소스가 필요하며, 종종 배깅된 앙상블에는 50개 이상의 모델이 있습니다. 이는 작은 모델에서는 잘 작동할 수 있지만 큰 모델에서는 다루기 어려울 수 있습니다.

앙상블의 응답 시간은 성장함에 따라 저하될 수도 있습니다. 리소스에는 기회 비용도 있습니다. 더 크고 더 나은 모델을 교육하는 데 더 잘 사용될 수 있습니다.

해석하기가 더 어렵습니다.

ML 모델은 전체적으로 해석하기 어렵습니다. 개별 의사결정 트리는 의사결정의 기반이 되는 기능을 보여주기 때문에 좀 더 쉽습니다. 그러나 랜덤 포레스트에서처럼 여러 개를 함께 그룹화하면 각 트리의 상충되는 답변이 혼란스러울 수 있습니다.

예측의 모드 또는 평균을 취하는 것만으로는 그것이 올바른 예측인 이유를 설명할 수 없습니다. 군중의 지혜는 종종 옳기는 하지만 이해하기 어렵습니다.

추가 초매개변수 조정

모델이 많을수록 하이퍼파라미터의 효과가 확대됩니다. 이제 하이퍼파라미터의 사소한 오류 하나가 수십 또는 수백 개의 모델에 영향을 미칠 수 있습니다. 동일한 하이퍼파라미터 세트를 조정하려면 더 많은 시간이 필요하므로 제한된 리소스에 더 큰 부담을 줄 수 있습니다.