머신 러닝의 임의 산림 : 그들이 무엇인지, 어떻게 작동하는지

게시 됨: 2025-02-03

임의의 숲은 기계 학습 (ML)에서 강력하고 다재다능한 기술입니다. 이 안내서는 임의의 숲, 작동 방식 및 응용 프로그램, 혜택 및 도전을 이해하는 데 도움이됩니다.

목차

  • 임의의 숲은 무엇입니까?
  • 의사 결정 트리 vs. 랜덤 포레스트 : 차이점은 무엇입니까?
  • 임의의 숲의 작동 방식
  • 임의의 숲의 실제 적용
  • 임의의 숲의 장점
  • 임의의 숲의 단점

임의의 숲은 무엇입니까?

임의의 숲은 여러 의사 결정 트리를 사용하여 예측을하는 기계 학습 알고리즘입니다. 분류 및 회귀 작업 모두를 위해 설계된 감독 학습 방법입니다. 많은 나무의 출력을 결합함으로써 임의의 산림은 정확도를 향상시키고 과적으로 과적으로 줄이며 단일 의사 결정 트리에 비해보다 안정적인 예측을 제공합니다.

문법으로 더 똑똑하게 일하십시오
작업 할 일이있는 사람을위한 AI 작문 파트너

의사 결정 트리 vs. 랜덤 포레스트 : 차이점은 무엇입니까?

임의의 산림은 의사 결정 트리를 기반으로하지만 두 알고리즘은 구조와 응용 분야에서 크게 다릅니다.

의사 결정 트리

의사 결정 트리는 루트 노드, 의사 결정 노드 (내부 노드) 및 리프 노드의 세 가지 주요 구성 요소로 구성됩니다. 흐름도와 마찬가지로, 의사 결정 과정은 루트 노드에서 시작하여 조건에 따라 결정 노드를 통해 흐르고 결과를 나타내는 리프 노드에서 종료됩니다. 의사 결정 트리는 해석하고 개념화하기가 쉽지만, 특히 복잡하거나 시끄러운 데이터 세트와 함께 과적으로 적합하기 쉽습니다.

임의의 숲

임의의 숲은 예측 개선을 위해 출력을 결합한 의사 결정 트리의 앙상블입니다. 각 트리는 고유 한 부트 스트랩 샘플 (교체로 원래 데이터 세트의 무작위로 샘플링 된 하위 집합)에서 교육을 받고 각 노드에서 무작위로 선택된 기능의 하위 집합을 사용하여 의사 결정 분할을 평가합니다. 피처 포장으로 알려진이 접근법은 나무들 사이의 다양성을 소개합니다. 분류에 대한 대다수의 투표 또는 회귀 평균을 사용하는 예측을 집계함으로써 산림은 앙상블의 단일 의사 결정 트리보다 더 정확하고 안정적인 결과를 낳습니다.

임의의 숲의 작동 방식

임의의 산림은 여러 의사 결정 트리를 결합하여 강력하고 정확한 예측 모델을 만들어 작동합니다.

다음은 프로세스에 대한 단계별 설명입니다.

1. 하이퍼 파라미터 설정

첫 번째 단계는 모델의 하이퍼 파라미터를 정의하는 것입니다. 여기에는 다음이 포함됩니다.

  • 나무의 수 :숲의 크기를 결정합니다
  • 각 나무의 최대 깊이 :각 의사 결정 트리가 얼마나 깊을 수 있는지 제어합니다.
  • 스플릿을 생성 할 때 평가 된기능의 수를 제한합니다.

이 과수기계는 모델의 복잡성을 미세 조정하고 특정 데이터 세트에 대한 성능을 최적화 할 수 있습니다.

2. 부트 스트랩 샘플링

초 파라미터가 설정되면 훈련 과정은 부트 스트랩 샘플링으로 시작됩니다. 여기에는 다음이 포함됩니다.

  • 원래 데이터 세트의 데이터 포인트는 무작위로 선택되어 각 의사 결정 트리에 대한 교육 데이터 세트 (부트 스트랩 샘플)를 생성합니다.
  • 각 부트 스트랩 샘플은 일반적으로 원래 데이터 세트의 크기의 약 3 분의 2이며 일부 데이터 포인트는 반복되고 다른 데이터 포인트는 제외되었습니다.
  • 부트 스트랩 샘플에 포함되지 않은 데이터 포인트의 나머지 3 분의 1을 OOB (Out-of-out-in-of-out) 데이터라고합니다.

3. 의사 결정 트리 구축

랜덤 포레스트의 각 의사 결정 트리는 고유 한 프로세스를 사용하여 해당 부트 스트랩 샘플로 훈련됩니다.

  • 피처 포장 :각 분할마다 임의의 특징이 선택되어 나무들 사이의 다양성을 보장합니다.
  • 노드 분할 :서브 세트에서 가장 좋은 기능은 노드를 분할하는 데 사용됩니다.
    • 분류 작업의 경우, Gini 불순물과 같은 기준 (무작위로 선택된 요소가 노드에서 클래스 레이블의 분포에 따라 무작위로 레이블을 붙인 경우 무작위로 선택된 요소가 얼마나 자주 분류되는지에 대한 측정) 분할이 클래스를 얼마나 잘 분리하는지 측정하십시오.
    • 회귀 작업의 경우 분산 감소와 같은 기술 (노드를 분할하는 양을 측정하는 방법은 대상 값의 분산을 감소시켜보다 정확한 예측을 초래) 분할이 예측 오차를 얼마나 줄인지 평가합니다.
  • 트리는 최대 깊이 또는 노드 당 최소 데이터 포인트 수와 같은 정지 조건을 충족 할 때까지 재귀 적으로 자랍니다.

4. 성능 평가

각 트리가 구성되면 모델의 성능은 OOB 데이터를 사용하여 추정됩니다.

  • OOB 오류 추정은 편견없는 모델 성능 측정을 제공하여 별도의 검증 데이터 세트가 필요하지 않습니다.
  • 모든 나무에서 예측을 집계함으로써 임의의 숲은 개별 결정 트리에 비해 정확도를 향상시키고 과적을 줄입니다.

임의의 숲의 실제 적용

그들이 건축 한 의사 결정 트리와 마찬가지로, 임의의 산림은 의료 및 금융과 같은 다양한 부문의 분류 및 회귀 문제에 적용될 수 있습니다.

환자 상태를 분류합니다

건강 관리에서 임의의 산림은 병력, 인구 통계 및 시험 결과와 같은 정보를 기반으로 환자 상태를 분류하는 데 사용됩니다. 예를 들어, 환자가 당뇨병과 같은 특정 상태를 개발할 가능성이 있는지 예측하기 위해 각 의사 결정 트리는 환자를 관련 데이터를 기반으로하거나 위험에 처한 것으로 분류하며, 임의의 산림은 다수의 투표를 기반으로 최종 결정을 내립니다. 이 접근법은 임의의 산림이 건강 관리에서 발견되는 복잡한 기능이 풍부한 데이터 세트에 특히 적합하다는 것을 의미합니다.

대출 불이행 예측

은행과 주요 금융 기관은 임의의 산림을 널리 사용하여 대출 자격을 결정하고 위험을 더 잘 이해합니다. 이 모델은 소득 및 신용 점수와 같은 요소를 사용하여 위험을 결정합니다. 위험은 연속 숫자 값으로 측정되므로 임의의 산림은 분류 대신 회귀를 수행합니다. 약간 다른 부트 스트랩 샘플에 대해 훈련 된 각 의사 결정 트리는 예측 된 위험 점수를 출력합니다. 그런 다음 임의의 산림은 모든 개별 예측을 평균화하여 강력하고 전체적인 위험 추정을 초래합니다.

고객 손실 예측

마케팅에서 임의의 산림은 종종 제품 또는 서비스 사용을 중단 할 가능성을 예측하는 데 사용됩니다. 여기에는 구매 빈도 및 고객 서비스와의 상호 작용과 같은 고객 행동 패턴 분석이 포함됩니다. 이러한 패턴을 식별함으로써 임의의 숲은 떠날 위험이있는 고객을 분류 할 수 있습니다. 이러한 통찰력을 통해 회사는 충성도 프로그램 또는 대상 프로모션 제공과 같은 고객을 유지하기 위해 사전 예방 적 데이터 중심 단계를 수행 할 수 있습니다.

부동산 가격 예측

임의의 산림은 회귀 작업 인 부동산 가격을 예측하는 데 사용될 수 있습니다. 예측을 위해 임의의 산림은 지리적 위치, 정사각형 영상 및 해당 지역의 최근 판매와 같은 요소를 포함하는 과거 데이터를 사용합니다. 랜덤 포레스트의 평균화 프로세스는 개별 의사 결정 트리보다 더 신뢰할 수 있고 안정적인 가격 예측을 초래하며, 이는 매우 변동이 많은 부동산 시장에 유용합니다.

임의의 숲의 장점

임의의 숲은 정확도, 견고성, 다양성 및 기능 중요성을 추정하는 능력을 포함하여 많은 이점을 제공합니다.

정확성과 견고성

임의의 숲은 개별 의사 결정 트리보다 더 정확하고 강력합니다. 이것은 원래 데이터 세트의 다른 부트 스트랩 샘플에서 훈련 된 여러 의사 결정 트리의 출력을 결합하여 달성됩니다. 결과적으로 다양성은 임의의 산림이 개별 의사 결정 트리보다 과적하기 쉽다는 것을 의미합니다. 이 앙상블 접근 방식은 랜덤 포레스트가 복잡한 데이터 세트에서도 시끄러운 데이터를 처리하는 데 능숙하다는 것을 의미합니다.

다재

그들이 지어진 의사 결정 트리와 마찬가지로, 임의의 숲은 매우 다양합니다. 회귀 및 분류 작업을 모두 처리하여 광범위한 문제에 적용 할 수 있습니다. 임의의 숲은 또한 크고 기능이 풍부한 데이터 세트와 잘 작동하며 수치 및 범주 데이터를 모두 처리 할 수 ​​있습니다.

기능 중요성

임의의 숲은 특정 기능의 중요성을 추정 할 수있는 내장 기능이 있습니다. 훈련 과정의 일환으로, 임의의 산림은 특정 기능이 제거되면 모델의 정확도가 얼마나 많이 변경되는지를 측정하는 점수를 출력합니다. 각 기능의 점수를 평균화함으로써 임의의 숲은 수량화 가능한 기능 중요성을 제공 할 수 있습니다. 그런 다음 더 중요한 기능을 제거하여보다 효율적인 나무와 숲을 만들 수 있습니다.

임의의 숲의 단점

임의의 산림은 많은 이점을 제공하지만 단일 의사 결정 트리보다 해석하기가 더 어렵고 훈련하는 데 더 많은 비용이 들며 다른 모델보다 예측을 더 느리게 출력 할 수 있습니다.

복잡성

임의의 숲과 의사 결정은 공통점이 많지만 임의의 숲은 해석하고 시각화하기가 더 어렵습니다. 임의의 숲은 수백 또는 수천 개의 의사 결정 트리를 사용하기 때문에 이러한 복잡성이 발생합니다. 임의의 숲의 "블랙 박스"특성은 모델 설명이 요구되는 경우 심각한 단점입니다.

계산 비용

수백 또는 수천 개의 의사 결정 트리를 훈련하려면 단일 의사 결정 트리를 훈련하는 것보다 훨씬 더 많은 처리 능력과 기억이 필요합니다. 대규모 데이터 세트가 관련되면 계산 비용이 훨씬 높아질 수 있습니다. 이 큰 자원 요구 사항은 금전적 비용이 높고 교육 시간이 더 길어질 수 있습니다. 결과적으로, 임의의 산림은 계산 전력과 메모리가 모두 드는 에지 컴퓨팅과 같은 시나리오에서 실용적이지 않을 수 있습니다. 그러나 임의의 산림을 병렬화 할 수있어 계산 비용을 줄일 수 있습니다.

느린 예측 시간

임의의 숲의 예측 과정은 숲의 모든 나무를 가로 지르고 출력을 집계하는 것과 관련이 있으며, 이는 단일 모델을 사용하는 것보다 본질적으로 느립니다. 이 과정은 로지스틱 회귀 나 신경망과 같은 단순한 모델, 특히 깊은 나무를 포함하는 넓은 숲보다 예측 시간이 느려질 수 있습니다. 고주파 거래 또는 자율 주행 차량과 같이 시간이 걸리는 사용 사례의 경우이 지연은 금지 될 수 있습니다.