전송 학습 : 단축키가 더 똑똑하고 빠른 AI 개발

게시 됨: 2025-02-04

미리 훈련 된 AI 모델을 재사용하고 적응하면 머신 러닝 (ML) 작업에 접근하는 방법이 변경되고 있습니다. 전송 학습은 크고 복잡한 AI 시스템을 새로운 도메인 및 문제에 적응시키는 효율적이고 비용 효율적인 방법입니다. 이 안내서에서는 전송 학습의 주요 측면, 즉 작동 방식, 다양한 유형 및 응용 프로그램, 장점 및 과제를 탐구합니다.

목차

  • 이전 학습이란 무엇입니까?
  • 이전 학습은 어떻게 작동합니까?
  • 전송 학습 대 미세 조정
  • 전이 학습의 유형
  • 이전 학습의 이점
  • 이전 학습의 도전
  • 이전 학습의 응용

이전 학습이란 무엇입니까?

전송 학습은 다르지만 관련 작업을 위해 미리 훈련 된 모델을 활용하는 강력한 머신 러닝 기술입니다. 기존 모델에서 포착 된 일반적인 지식을 기초로 사용하여보다 구체적이고 관련 도메인에서 문제를 해결하는 방법을 배웁니다.

전송 학습은 몇 가지 장점을 제공합니다. 맞춤형 인공 지능 (AI) 응용 프로그램의 개발 및 배치를 가속화하고, 자원 비용을 낮추고, 종종 모델을 처음부터 구축하는 것보다 더 나은 성능을 제공합니다. 결과적으로, 전송 학습은 특히 모델을 처음부터 훈련시키는 데 필요한 방대한 양의 데이터 또는 계산 능력없이 특수 AI 솔루션을 개발하려는 조직에 특히 가치가 있습니다.

문법으로 더 똑똑하게 일하십시오
작업 할 일이있는 사람을위한 AI 작문 파트너

전송 학습의 예

제품 결함을 감지하기 위해 AI 시스템을 만들려는 제조업체의 예를 고려하십시오. 한 가지 옵션은 전문 ML 실무자를 고용하고 수백만 개의 관련 제품 이미지를 수집 및 큐 레이트하고 처음부터 모델을 훈련시키는 데 필요한 시간과 계산 자원을 따로 설정하는 것입니다. 전송 학습은 훨씬 더 나은 옵션을 제시합니다. 제조업체는 이미 Imagenet과 같은 대규모 표준화 된 이미지 데이터 세트에서 이미 비싸고 시간이 많이 걸리는 교육을 완료 한 모델로 시작할 수 있습니다. 그런 다음 제조업체는 전송 학습을 빠르고 효율적으로 사용하여 모델을 조정하여 특정 제품 이미지의 결함을 감지 할 수 있습니다.

이전 학습은 어떻게 작동합니까?

전송 학습은 미리 훈련 된 모델의 일반적인 지식을 새로운 관련 작업에 적용합니다. 프로세스에는 일반적으로 세 가지 주요 단계가 포함됩니다.

  • 적절한 미리 훈련 된 모델을 선택합니다
  • 모델의 아키텍처 업데이트
  • 새로운 데이터에 대한 모델 교육

1. 미리 훈련 된 모델을 선택하십시오

첫 번째 단계는 대상 작업과 관련된 도메인의 데이터 세트에서 이미 교육을받은 모델을 선택하는 것입니다. 미리 훈련 된 모델은 새로운 애플리케이션과 관련된 일반 및 고급 기능을 배웠어야합니다.

  • 의료의 예 :의료 조직은 NIH (National Institutes of Health) Chestx-Ray14 데이터 세트에서 미리 훈련 된 모델로 시작할 수 있으며, 여기에는 방대한 표지 된 의료 이미지가 포함되어 있습니다. 이 모델은 X- 선 이미지가 어떻게 구성되는지와 생물학적 특성이 이미지 구성 요소와 어떻게 상관되는지와 같은 일반적인 특징을 배웠을 것입니다. 이 모델은 흉부 영역에 위치하고 폐렴 또는 폐암과 같은 X- 레이 이미지에서 볼 수있는 특정 조건에 대한 진단 도구를 개발하기위한 토대가 될 수 있습니다.
  • 금융의 예 :금융 기업은 재무 문서, 수입 전화 및 규제 제출에 미리 훈련 된 모델 인 Finbert를 사용할 수 있습니다. 이 모델은 금융 언어 구조 및 시장 감정 및 비즈니스 성과를 나타내는 특정 용어와 같은 일반적인 특징을 배웠을 것입니다. Finbert 모델은 수입 보고서의 진술에 대해 자동으로 표시하는 것과 같은보다 전문화 된 기능의 기초가 될 수 있습니다.

올바른 미리 훈련 된 모델을 선택하려면 원래의 교육이 의도 된 응용 프로그램과 잘 일치하도록하는 것이 포함되며, 이는 성공적인 적응의 가능성을 증가시킵니다.

2. 모델 아키텍처 수정

적절한 미리 훈련 된 모델이 선택되면 아키텍처는 새로운 작업에 맞게 조정됩니다. 이 단계는 일반적으로 다음을 포함합니다.

  • 출력 레이어 교체 :원래 작업 용으로 설계된 미리 훈련 된 모델의 최종 레이어는 제거되고 새로운 작업 별 레이어 (예 : 분류를위한 완전히 연결된 레이어)로 대체됩니다.
  • 일반적인 특징 유지 :이미지의 가장자리 나 텍스트의 언어 관계와 같은 일반화 가능한 패턴을 캡처하는 내부 레이어는 종종 보존됩니다. 이러한 기능은 관련 작업으로 효과적으로 전송할 수 있습니다.

건축 수정의 정도는 특정 사용 사례와 소스와 대상 작업 사이의 유사성 정도에 따라 다릅니다.

3. 새로운 데이터에 대한 모델 교육

마지막 단계에서 수정 된 모델은 새로운 작업에 맞춰진 데이터 세트에서 교육됩니다. 이 단계는 데이터 세트 크기와 작업 간의 유사성에 따라 두 가지 주요 방식으로 접근 할 수 있습니다.

  • 기능 추출 :
    • 새로 추가 된 레이어 만 훈련을 받고 원래 레이어는 변경되지 않습니다.
    • 이 방법은 새로운 작업이 원래 작업과 밀접하게 관련되어 있거나 대상 데이터 세트가 작을 때 이상적입니다.
  • 미세 조정 :
    • 전체 모델은 재교육되지만 사전 훈련 단계에서 배운 귀중한 기능을 잃지 않도록 더 작은 데이터 세트와 학습 속도를 갖습니다.
    • 이 접근법은 대형 데이터 세트에 적합하거나 새로운 작업이 원래 작업과 크게 다른 경우에 더 적합합니다.

접근 방식에 관계없이 목표는 모델을 충분한 관련 데이터에 노출시켜 새로운 응용 프로그램을 효과적으로 배우고 일반화 할 수 있도록하는 것입니다.

전송 학습 대 미세 조정

전송 학습은 종종 미세 조정과 혼동됩니다. 개념은 밀접한 관련이 있지만 주목할만한 차이점이 있습니다. 가장 중요한 것은 이전 학습은 새로운 목적을 위해 미리 훈련 된 모델을 조정하는 전반적인 과정이며 미세 조정이 포함될 수도 있고 아닐 수도 있습니다. 반면에 미세 조정은 전체 전송 학습 프로세스의 일부로 모델의 매개 변수 중 일부 또는 전부를 재교육하는 데 사용되는 여러 기술 중 하나입니다. 미세 조정은 전송 학습의 하위 집합이 아닙니다. 전송 학습 이외의 ML의 다른 맥락에서 응용 프로그램이 있으며, 예를 들어 특정 데이터 하위 그룹의 모델 성능을 개선하거나 모델을 데이터 분포를 이동시키는 데 적응하는 것과 같은 응용 프로그램이 있습니다.

또한 전송 학습은 일반적으로 기존 레이어를 제거하고 교체하거나 레이어 간의 연결을 재구성하는 등 모델의 아키텍처를 실제로 변경해야합니다. 대조적으로, 미세 조정은 일반적으로 아키텍처의 상당한 변화없이 작고 정확한 매개 변수 조정을 포함합니다.

차고를 아파트로 전환하는 것과 같이 다른 목적을 위해 설계된 건물을 개조하는 것으로 전송 학습을 생각하십시오. 여기에는 Windows 및 단열재를 설치하거나 새로운 실 및 유틸리티 연결을 추가하는 것과 같은 구조적 업데이트가 포함될 수 있습니다. 반면에 미세 조정은 차고를 구조를 크게 변경하지 않고 추가 작업 공간으로 사용하는 것과 비슷합니다. 예를 들어, 조명이 교체되고 새로운 선반이 추가 될 수 있지만 차고의 전체 구조와 건축은 변경되지 않았습니다.

전이 학습의 유형

전송 학습은 각각 특정 시나리오에 적합한 여러 형태를 취할 수 있습니다. 적절한 유형은 대상 도메인에서 레이블이 붙은 데이터의 가용성, 소스와 대상 작업 간의 유사성 및 특정 비즈니스 요구 사항과 같은 요소에 따라 다릅니다. 전이 학습의 주요 유형은 유도 전이 학습,변형 전이 학습감독되지 않은 전송 학습입니다. 또한소수의 학습제로 샷 학습과 같은 현대적인 접근 방식은 종종 전송 학습 기술을 활용합니다.

유도 전이 학습

유도 전송 학습은 가장 일반적인 전송 학습 유형이며 대상 및 소스 작업이 밀접하게 관련되어 있고 매우 다를 때 사용됩니다.

예 :의료 조직은 전송 학습을 사용하여 특정 뇌 조건을 감지하기 위해 일반 MRI 이미지를 분류하도록 훈련 된 모델을 조정할 수 있습니다.

이 시나리오에서는 소스 모델의 일반적인 시각적 인식 기능이 대상 작업으로 잘 전달되지만 대상 도메인에 표시된 데이터가 필요합니다. 전송 학습은 특히 새로운 레이블을 사용할 수있는 작업에 효과적이지만 작업 자체는 소스와는 다릅니다 (일반적으로보다 전문화 된 버전).

변형 전이 학습

형질 전이 전송 학습에서 소스 및 대상 작업은 동일하지만 문제 영역은 다릅니다.

예 :영어 이메일로 훈련 된 스팸 필터는 프랑스 이메일을 분류하도록 조정할 수 있습니다. 이 시나리오에서는 소스 모델의 텍스트 패턴 인식과 이메일 구조에 대한 이해가 어휘와 언어 패턴이 다른 경우에도 대상 작업으로 잘 전송됩니다. 작업 (이메일 분류)은 변경되지 않지만 데이터 (언어)는 다릅니다. 이 접근법은 소스 도메인에 데이터가 풍부하고 대상 도메인에 거의 또는 전혀 없을 때 유용합니다.

감독되지 않은 이전 학습

감독되지 않은 전송 학습은 대상 도메인에서 라벨이 붙은 데이터를 사용할 수 없을 때 사용됩니다. 일반적으로 이러한 유형의 전송 학습은 클러스터링 또는 차원 감소와 같은 감독되지 않은 작업을 수행하도록 모델을 훈련시키는 데 사용됩니다.

예 :IT 조직은 감독되지 않은 전송 학습을 사용하여 AI 기반 위협 탐지 시스템이 라벨이 붙은 예제없이 새로운 위협 유형을 식별하는 데 도움이 될 수 있습니다.

이 경우 모델은 정상적인 패턴에 대한 일반적인 이해와 잠재적 위협에 대한 일반적인 이해를 이전에 알려지지 않은 새로운 위협 유형으로 전달할 수 있습니다.

소수의 학습

소수의 샷 학습 (FSL)은 전송 학습을 사용하여 모델이 매우 제한된 데이터에서 학습하는 데 도움이되는 ML 기술입니다. FSL에서 모델은 몇 가지 예제를 사용하여 새로운 작업 또는 분류를 수행하는 법을 배웁니다.

예 :얼굴 인식 모델은 단 하나 또는 두 개의 사진을 기반으로 새로운 개인을 식별 할 수 있습니다.

제로 샷 학습

제로 샷 학습 (ZSL)은 모델이 교육에서 볼 수없는 새로운 수업을 배우는 데 도움이되는 ML 기술입니다. ZSL은 종종 전송 학습 개념을 사용하지만 시맨틱 관계 및 보조 정보에 의존하여 학습 된 지식을 새로운 범주로 일반화합니다.

예 :모델은 다른 유형의 물고기에 대한 이해와 틸라피아가 훈련 중에 틸라피아를 본 적이 없지만 틸라피아의 유형이라는 지식을 바탕으로 틸라피아를 인식하는 법을 배울 수 있습니다.

이전 학습의 이점

이전 학습은 맞춤형 AI 솔루션을 개발하려는 조직에 몇 가지 장점을 제공합니다. 여기에는 개발 및 리소스 요구 사항 감소, 데이터가 제한된 성능 및 개선 된 모델 견고성이 포함됩니다.

개발 및 자원 요구 사항 감소

전송 학습은 개발주기를 동시에 단축하고 AI 응용 프로그램의 리소스 요구 사항을 줄이는 좋은 방법입니다. 처음부터 모델을 구축하려면 데이터 수집, 청소 및 라벨링 데이터가 포함되며 훈련이 시작되기 전에도 마찬가지입니다. 이전 학습, 개발 및 배치는 몇 달이 아닌 몇 주 또는 며칠이됩니다. 처음부터 모델을 훈련하려면 종종 상당한 계산 시간과 힘이 필요하지만 전송 학습은 그렇지 않습니다. 이는 조직이 AI 솔루션을 시장에 더 빠르고 덜 오버 헤드로 제공 할 수 있음을 의미합니다.

제한된 데이터로 우수한 성능

전송 학습은 제한된 교육 데이터 세트에서도 모델을 잘 수행 할 수 있습니다. 이는 라벨이 붙은 데이터를 찾기 어렵거나 조달하기가 비용이 많이 드는 제조 또는 의료 서비스와 같은 전문 분야의 조직에 매우 유용합니다. 예를 들어, 의료 조직은 특정 의학적 상태의 수백 개의 라벨이 붙은 사례를 가질 수 있지만 전송 학습을 사용하여 수행자 탐지 시스템을 구축 할 수 있습니다.

모델 견고성 및 신뢰성 향상

직관적이지 않은 것처럼 보일 수 있지만, 전송 학습을 통해 훈련 된 모델은 종종 제한된 데이터에 대해 처음부터 훈련 된 모델보다 더 잘 일반화됩니다. 사전 훈련에 사용되는 대규모 데이터 세트는보다 구체적인 도메인 및 작업에 일반화 할 수있는 다양한 패턴과 기능을 제공하기 때문입니다. 또한 이미 테스트 된 모델로 시작하면 모델 고장의 위험이 줄어들고 신뢰성이 높아집니다. 이러한 위험 감소는 의료 및 금융과 같은 규제 산업에서 중요합니다.

이전 학습의 도전

많은 이점에도 불구하고 이전 학습에는 몇 가지 도전과 한계가 있습니다. 조직은 이러한 과제를 이해하여 올바른 구현 전략을 설계하고 현실적인 기대를 가질 수 있도록해야합니다. 이러한 과제에는 부정적인 전달, 도메인 불일치 및 모델 선택이 포함됩니다.

부정적인 전송

부정적인 전송에서, 소스 도메인의 지식은 대상 작업을 배우는 것을 방해하고 미리 훈련 된 모델이 처음부터 훈련 된 것보다 더 나쁘게 수행됩니다. 이것은 전송 학습의 가장 일반적인 과제 중 하나이며 일반적으로 대상 및 소스 도메인이 너무 다를 때 발생합니다. 예를 들어, 학습 된 기능이 새로운 작업과 관련이 없기 때문에 이미지에서 개 품종을 분류하도록 훈련 된 컴퓨터 비전 모델은 의료 이미지 분석에 적합하면 성능이 저하 될 수 있습니다. 모피 질감, 꼬리 길이 및 귀 모양과 같은 개 품종을 구별하는 데 도움이되는 기능은 의료 스캔을 분류하려고 할 때 의미있는 응용 프로그램이 없습니다. 조직은 부정적인 전송을 피하기 위해 소스와 대상 도메인을 신중하게 비교해야합니다.

도메인 불일치

도메인 불일치는 소스와 대상 도메인에 사용할 수있는 데이터의 차이가 모델 성능을 줄일 때 발생합니다. 이러한 차이에는 데이터 품질 또는 분포의 변화가 포함될 수 있습니다. 네거티브 전송과 달리 도메인 불일치로 고통받는 모델은 처음부터 훈련 된 것보다 여전히 더 나은 성능을 발휘할 수 있습니다. 예를 들어, CAT 이미지의 크고 다양한 데이터 세트에 대해 훈련 된 모델은 개를 식별하는 데 잘되지 않습니다. 그러나이 모델은 일반적으로 작은 개 이미지 세트에 대해 훈련 된 모델보다 일반적으로 더 잘 작동합니다.

모델 선택 및 수정

적절한 미리 훈련 된 모델을 선택하고이를 수정하는 방법을 알아내는 것이 복잡하고 시간이 소요될 수 있습니다. 조직은 소스와 대상 도메인 간의 정렬, 사용 가능한 인프라 및 인사 리소스, 교육 데이터 세트의 규모 및 품질 및 모델 아키텍처를 포함한 모든 종류의 요소를 고려해야합니다. 또한, 미리 훈련 된 모델은 종종 즉시 명백하지 않을 수있는 가정과 종속성을 염두에두고 구축됩니다. 적절한 모델을 선택하고 올바른 수정을하려면 모든 조직에 액세스 할 수없는 전문 지식, 실험 시간 및 인프라가 필요합니다.

이전 학습의 응용

전송 학습은 새로운 모델을 구축하는 것보다 특정 작업이나 도메인에 대한 AI 시스템을 만들 수있는보다 쉽고 안정적인 방법입니다. 그 후,이 기술은 광범위한 채택을 발견했으며 컴퓨터 비전, 자연어 처리 (NLP), 음성 인식 및 세대를 포함한 수많은 응용 프로그램이 있습니다.

컴퓨터 비전

전송 학습은 컴퓨터 비전에서 매우 성공적이었습니다. 조직은 수백만 개의 이미지에서 일반화 가능한 기능을 배운 미리 훈련 된 비전 모델을 사용하여 비교적 쉽게 맞춤형 비전 애플리케이션을 만들 수 있습니다. 예를 들어, 보안 회사는 미리 훈련 된 컴퓨터 비전 모델을 조정하여 감시 피드에서 의심스러운 행동을 감지하거나 많은 양의 교육 데이터 나 전문 모델 개발없이 관심있는 특정 객체를 식별 할 수 있습니다.

자연어 처리 (NLP)

전송 학습의 주요 응용은 특정 NLP 작업을 처리하기위한 모델을 교육하는 것입니다. 예를 들어, 법률 회사는 문서 분석 도구의 기초로 미리 훈련 된 NLP 모델을 선택한 다음 전송 학습을 사용하여 특정 법적 영역을 처리하도록 모델에 가르 칠 수 있습니다.

음성 인식과 세대

전송 학습은 또한 전문성 음성 응용 프로그램에 대한 모델을 훈련시키는 데 사용됩니다. 예를 들어, 콜센터는 일반화 된 음성 모델을 조정하여 업계 별 용어를 이해하고보다 맞춤형 자동 고객 서비스 시스템을 만들 수 있습니다. 또 다른 예는 전송 학습을 사용하여 특정 방언 및 언어를 처리하기 위해 일반적인 언어 작업을 위해 교육 된 음성 명령 모델을 조정하는 것입니다.