Aprendizagem de transferência: o atalho para o desenvolvimento mais inteligente e rápido da IA

Publicados: 2025-02-04

Reutilizar e adaptar os modelos de IA pré-treinados está mudando como as tarefas de aprendizado de máquina (ML) são abordadas. A aprendizagem de transferência é um método eficiente e econômico para adaptar sistemas de IA grandes e complexos a novos domínios e problemas. Neste guia, exploraremos os principais aspectos do aprendizado de transferência: como ele funciona, seus vários tipos e aplicações e suas vantagens e desafios.

Índice

O que é o aprendizado de transferência?
Como funciona o aprendizado de transferência?
Transferência de aprendizado vs. ajuste fino
Tipos de aprendizado de transferência
Benefícios do aprendizado de transferência
Desafios de aprendizado de transferência
Aplicações do aprendizado de transferência

O que é o aprendizado de transferência?

O aprendizado de transferência é uma poderosa técnica de aprendizado de máquina que aproveita um modelo pré-treinado para uma tarefa diferente, mas relacionada. Ele usa o conhecimento geral capturado em um modelo existente como base para aprender a resolver problemas em domínios mais específicos e relacionados.

A Learning de Transferência oferece várias vantagens: acelera o desenvolvimento e a implantação de aplicativos personalizados de inteligência artificial (AI), reduz os custos de recursos e geralmente oferece melhor desempenho do que criar um modelo a partir do zero. Como resultado, o aprendizado de transferência é particularmente valioso para as organizações que visam desenvolver soluções especializadas de IA sem as vastas quantidades de dados ou poder computacional normalmente necessário para treinar um modelo do zero.

Trabalhe mais inteligente com gramática

O parceiro de redação da IA para qualquer pessoa com trabalho para fazer

Exemplo de aprendizado de transferência

Considere o exemplo de um fabricante que deseja criar um sistema de IA para detectar defeitos do produto. Uma opção é contratar praticantes especializados de ML, coletar e curar milhões de imagens relevantes do produto e deixar de lado o tempo e os recursos computacionais necessários para treinar um modelo do zero. A aprendizagem de transferência apresenta uma opção muito melhor: o fabricante pode começar com um modelo que já concluiu treinamento caro e demorado em um conjunto de dados de imagem grande e padronizado, como o ImageNet. O fabricante pode então usar o aprendizado de transferência de forma rápida e eficiente para adaptar o modelo para detectar defeitos em imagens específicas do produto.

Como funciona o aprendizado de transferência?

A aprendizagem de transferência adapta o conhecimento geral de um modelo pré-treinado a uma nova tarefa relacionada. O processo normalmente envolve três etapas principais:

Selecionando um modelo pré-treinado apropriado
Atualizando a arquitetura do modelo
Treinando o modelo em novos dados

1. Selecione um modelo pré-treinado

O primeiro passo é escolher um modelo que já foi treinado em um conjunto de dados em um domínio relacionado à tarefa de destino. O modelo pré-treinado deveria ter aprendido recursos gerais e de alto nível relevantes para o novo aplicativo.

Exemplo em saúde:uma organização de saúde pode começar com um modelo pré-treinado no conjunto de dados Chestx-Ray14 NIH (National Institutes of Health), que contém uma vasta coleção de imagens médicas rotuladas. O modelo teria aprendido recursos gerais, como como as imagens de raios-X são estruturadas e como as propriedades biológicas se correlacionam com os componentes da imagem. Este modelo pode servir como base para o desenvolvimento de ferramentas de diagnóstico para condições específicas localizadas na área do peito e visíveis em imagens de raios-X, como pneumonia ou câncer de pulmão.
Exemplo em finanças:uma empresa financeira pode usar Finbert, um modelo pré-treinado em documentos financeiros, chamadas de ganhos e registros regulatórios. O modelo teria aprendido recursos gerais, como a estrutura do idioma financeiro e os termos específicos, indicando sentimento de mercado e desempenho nos negócios. O modelo Finbert poderia servir de base para uma funcionalidade mais especializada, como sinalizando automaticamente as declarações nos relatórios de ganhos.

A seleção do modelo pré-treinado certo envolve garantir que seu treinamento original alinhe bem com a aplicação pretendida, pois isso aumenta a probabilidade de adaptação bem-sucedida.

2. Modificando a arquitetura do modelo

Depois que um modelo pré-treinado adequado é selecionado, sua arquitetura é adaptada para se adequar à nova tarefa. Esta etapa normalmente inclui:

Substituindo as camadas de saída:as camadas finais do modelo pré-treinado, projetadas para a tarefa original, são removidas e substituídas por novas camadas específicas de tarefas (por exemplo, camadas totalmente conectadas para classificação).
Retter características gerais:as camadas internas, que capturam padrões generalizáveis como bordas em imagens ou relações linguísticas no texto, são frequentemente preservadas. Esses recursos podem transferir efetivamente para tarefas relacionadas.

A extensão da modificação arquitetônica depende do caso de uso específico e do grau de similaridade entre as tarefas de origem e destino.

3. Treinar o modelo em novos dados

Na etapa final, o modelo modificado é treinado em um conjunto de dados adaptado à nova tarefa. Esta etapa pode ser abordada de duas maneiras principais, dependendo do tamanho do conjunto de dados e da semelhança entre as tarefas:

Extração de recursos:
- Somente as camadas recém -adicionadas são treinadas, enquanto as camadas originais permanecem inalteradas.
- Esse método é ideal quando a nova tarefa está intimamente relacionada à tarefa original ou quando o conjunto de dados de destino é pequeno.
Afinação:
- Todo o modelo é treinado, mas com um conjunto de dados menor e taxa de aprendizado para evitar a perda dos recursos valiosos aprendidos durante a fase de pré-treinamento.
- Essa abordagem é mais adequada para conjuntos de dados grandes ou quando a nova tarefa difere significativamente da tarefa original.

Independentemente da abordagem, o objetivo é expor o modelo a dados relevantes suficientes, permitindo aprender e generalizar o novo aplicativo de maneira eficaz.

Transferência de aprendizado vs. ajuste fino

O aprendizado de transferência é frequentemente confundido com o ajuste fino. Embora os conceitos estejam intimamente relacionados, existem diferenças notáveis. Mais importante, o aprendizado de transferência é o processo geral de adaptar um modelo pré-treinado para um novo objetivo e pode ou não envolver o ajuste fino. Por outro lado, o ajuste fino é uma das várias técnicas usadas para treinar alguns ou todos os parâmetros do modelo como parte do processo geral de aprendizado de transferência. O ajuste fino não é apenas um subconjunto de aprendizado de transferência; Possui aplicativos em outros contextos no ML fora do aprendizado de transferência, como melhorar o desempenho do modelo em subgrupos específicos de dados ou adaptar um modelo para mudar distribuições de dados.

Além disso, o aprendizado de transferência geralmente exige fazer alterações reais na arquitetura do modelo, como remover e substituir camadas existentes ou reestruturar as conexões entre as camadas. Por outro lado, o ajuste fino geralmente envolve ajustes pequenos e precisos de parâmetros sem alterações significativas na arquitetura.

Pense no aprendizado de transferência como renovação de um edifício projetado para um propósito, para que possa ser usado para outro, como converter uma garagem em um apartamento. Isso provavelmente envolveria atualizações estruturais, como instalar janelas e isolamento ou até adicionar novas salas e conexões utilitárias. O ajuste fino, por outro lado, é mais como usar a garagem como um espaço de trabalho extra sem fazer grandes alterações na estrutura. Por exemplo, as luzes podem ser substituídas e novas prateleiras podem ser adicionadas, mas a estrutura geral e a arquitetura da garagem permanecem inalteradas.

Tipos de aprendizado de transferência

A aprendizagem de transferência pode assumir vários formulários, cada um adequado a cenários específicos. O tipo apropriado depende de fatores como a disponibilidade de dados rotulados no domínio de destino, a semelhança entre tarefas de origem e destino e requisitos de negócios específicos. Os principais tipos de aprendizado de transferência são aprendizado de transferência indutiva,aprendizado de transferência transdutivaeaprendizado de transferência não supervisionado. Além disso, abordagens modernas, comoaprendizado de poucos tiroseaprendizado zero,geralmente aproveitam as técnicas de aprendizado de transferência.

Aprendizagem de transferência indutiva

O aprendizado de transferência indutivo é o tipo mais comum de aprendizado de transferência e é usado quando as tarefas de destino e fonte estão intimamente relacionadas e muito diferentes.

Exemplo:Uma organização de saúde pode usar o aprendizado de transferência para adaptar um modelo treinado para classificar as imagens gerais de ressonância magnética para detectar condições cerebrais específicas.

Nesse cenário, os recursos gerais de reconhecimento visual do modelo de origem são bem transferidos para a tarefa de destino, mas são necessários dados rotulados no domínio de destino. O aprendizado de transferência é particularmente eficaz para tarefas em que novos rótulos estão disponíveis, mas a tarefa em si é distinta de (e geralmente uma versão mais especializada da) da fonte.

Aprendizagem de transferência transdutiva

No aprendizado de transferência transdutiva, as tarefas de origem e destino são as mesmas, mas o domínio do problema é diferente.

Exemplo:Um filtro de spam treinado em e-mails em inglês pode ser adaptado para classificar e-mails franceses. Nesse cenário, o reconhecimento de padrões de texto do modelo de origem e a compreensão da estrutura de email transferem bem para a tarefa de destino, mesmo que o vocabulário e os padrões de linguagem sejam diferentes. A tarefa (classificação de email) permanece inalterada, mas os dados (idioma) diferem. Essa abordagem é útil quando o domínio de origem possui dados marcados abundantes e o domínio de destino tem pouco ou nenhum.

Aprendizagem de transferência não supervisionada

O aprendizado de transferência não supervisionado é usado quando os dados rotulados não estão disponíveis no domínio de destino. Geralmente, esse tipo de aprendizado de transferência é usado para treinar modelos para executar tarefas não supervisionadas, como redução de agrupamento ou dimensionalidade.

Exemplo:Uma organização de TI pode usar o aprendizado de transferência não supervisionado para ajudar um sistema de detecção de ameaças a IA a identificar novos tipos de ameaças sem exemplos rotulados.

Nesse caso, o modelo pode transferir seu entendimento geral dos padrões normais versus ameaças em potencial para novos tipos de ameaças, anteriormente desconhecidos.

Aprendizagem de poucos tiros

A aprendizagem de poucos tiro (FSL) é uma técnica de ML que usa o Learning de transferência para ajudar um modelo a aprender com dados muito limitados. Na FSL, os modelos aprendem a executar novas tarefas ou classificações usando apenas alguns exemplos.

Exemplo:Um modelo de reconhecimento facial pode identificar um novo indivíduo com base em apenas uma ou duas fotos.

Aprendizagem zero-tiro

O Zero Shot Learning (ZSL) é uma técnica de ML que ajuda um modelo a aprender novas classes não vistas no treinamento. O ZSL geralmente usa conceitos de aprendizado de transferência, mas depende de relacionamentos semânticos e informações auxiliares para generalizar o conhecimento aprendido para novas categorias.

Exemplo:Um modelo pode aprender a reconhecer uma tilápia com base em sua compreensão de outros tipos de peixes e seu conhecimento de que a tilápia é um tipo de peixe, apesar de nunca ter visto uma tilápia durante o treinamento.

Benefícios do aprendizado de transferência

O aprendizado de transferência oferece várias vantagens para as organizações que buscam desenvolver soluções de IA personalizadas. Isso inclui requisitos reduzidos de desenvolvimento e recursos, bom desempenho com dados limitados e melhor robustez do modelo.

Requisitos de desenvolvimento e recursos reduzidos

A aprendizagem de transferência é uma ótima maneira de reduzir simultaneamente o ciclo de desenvolvimento e reduzir os requisitos de recursos para aplicativos de IA. Construir um modelo do zero envolve a coleta, a limpeza e a rotulagem de dados - e isso é antes do treinamento pode começar. Com o aprendizado de transferência, o desenvolvimento e a implantação se tornam uma questão de semanas ou até dias em vez de meses. Treinar um modelo do zero geralmente requer tempo e poder computacional significativos, enquanto o aprendizado de transferência não. Isso significa que as organizações podem levar suas soluções de IA ao mercado mais rapidamente e com menos sobrecarga.

Bom desempenho com dados limitados

O aprendizado de transferência permite que os modelos tenham um bom desempenho, mesmo com conjuntos de dados de treinamento limitados. Isso é extremamente útil para organizações em campos especializados, como fabricação ou saúde, onde são difíceis de encontrar dados rotulados ou caros. Por exemplo, uma organização de saúde pode ter apenas algumas centenas de exemplos rotulados de condições médicas específicas, mas pode usar o aprendizado de transferência para construir um sistema de detecção de desempenho, independentemente.

Robustez e confiabilidade do modelo aprimorado

Embora possa parecer inintivo, os modelos treinados através do aprendizado de transferência geralmente generalizam melhor do que os modelos treinados do zero em dados limitados. Isso ocorre porque os conjuntos de dados em larga escala usados para pré-treinamento fornecem diversos padrões e recursos que são generalizáveis para domínios e tarefas mais específicos. Além disso, começar com um modelo que já foi testado reduz o risco de falha do modelo e aumenta a confiabilidade. Essa diminuição da redução de risco é importante em indústrias regulamentadas, como saúde e finanças.

Desafios de aprendizado de transferência

Apesar de seus muitos benefícios, o aprendizado de transferência também tem vários desafios e limitações. As organizações devem entender esses desafios para que possam projetar a estratégia de implementação certa e ter expectativas realistas. Esses desafios incluem transferência negativa, incompatibilidade de domínio e seleção de modelos.

Transferência negativa

Na transferência negativa, o conhecimento do domínio da fonte impede o aprendizado da tarefa de destino e leva ao modelo pré-treinado com um desempenho pior do que um treinado do zero. Esse é um dos desafios mais comuns com o aprendizado de transferência e geralmente ocorre quando os domínios de destino e origem são muito diferentes. Por exemplo, um modelo de visão computacional treinado para classificar raças de cães nas imagens provavelmente terá um desempenho ruim se adaptado à análise de imagens médicas, pois os recursos aprendidos são irrelevantes para a nova tarefa. Recursos que ajudam a distinguir raças de cães, como textura de pele, comprimento da cauda e formato de orelha, não têm aplicação significativa ao tentar categorizar as varreduras médicas. As organizações devem comparar cuidadosamente os domínios de origem e destino para evitar transferência negativa.

Incompatibilidade de domínio

A incompatibilidade de domínio ocorre quando as diferenças entre os dados disponíveis para os domínios de origem e destino reduzem o desempenho do modelo. Essas diferenças podem incluir variações na qualidade ou distribuição dos dados. Ao contrário da transferência negativa, um modelo que sofre de incompatibilidade de domínio ainda pode ter um desempenho melhor do que um treinado do zero. Por exemplo, um modelo treinado em um conjunto de dados grande e variado de imagens de gato não se sairá bem na identificação de cães. No entanto, o modelo ainda se sairá melhor em geral do que um modelo treinado em um pequeno conjunto de imagens de cães.

Seleção e modificação de modelos

Selecionar o modelo pré-treinado apropriado e descobrir como modificá-lo pode ser complexo e demorado. As organizações precisam considerar todos os tipos de fatores, incluindo o alinhamento entre os domínios de origem e de destino, infraestrutura disponível e recursos de pessoal, tamanho e qualidade do conjunto de dados de treinamento e arquitetura de modelo. Além disso, os modelos pré-treinados são frequentemente construídos com suposições e dependências em mente que podem não ser imediatamente aparentes. Selecionar o modelo apropriado e fazer as modificações corretas requer experiência, tempo para experimentação e infraestrutura à qual nem todas as organizações possam ter acesso.

Aplicações do aprendizado de transferência

O aprendizado de transferência é uma maneira mais fácil e confiável de criar sistemas de IA para tarefas ou domínios específicos do que criar um novo modelo. Posteriormente, a técnica encontrou adoção generalizada e possui inúmeras aplicações, incluindo visão computacional, processamento de linguagem natural (PNL) e reconhecimento e geração de fala.

Visão computacional

A aprendizagem de transferência tem sido muito bem -sucedida em visão computacional. As organizações podem criar aplicativos de visão personalizados com relativamente facilidade usando modelos de visão pré-treinados que aprenderam recursos generalizáveis de milhões de imagens. Por exemplo, uma empresa de segurança pode adaptar um modelo de visão computacional pré-treinamento para detectar comportamento suspeito em feeds de vigilância ou identificar objetos de interesse específicos, tudo sem quantidades maciças de dados de treinamento ou desenvolvimento de modelos especializados.

Processamento de linguagem natural (NLP)

Uma grande aplicação do aprendizado de transferência é treinar um modelo para lidar com tarefas específicas de PNL. Por exemplo, um escritório jurídico pode selecionar um modelo de PNL pré-treinado como base para uma ferramenta de análise de documentos e, em seguida, ensinar o modelo a lidar com domínios legais específicos usando o aprendizado de transferência.

Reconhecimento de fala e geração

O aprendizado de transferência também é usado para treinar modelos para aplicações de fala especializadas. Por exemplo, um call center poderia adaptar um modelo de fala generalizado para entender a terminologia específica do setor e criar um sistema de atendimento ao cliente automatizado mais personalizado. Outro exemplo seria o uso do aprendizado de transferência para adaptar um modelo de comando de voz treinado para tarefas gerais de idiomas para lidar com dialetos e idiomas específicos.