Explicação do aprendizado zero-shot: o futuro do aprendizado de máquina sem rótulos

Publicados: 2025-01-13

O aprendizado zero-shot (ZSL) está revolucionando o aprendizado de máquina (ML), permitindo que modelos classifiquem ou prevejam resultados para conceitos que nunca encontraram antes, marcando um afastamento das abordagens tradicionais que exigem extensos dados rotulados. Este guia explora como o ZSL funciona, suas aplicações, como ele se compara ao aprendizado de poucas tentativas (FSL) e seus desafios e potencial futuro.

Índice

O que é aprendizagem imediata?
Como funciona o aprendizado zero-shot
Aprendizagem zero-shot vs. aprendizagem de poucas tentativas e aprendizagem única
Aprendizagem zero-shot versus solicitação zero-shot
Aplicações de aprendizagem zero-shot
Benefícios do aprendizado zero-shot
Desafios da aprendizagem zero-shot

Trabalhe de maneira mais inteligente com Grammarly

O parceiro de redação de IA para qualquer pessoa com trabalho a fazer

O que é aprendizagem zero-shot (ZSL)?

O ZSL permite que modelos de aprendizado de máquina façam previsões sobre categorias invisíveis sem exigir exemplos de treinamento específicos para essas categorias. Ao contrário dos modelos tradicionais de aprendizagem supervisionada, que dependem fortemente de conjuntos de dados rotulados onde cada categoria deve ser explicitamente representada, o ZSL aproveita informações auxiliares – como incorporações semânticas ou atributos – para generalizar o conhecimento.

Por exemplo, um modelo de aprendizagem supervisionada treinado para classificar animais precisaria de exemplos rotulados de “cachorro”, “gato” e “zebra” para reconhecê-los, enquanto um modelo ZSL treinado em imagens de animais poderia identificar uma zebra com base em atributos descritivos como “ listrado” e “parecido com um cavalo”, mesmo sem exposição a exemplos anteriores. Isso torna o ZSL particularmente útil para tarefas que envolvem conjuntos de dados grandes e não rotulados ou situações onde a coleta de dados rotulados é impraticável. Suas aplicações abrangem visão computacional, processamento de linguagem natural (PNL), robótica e muito mais.

Como funciona o aprendizado zero-shot

Os modelos ZSL são primeiro pré-treinados em um grande conjunto de dados rotulados para criar uma base de conhecimento. O modelo extrai informações auxiliares dos dados rotulados, incluindo recursos como cor, forma e sentimento.

Em seguida, ele usa esses recursos para mapear relacionamentos semânticos entre categorias (ou classes) de dados visíveis e invisíveis. Este processo, denominado transferência de conhecimento, permite que um modelo ZSL entenda, por exemplo, que um pato e um ganso estão relacionados porque ambos têm bico, penas e pés palmados.

As técnicas mais comuns são ZSL baseada em atributos, ZSL baseada em incorporação semântica e ZSL generalizada. Abaixo, examinamos cada um.

Aprendizagem zero-shot baseada em atributos

Os modelos ZSL baseados em atributos são mais frequentemente usados para tarefas de visão computacional. Eles trabalham treinando em conjuntos de dados de imagens rotulados por humanos. Os rótulos consistem em atributos que a pessoa que os rotula considera úteis. Para cada imagem, a pessoa aplica uma descrição textual de suas características, como cor, forma ou outras características.

Por exemplo, na classificação de imagens, atributos como “cinza”, “quadrúpedes” e “cachorro” podem descrever categorias diferentes. Através do treinamento, o modelo aprende a associar esses atributos a categorias específicas.

Quando você mostra ao modelo um exemplo de algo novo – como um tipo de animal que ele nunca viu antes – ele pode descobrir se está olhando para uma classe semelhante, mas não igual, às classes vistas no treinamento.

Quando o modelo encontra uma categoria invisível – por exemplo, um lobo – ele pode inferir a classe analisando atributos compartilhados com categorias aprendidas, mesmo que o rótulo “lobo” não tenha feito explicitamente parte do treinamento. Esses atributos interpretáveis por humanos melhoram a explicabilidade e permitem que o modelo generalize para novas classes.

Aprendizagem zero-shot baseada em incorporação semântica

Essa abordagem é semelhante ao ZSL baseado em atributos, mas em vez de humanos criarem rótulos de atributos para treinamento, o modelo gera o que é conhecido como incorporações semânticas dos dados de treinamento. Essas incorporações semânticas são codificadas como vetores – formas matemáticas de representar objetos do mundo real – e então mapeadas em um espaço de incorporação.

O espaço de incorporação permite que o modelo organize seu conhecimento contextual agrupando informações relacionadas mais próximas. Por exemplo, as categorias “cachorro” e “lobo” estarão mais próximas uma da outra em um espaço de incorporação do que as categorias “cachorro” e “pássaro”, devido a características semânticas compartilhadas. Isso é semelhante a como os modelos de linguagem grande (LLMs) usam incorporações semânticas para agrupar sinônimos devido aos seus significados semelhantes.

Quando o modelo recebe categorias não vistas (outra maneira de dizer “novos dados que o modelo não encontrou antes”), ele projeta vetores dessas novas classes no mesmo espaço de incorporação e mede a distância entre eles e os vetores das classes que já conhece. sobre. Isso fornece ao modelo o contexto para os exemplos não vistos e permite inferir relações semânticas entre classes conhecidas e desconhecidas.

Aprendizagem generalizada de tiro zero

A maioria das técnicas de aprendizado zero-shot treina o modelo em um tipo de dados e depois o aplica a um problema diferente, mas relacionado. Essa é a ideia de “zero shots”: o modelo não é exposto a nenhum exemplo das novas classes antes de encontrá-las na natureza.

No entanto, os aplicativos do mundo real nem sempre são tão pretos e brancos. O conjunto de dados que você deseja que seu modelo ZSL classifique pode conter itens de classes conhecidas junto com novas classes.

O problema é que os modelos ZSL tradicionais às vezes podem mostrar uma forte tendência para rotular erroneamente novas classes como coisas que já conhecem se você misturar o novo com o familiar. Portanto, é útil ter um modelo ZSL que possa ser generalizado para um conjunto de dados que possa conter classes já vistas no treinamento.

Na ZSL generalizada, o modelo dá um passo adicional para reduzir o preconceito em relação a categorias conhecidas. Antes de realizar a classificação, ele primeiro decide se o objeto em questão pertence a uma classe conhecida ou desconhecida.

Aprendizagem zero-shot vs. aprendizagem de poucas tentativas e aprendizagem única

Assim como o ZSL, o aprendizado rápido (FSL) e o aprendizado único (OSL) permitem que modelos de aprendizado profundo executem novas tarefas com o mínimo ou nenhum dado novo. Todas as três abordagens baseiam-se no mapeamento das relações entre características de exemplos conhecidos para inferir padrões em exemplos desconhecidos. Seu principal objetivo é criar modelos que sejam eficazes em cenários do mundo real onde os dados são escassos ou onde não há tempo para treinar um novo modelo para uma tarefa específica.

A principal diferença está em como eles lidam com novos dados:

FSLenvolve fornecer ao modelo um pequeno número de exemplos rotulados para a nova classe que ele precisa identificar.
OSLé um caso mais específico, onde o modelo mostra apenas um exemplo rotulado da nova classe.

Tanto o FSL quanto o OSL exigem uma etapa de treinamento adicional em comparação ao ZSL, o que aumenta o tempo necessário para aprender novas tarefas. No entanto, esta formação extra prepara-os para lidar com tarefas que se desviam significativamente do conhecimento pré-treinado do modelo, tornando-os mais adaptáveis na prática.

Embora o ZSL seja frequentemente visto como “flexível” porque não requer exemplos rotulados para novas tarefas, esta flexibilidade é em grande parte teórica. Em aplicações do mundo real, os métodos ZSL podem ter dificuldades com:

Tarefas que envolvem uma mistura de exemplos visíveis e invisíveis (por exemplo, cenários ZSL generalizados)
Tarefas que são substancialmente diferentes dos dados de treinamento do modelo

Os modelos ZSL também são sensíveis a fatores como a forma como os conjuntos de dados são divididos durante o pré-treinamento e a avaliação, o que pode afetar o desempenho. Por outro lado, FSL e OSL oferecem mais flexibilidade prática para adaptação de tarefas, incorporando novos exemplos ao processo de aprendizagem, permitindo-lhes um melhor desempenho em diversos cenários.

Aprendizagem zero-shot versus solicitação zero-shot

ZSL é um tipo de arquitetura de modelo projetada para várias tarefas de aprendizado profundo. Em contraste, o prompt zero-shot refere-se a pedir a um LLM como ChatGPT ou Claude para gerar uma saída sem fornecer exemplos específicos no prompt para orientar sua resposta. Em ambos os casos, o modelo executa uma tarefa sem exemplos explícitos do que a tarefa envolve.

Na solicitação zero-shot, você não fornece ao modelo nenhum exemplo relacionado à tarefa. Em vez disso, você confia no conhecimento pré-treinado do LLM para inferir e executar a tarefa.

Por exemplo, você pode inserir o texto de uma avaliação de um restaurante e pedir ao LLM para classificá-la como positiva, neutra ou negativa – sem fornecer nenhum exemplo de avaliação para usar como referência. O LLM basear-se-ia na sua pré-formação para determinar o rótulo apropriado para a revisão.

Embora o aprendizado zero-shot e a solicitação zero-shot compartilhem o conceito de execução de tarefas sem exemplos, há uma distinção importante:

O aprendizado zero-shoté um tipo de arquitetura de modelo construída para tais tarefas.
A solicitação zero-shoté uma técnica específica para interagir com LLMs, não uma arquitetura de modelo.

Aplicações de aprendizagem zero-shot

Devido ao seu foco em ajudar os modelos de aprendizagem profunda a se adaptarem a novas tarefas, a ZSL tem aplicações em muitas áreas de ML, incluindo visão computacional, PNL e robótica. O ZSL pode ser usado em saúde, análise de sentimentos, atendimento ao cliente, tradução de documentos e segurança cibernética, por exemplo:

Análise de sentimento:quando ocorrem notícias de última hora, um modelo de PNL zero-shot pode realizar análise de sentimento em comentários públicos para fornecer uma visão quase em tempo real das reações do público.
Processamento de documentos multilíngue:modelos zero-shot de PNL treinados para extrair informações de documentos fiscais em inglês podem realizar as mesmas extrações em documentos fiscais em espanhol sem treinamento adicional.
Diagnóstico médico:Os modelos ZSL têm sido usados para identificar radiografias de pacientes com COVID-19 sem quaisquer exemplos visuais. As identificações são baseadas em descrições textuais, feitas por médicos que atuam na área, de como são os raios X positivos.
Chatbots com mais nuances:os modelos de PNL da ZSL podem entender gírias e expressões idiomáticas que não encontraram antes durante bate-papos com pessoas, permitindo-lhes responder de forma mais significativa a perguntas para as quais não foram especificamente treinados.
Detecção de anomalias:o ZSL pode ser usado em segurança cibernética para detectar padrões incomuns na atividade da rede ou rotular novos tipos de ataques de hackers à medida que surgem novas ameaças.

Benefícios do aprendizado zero-shot

As abordagens tradicionais de aprendizagem supervisionada são muitas vezes impraticáveis para muitas aplicações do mundo real, dados os grandes conjuntos de dados, tempo de treinamento, dinheiro e recursos computacionais que requerem. A ZSL pode mitigar alguns desses desafios. Os benefícios incluem a redução dos custos associados ao treinamento de um novo modelo e ao enfrentamento de situações em que os dados são escassos ou ainda não estão disponíveis:

Desenvolvimento econômico

Adquirir e organizar grandes conjuntos de dados rotulados exigidos pela aprendizagem supervisionada é caro e demorado. Treinar um modelo em um conjunto de dados rotulado de alta qualidade pode custar dezenas de milhares de dólares, além do custo de servidores, espaço de computação em nuvem e engenheiros.

A ZSL mostra-se promissora na redução do custo dos projetos de ML, permitindo que as instituições redirecionem modelos para novas tarefas sem treinamento adicional. Também permite que entidades ou indivíduos menores redirecionem modelos construídos por terceiros.

Resolvendo problemas com dados escassos

A flexibilidade do ZSL o torna uma boa ferramenta para situações onde há poucos dados disponíveis ou onde os dados ainda estão surgindo. Por exemplo, é útil para diagnosticar novas doenças quando a informação ainda não está generalizada ou para situações de catástrofe em que a informação evolui rapidamente. O ZSL também é útil para detecção de anomalias quando os dados são muito substanciais para serem processados por analistas humanos.

Desafios da aprendizagem zero-shot

A ZSL depende muito de dados de treinamento de alta qualidade durante sua fase de pré-treinamento para compreender as relações semânticas entre categorias bem o suficiente para generalizar para novas. Sem dados de alta qualidade, o ZSL pode produzir resultados não confiáveis que às vezes são difíceis de avaliar.

Os problemas comuns que os modelos ZSL enfrentam incluem problemas de adaptação a tarefas diferentes das tarefas nas quais já foram treinados e problemas com dados de treinamento que fazem com que eles dependam demais de determinados rótulos ao prever classes não vistas.

Adaptação de domínio

Os modelos ZSL apresentam melhor desempenho quando solicitados a lidar com novos dados de um domínio que não seja drasticamente diferente daquele em que foram treinados. Por exemplo, se um modelo foi treinado em fotos, terá dificuldade em classificar vídeos.

Os modelos ZSL dependem do mapeamento de informações auxiliares de dados desconhecidos para dados conhecidos; portanto, se as fontes de dados forem muito diferentes, o modelo não terá como generalizar seu conhecimento para a nova tarefa.

O problema da hubness

O problema de hubness no ZSL ocorre quando um modelo começa a usar apenas alguns rótulos ao fazer previsões para categorias não vistas. Isso acontece quando muitos pontos no espaço de recursos incorporados ficam agrupados, formando “centros” que direcionam o modelo para rótulos específicos.

Isso pode acontecer devido ao ruído nos dados de treinamento, a muitos exemplos de alguns tipos de dados e insuficientes de outros, ou porque as incorporações semânticas do modelo não são suficientemente distintas.