Pontuação F1 no aprendizado de máquina: como calcular, aplicar e usá -lo efetivamente

Publicados: 2025-02-10

A pontuação F1 é uma métrica poderosa para avaliar os modelos de aprendizado de máquina (ML) projetados para realizar classificação binária ou multiclasse. Este artigo explicará qual é a pontuação da F1, por que é importante, como é calculado e suas aplicações, benefícios e limitações.

Índice

  • O que é uma pontuação F1?
  • Como calcular uma pontuação F1
  • Pontuação F1 vs. precisão
  • Aplicações da pontuação F1
  • Benefícios da pontuação da F1
  • Limitações da pontuação da F1

O que é uma pontuação F1?

Os profissionais de ML enfrentam um desafio comum ao criar modelos de classificação: treinar o modelo para capturar todos os casos, evitando alarmes falsos. Isso é particularmente importante em aplicações críticas, como detecção de fraude financeira e diagnóstico médico, onde alarmes falsos e falsas classificações importantes têm sérias conseqüências. Conseguir o equilíbrio certo é particularmente importante ao lidar com conjuntos de dados desequilibrados, onde uma categoria como transações fraudulentas é muito mais rara que a outra categoria (transações legítimas).

Trabalhe mais inteligente com gramática
O parceiro de redação da IA ​​para qualquer pessoa com trabalho para fazer

Precisão e recall

Para medir a qualidade do desempenho do modelo, a pontuação da F1 combina duas métricas relacionadas:

  • Precisão, que responde: "Quando o modelo prevê um caso positivo, com que frequência ele está correto?"
  • Lembre -se, que responde: "De todos os casos positivos reais, quantos o modelo se identificou corretamente?"

Um modelo com alta precisão, mas o baixo recall é excessivamente cauteloso, perdendo muitos verdadeiros positivos, enquanto um com alta recall, mas a baixa precisão é excessivamente agressiva, gerando muitos falsos positivos. A pontuação F1 atinge um equilíbrio, tomando a média harmônica de precisão e recall, o que dá mais peso a valores mais baixos e garante que um modelo tenha um bom desempenho nas duas métricas, em vez de se destacar em apenas uma.

Medindo precisão e recall na pontuação da F1

Exemplo de precisão e recall

Para entender melhor a precisão e a recuperação, considere um sistema de detecção de spam. Se o sistema tiver uma alta taxa de sinalizando corretamente e -mails como spam, isso significa que ele tem alta precisão. Por exemplo, se o sistema sinalizar 100 e -mails como spam e 90 deles forem na verdade spam, a precisão será de 90%. Recall alto, por outro lado, significa que o sistema captura a maioria dos e -mails reais de spam. Por exemplo, se houver 200 e -mails reais de spam e nosso sistema captura 90 deles, o recall será de 45%.

Variantes da pontuação da F1

Em sistemas ou cenários de classificação multiclasse com necessidades específicas, a pontuação da F1 pode ser calculada de maneiras diferentes, dependendo de quais fatores são importantes:

  • Macro-F1:calcula a pontuação F1 separadamente para cada classe e leva a média
  • Micro-F1:calcula a recordação e a precisão em todas as previsões
  • Ponderado-f1: semelhante ao macro-f1, mas as classes são ponderadas com base na frequência

Além da pontuação da F1: a família F-score

A pontuação da F1 faz parte de uma família maior de métricas chamadas Scores F. Essas pontuações oferecem maneiras diferentes de ponderar precisão e recall:

  • F2:coloca maior ênfase na recordação, o que é útil quando falsos negativos são caros
  • F0.5:coloca maior ênfase na precisão, o que é útil quando falsos positivos são caros

Como calcular uma pontuação F1

A pontuação da F1 é definida matematicamente como a média harmônica de precisão e recall. Embora isso possa parecer complexo, o processo de cálculo é direto quando dividido em etapas claras.

A fórmula para a pontuação da F1:

Fórmula para a pontuação F1

Antes de mergulhar nas etapas para calcular F1, é importante entender os principais componentes do que é chamado dematriz de confusão, que é usada para organizar os resultados da classificação:

  • Verdadeiros positivos (TP):o número de casos corretamente identificados como positivos
  • Falsos positivos (FP):o número de casos incorretamente identificados como positivos
  • False Negatives (FN):O número de casos perdidos (positivos reais que não foram identificados)

O processo geral envolve o treinamento do modelo, o teste de previsões e a organização de resultados, calcula a precisão e a recuperação e o cálculo da pontuação da F1.

Etapa 1: treinar um modelo de classificação

Primeiro, um modelo deve ser treinado para fazer classificações binárias ou multiclasse. Isso significa que o modelo precisa ser capaz de classificar os casos como pertencentes a uma de duas categorias. Os exemplos incluem "spam/não spam" e "fraude/não fraude".

Etapa 2: Teste as previsões e organize os resultados

Em seguida, use o modelo para executar classificações em um conjunto de dados separado que não foi usado como parte do treinamento. Organize os resultados na matriz de confusão. Esta matriz mostra:

  • TP: Quantas previsões estavam realmente corretas
  • FP: Quantas previsões positivas estavam incorretas
  • FN: Quantos casos positivos foram perdidos

A matriz de confusão fornece uma visão geral de como o modelo está funcionando.

Etapa 3: Calcule a precisão

Usando a matriz de confusão, a precisão é calculada com esta fórmula:

Fórmula para calcular a precisão

Por exemplo, se um modelo de detecção de spam identificou corretamente 90 e -mails de spam (TP), mas sinalizou incorretamente 10 e -mails não -espam (FP), a precisão é de 0,90.

Exemplo de detecção de spam cálculos para precisão

Etapa 4: Calcule o recall

Em seguida, calcule o recall usando a fórmula:

Usando o exemplo de detecção de spam, se houvesse 200 e -mails totais de spam, e o modelo capturou 90 deles (TP) enquanto faltava 110 (FN), o recall é de 0,45.

Exemplo de detecção de spam cálculos para recall

Etapa 5: Calcule a pontuação F1

Com os valores de precisão e recall em mãos, a pontuação F1 pode ser calculada.

A pontuação da F1 varia de 0 a 1. Ao interpretar a pontuação, considere estes benchmarks gerais:

  • 0.9 ou superior:o modelo está com excelente desempenho, mas deve ser verificado para ajuste excessivo.
  • 0,7 a 0,9:bom desempenho para a maioria dos aplicativos
  • 0,5 a 0,7:O desempenho está ok, mas o modelo pode usar melhorias.
  • 0,5 ou menos:o modelo está com um desempenho ruim e precisa de melhorias sérias.

Usando os cálculos de exemplo de detecção de spam para precisão e recall, a pontuação de F1 seria de 0,60 ou 60%.

Exemplo de detecção de spam cálculos para precisão e recall

Nesse caso, a pontuação da F1 indica que, mesmo com alta precisão, a menor recall está afetando o desempenho geral. Isso sugere que há espaço para melhorar a captura de mais e -mails de spam.

Pontuação F1 vs. precisão

Enquanto a F1 ea precisãoquantificam o desempenho do modelo, a pontuação da F1 fornece uma medida mais sutil. A precisão simplesmente calcula a porcentagem de previsões corretas. No entanto, apenas confiar na precisão para medir o desempenho do modelo pode ser problemático quando o número de instâncias de uma categoria em um conjunto de dados supera significativamente a outra categoria. Esse problema é referido como oparadoxo da precisão.

Para entender esse problema, considere o exemplo do sistema de detecção de spam. Suponha que um sistema de email receba 1.000 e -mails todos os dias, mas apenas 10 deles são realmente spam. Se a detecção de spam simplesmente classificar todos os emails como spam, ele ainda atingirá 99% de precisão. Isso ocorre porque 990 previsões de 1.000 estavam corretas, mesmo que o modelo seja realmente inútil quando se trata de detecção de spam. Claramente, a precisão não fornece uma imagem precisa da qualidade do modelo.

A pontuação F1 evita esse problema combinando as medições de precisão e recall. Portanto, a F1 deve ser usada em vez de precisão nos seguintes casos:

  • O conjunto de dados está desequilibrado.Isso é comum em campos como diagnóstico de condições médicas obscuras ou detecção de spam, onde uma categoria é relativamente rara.
  • FN e FP são importantes.Por exemplo, os testes de triagem médica buscam equilibrar problemas reais com não levantar alarmes falsos.
  • O modelo precisa encontrar um equilíbrio entre ser muito agressivo e muito cauteloso.Por exemplo, na filtragem de spam, um filtro excessivamente cauteloso pode deixar passar muito spam (recall baixo), mas raramente comete erros (alta precisão). Por outro lado, um filtro excessivamente agressivo pode bloquear e -mails reais (baixa precisão), mesmo que ele capte todo o spam (recall alto).

Aplicações da pontuação F1

A pontuação da F1 possui uma ampla gama de aplicações em vários setores, onde a classificação equilibrada é crítica. Essas aplicações incluem detecção de fraude financeira, diagnóstico médico e moderação de conteúdo.

Detecção de fraude financeira

Os modelos projetados para detectar fraudes financeiras são uma categoria de sistemas adequados para medição usando a pontuação da F1. As empresas financeiras geralmente processam milhões ou bilhões de transações diariamente, com casos reais de fraude sendo relativamente raros. Por esse motivo, um sistema de detecção de fraude precisa capturar o maior número possível de transações fraudulentas, minimizando simultaneamente o número de alarmes falsos e a resultante inconveniente para os clientes. A medição da pontuação da F1 pode ajudar as instituições financeiras a determinar quão bem seus sistemas equilibram os pilares gêmeos da prevenção de fraudes e uma boa experiência do cliente.

Diagnóstico médico

No diagnóstico e teste médico, FN e FP têm sérias conseqüências. Considere o exemplo de um modelo projetado para detectar formas raras de câncer. O diagnóstico incorretamente de um paciente saudável pode levar a estresse e tratamento desnecessários, enquanto a falta de um caso de câncer real terá consequências terríveis para o paciente. Em outras palavras, o modelo precisa ter alta precisão e alta recall, o que é algo que a pontuação da F1 pode medir.

Moderação do conteúdo

O conteúdo moderado é um desafio comum em fóruns on -line, plataformas de mídia social e mercados on -line. Para alcançar a segurança da plataforma sem a supercensoragem, esses sistemas devem equilibrar precisão e recall. A pontuação da F1 pode ajudar as plataformas a determinar o quão bem o sistema equilibra esses dois fatores.

Benefícios da pontuação da F1

Além de fornecer uma visão mais diferenciada do desempenho do modelo do que a precisão, a pontuação da F1 fornece várias vantagens importantes ao avaliar o desempenho do modelo de classificação. Esses benefícios incluem treinamento e otimização de modelos mais rápidos, custos reduzidos de treinamento e captura de excesso de ajuste mais cedo.

Treinamento e otimização de modelos mais rápidos

A pontuação F1 pode ajudar a acelerar o treinamento do modelo, fornecendo uma métrica de referência clara que pode ser usada para orientar a otimização. Em vez de ajustar a recordação e a precisão separadamente, que geralmente envolvem trade-offs complexos, os praticantes de ML podem se concentrar em aumentar a pontuação da F1. Com essa abordagem simplificada, os parâmetros ideais do modelo podem ser identificados rapidamente.

Custos de treinamento reduzidos

A pontuação da F1 pode ajudar os profissionais de ML a tomar decisões informadas sobre quando um modelo está pronto para a implantação, fornecendo uma medida única e diferenciada do desempenho do modelo. Com essas informações, os profissionais podem evitar ciclos de treinamento desnecessários, investimentos em recursos computacionais e ter que adquirir ou criar dados de treinamento adicionais. No geral, isso pode levar a reduções substanciais de custos ao treinar modelos de classificação.

Capturando de excesso de ajuste mais cedo

Como a pontuação da F1 considera precisão e recall, ela pode ajudar os profissionais de ML a identificar quando um modelo está se tornando muito especializado nos dados de treinamento. Esse problema, chamado de excesso de ajuste, é um problema comum com os modelos de classificação. A pontuação da F1 oferece aos profissionais um alerta precoce de que precisam ajustar o treinamento antes que o modelo atinja um ponto em que não consegue generalizar os dados do mundo real.

Limitações da pontuação da F1

Apesar de seus muitos benefícios, a pontuação da F1 tem várias limitações importantes que os profissionais devem considerar. Essas limitações incluem uma falta de sensibilidade aos verdadeiros negativos, não serem adequados para alguns conjuntos de dados e sendo mais difíceis de interpretar para problemas multiclasse.

Falta de sensibilidade aos verdadeiros negativos

A pontuação F1 não representa negativos verdadeiros, o que significa que não é adequado para aplicações em que a medição disso é importante. Por exemplo, considere um sistema projetado para identificar condições de condução seguras. Nesse caso, identificar corretamente quando as condições são genuinamente seguras (negativos verdadeiros) é tão importante quanto identificar condições perigosas. Como não rastreia o FN, a pontuação da F1 não capturaria com precisão esse aspecto do desempenho geral do modelo.

Não adequado para alguns conjuntos de dados

A pontuação F1 pode não ser adequada para conjuntos de dados, onde o impacto de FP e FN é significativamente diferente. Considere o exemplo de um modelo de triagem de câncer. Em tal situação, perder um caso positivo (FN) pode ser com risco de vida, enquanto encontrar incorretamente um caso positivo (FP) leva apenas a testes adicionais. Portanto, usar uma métrica que pode ser ponderada para explicar esse custo é uma escolha melhor que a pontuação da F1.

Mais difícil de interpretar para problemas multiclasse

Enquanto variações como as pontuações micro-F1 e macro-F1 significam que a pontuação de F1 pode ser usada para avaliar os sistemas de classificação multiclasse, a interpretação dessas métricas agregadas geralmente é mais complexa que a pontuação binária de F1. Por exemplo, a pontuação micro-F1 pode ocultar o mau desempenho na classificação de classes menos frequentes, enquanto a pontuação do macro-F1 pode acima do peso de classes raras. Diante disso, as empresas precisam considerar se o tratamento igual das classes ou o desempenho geral no nível da instância é mais importante ao escolher a variante F1 certa para modelos de classificação multiclasse.