Clasificación en aprendizaje automático: qué es y cómo funciona

Publicado: 2024-11-20

La clasificación es un concepto central en el análisis de datos y el aprendizaje automático (ML). Esta guía explora qué es la clasificación y cómo funciona, explica la diferencia entre clasificación y regresión y cubre tipos de tareas, algoritmos, aplicaciones, ventajas y desafíos.

Tabla de contenido

  • ¿Qué es la clasificación?
  • Clasificación versus regresión
  • Tipos de tareas de clasificación en ML
  • Algoritmos utilizados para el análisis de clasificación.
  • Aplicaciones de clasificación
  • Ventajas de la clasificación
  • Desventajas de la clasificación

¿Qué es la clasificación en el aprendizaje automático?

La clasificación es una técnica de aprendizaje supervisado en el aprendizaje automático que predice la categoría (también llamada clase) de nuevos puntos de datos en función de las características de entrada. Los algoritmos de clasificación utilizan datos etiquetados, donde se conoce la categoría correcta, para aprender a asignar características a categorías específicas. Este proceso también se conoce como categorización o clasificación categórica.

Para realizar la clasificación, los algoritmos operan en dos fases clave. Durante la fase de entrenamiento, el algoritmo aprende la relación entre los datos de entrada y sus etiquetas o categorías correspondientes. Una vez entrenado, el modelo ingresa a la fase de inferencia, donde utiliza los patrones aprendidos para clasificar datos nuevos e invisibles en aplicaciones del mundo real. La eficacia de la clasificación depende en gran medida de cómo se manejan estas fases y de la calidad de los datos preprocesados ​​disponibles durante el entrenamiento.

Comprender cómo los algoritmos de clasificación gestionan estas fases es fundamental. Una diferencia clave es cómo abordan el aprendizaje. Esto nos lleva a dos estrategias distintas que pueden seguir los algoritmos de clasificación: aprendizaje perezoso y aprendizaje ansioso.

Trabaja de forma más inteligente con Grammarly
El compañero de redacción de IA para cualquiera que tenga trabajo que hacer

Estudiantes perezosos versus estudiantes ansiosos

Los algoritmos de clasificación suelen adoptar una de dos estrategias de aprendizaje: aprendizaje perezoso o aprendizaje entusiasta. Estos enfoques difieren fundamentalmente en cómo y cuándo se construye el modelo, lo que afecta la flexibilidad, la eficiencia y los casos de uso del algoritmo. Si bien ambos apuntan a clasificar datos, lo hacen con métodos contrastantes que se adaptan a diferentes tipos de tareas y entornos.

Examinemos las operaciones de los estudiantes perezosos y entusiastas para comprender mejor las fortalezas y debilidades de cada enfoque.

Estudiantes perezosos

También conocidos como aprendices basados ​​en instancias o basados ​​en memoria, los algoritmos de aprendizaje diferido almacenan los datos de entrenamiento y retrasan el aprendizaje real hasta que es necesario clasificar una consulta. Cuando uno de estos algoritmos se pone en funcionamiento, compara nuevos puntos de datos con las instancias almacenadas utilizando una medida de similitud. La calidad y cantidad de datos disponibles influyen significativamente en la precisión del algoritmo, y el acceso a conjuntos de datos más grandes generalmente mejora su rendimiento. Los estudiantes perezosos a menudo dan prioridad a los datos recientes, lo que se conoce comosesgo de actualidad. Debido a que aprenden en tiempo real, pueden ser más lentos y más costosos computacionalmente al responder consultas.

Los estudiantes perezosos sobresalen en entornos dinámicos donde la toma de decisiones en tiempo real es crucial y los datos evolucionan constantemente. Estos algoritmos son muy adecuados para tareas en las que ingresa continuamente nueva información y no hay tiempo para ciclos de entrenamiento extensos entre tareas de clasificación.

Estudiantes ansiosos

Los algoritmos de aprendizaje ansioso, por el contrario, procesan todos los datos de entrenamiento por adelantado, construyendo un modelo antes de realizar cualquier tarea de clasificación. Esta fase de aprendizaje inicial suele requerir más recursos y ser más compleja, lo que permite que el algoritmo descubra relaciones más profundas en los datos. Una vez capacitados, los estudiantes ansiosos no necesitan acceder a los datos de capacitación originales, lo que los hace altamente eficientes durante la fase de predicción. Pueden clasificar datos rápidamente y manejar grandes volúmenes de consultas con un costo computacional mínimo.

Sin embargo, los estudiantes ansiosos son menos flexibles a la hora de adaptarse a datos nuevos en tiempo real. Su proceso de capacitación, que requiere muchos recursos, limita la cantidad de datos que pueden manejar, lo que dificulta la integración de información nueva sin volver a entrenar todo el modelo.

Más adelante en esta publicación, veremos cómo se pueden usar algoritmos perezosos y entusiastas en conjunto para el reconocimiento facial.

Clasificación versus regresión: ¿cuál es la diferencia?

Ahora que hemos explorado cómo funciona la clasificación, es importante distinguirla de otra técnica clave de aprendizaje supervisado: la regresión.

Tanto la clasificación como la regresión se utilizan para hacer predicciones basadas en datos etiquetados de la fase de entrenamiento, pero difieren en el tipo de predicciones que generan.

Los algoritmos de clasificaciónpredicen resultados discretos y categóricos. Por ejemplo, en un sistema de clasificación de correo electrónico, un correo electrónico puede etiquetarse como "spam" o "ham" (donde "ham" se refiere a correos electrónicos que no son spam). De manera similar, un modelo de clasificación climática podría predecir “sí”, “no” o “tal vez” en respuesta a la pregunta “¿Lloverá mañana?”

Los algoritmos de regresión, por otro lado, predicen valores continuos. En lugar de asignar datos a categorías, los modelos de regresión estiman resultados numéricos. Por ejemplo, en un sistema de correo electrónico, un modelo de regresión podría predecir la probabilidad (por ejemplo, 70%) de que un correo electrónico sea spam. Para un modelo de predicción del tiempo, podría predecir el volumen esperado de lluvia, como 2 pulgadas de lluvia.

Si bien la clasificación y la regresión tienen propósitos diferentes, a veces se usan juntas. Por ejemplo, la regresión podría estimar probabilidades que se incorporan a un sistema de clasificación, mejorando la precisión y granularidad de las predicciones.

Tipos de tareas de clasificación en ML

Las tareas de clasificación varían y cada una está diseñada para tipos de datos y desafíos específicos. Dependiendo de la complejidad de su tarea y la naturaleza de las categorías, puede emplear diferentes métodos: clasificación binaria, multiclase, multietiqueta o desequilibrada. Profundicemos en cada enfoque a continuación.

Clasificación binaria

La clasificación binaria es una tarea fundamental que clasifica los datos en dos categorías, como verdadero/falso o sí/no. Se investiga y aplica ampliamente en campos como la detección de fraude, el análisis de opiniones, el diagnóstico médico y el filtrado de spam. Si bien la clasificación binaria se ocupa de dos clases, se puede manejar una categorización más compleja dividiendo el problema en múltiples tareas binarias. Por ejemplo, para clasificar datos en “manzanas”, “naranjas”, “plátanos” y “otros”, se podrían utilizar clasificadores binarios separados para responder “¿Es una manzana?”, “¿Es una naranja?” y “ ¿Es un plátano?

Clasificación multiclase

La clasificación multiclase, también conocida como clasificación multinomial, está diseñada para tareas en las que los datos se clasifican en tres o más categorías. A diferencia de los modelos que descomponen el problema en múltiples tareas de clasificación binaria, los algoritmos multiclase están diseñados para manejar dichos escenarios de manera más eficiente. Estos algoritmos suelen ser más complejos, requieren conjuntos de datos más grandes y su configuración requiere más recursos que los sistemas binarios, pero a menudo proporcionan un mejor rendimiento una vez implementados.

Clasificación multietiqueta

La clasificación de etiquetas múltiples, también conocida como clasificación de salidas múltiples, asigna más de una etiqueta a un dato determinado. A menudo se confunde con la clasificación multiclase, donde a cada instancia se le asigna solo una etiqueta de varias categorías.

Para aclarar la diferencia: un algoritmo de clasificación binaria podría clasificar imágenes en dos categorías: imágenes con fruta e imágenes sin fruta. Luego, un sistema multiclase podría clasificar las imágenes de frutas en categorías específicas, como plátanos, manzanas o naranjas. La clasificación de etiquetas múltiples, por otro lado, permitiría asignar múltiples etiquetas a una sola imagen. Por ejemplo, una sola imagen podría clasificarse como “fruta” y “plátano”, y la fruta también podría etiquetarse como “madura” o “no madura”. Esto permite que el sistema tenga en cuenta múltiples características independientes simultáneamente, como (“sin fruta”, “sin plátano”, “nada está maduro”), (“fruta”, “plátano”, “maduro” o (“fruta, ” “plátano”, “nada está maduro”).

Clasificación desequilibrada

Con frecuencia, los datos disponibles para la capacitación no representan la distribución de datos que se ve en la realidad. Por ejemplo, es posible que un algoritmo solo tenga acceso a los datos de 100 usuarios durante la capacitación, donde el 50% de ellos realiza una compra (cuando en realidad, solo el 10% de los usuarios realiza una compra). Los algoritmos de clasificación desequilibrados abordan este problema durante el aprendizaje mediante el uso de técnicas de sobremuestreo (reutilización de algunas partes de los datos de entrenamiento) y submuestreo (infrautilización de algunas partes de los datos de entrenamiento). Hacerlo hace que el algoritmo de aprendizaje aprenda que un subconjunto de datos ocurre con mucha más o menos frecuencia en la realidad que en los datos de entrenamiento. Estas técnicas suelen ser un tipo de optimización del entrenamiento, ya que permiten que el sistema aprenda de muchos menos datos de los que se necesitarían para aprender de otra manera.

A veces, acumular suficientes datos para reflejar la realidad es difícil o lleva mucho tiempo, y este tipo de optimización puede permitir entrenar los modelos antes. Otras veces, la cantidad de datos es tan grande que los algoritmos de clasificación tardan demasiado en entrenarlos todos, y los algoritmos desequilibrados permiten entrenarlos de todos modos.

Algoritmos utilizados para el análisis de clasificación.

Los algoritmos de clasificación están bien estudiados y no se ha encontrado que ninguna forma de clasificación sea universalmente apropiada para todas las situaciones. Como resultado, existen grandes conjuntos de herramientas de algoritmos de clasificación bien conocidos. A continuación, describimos algunos de los más comunes.

Predictores lineales

Los predictores lineales se refieren a algoritmos que predicen resultados basándose en combinaciones lineales de características de entrada. Estos métodos se utilizan ampliamente en tareas de clasificación porque son sencillos y eficaces.

Regresión logística

La regresión logística es uno de los predictores lineales más utilizados, particularmente en la clasificación binaria. Calcula la probabilidad de un resultado en función de las variables observadas utilizando una función logística (o sigmoidea). La clase con mayor probabilidad se selecciona como resultado previsto, siempre que supere un umbral de confianza. Si ningún resultado alcanza este umbral, el resultado puede marcarse como "inseguro" o "indeciso".

Regresión lineal

La regresión lineal generalmente se usa para casos de uso de regresión y genera valores continuos. Sin embargo, los valores se pueden reutilizar para su clasificación agregando filtros o mapas para convertir sus resultados en clases. Si, por ejemplo, ya ha entrenado un modelo de regresión lineal que genera predicciones del volumen de lluvia, el mismo modelo puede convertirse en un clasificador binario de “día lluvioso”/”día no lluvioso” estableciendo un umbral arbitrariamente. De forma predeterminada, solo se utiliza el signo del resultado de la regresión al convertir modelos a clasificadores binarios (0 y los números positivos se asignan a la respuesta "sí" o "+1", y los números negativos a la respuesta "no" o "- 1”). Sin embargo, los mapas pueden ser más complejos y adaptarse al caso de uso. Por ejemplo, podría decidir que cualquier predicción superior a cinco ml de lluvia se considerará un “día lluvioso” y cualquier predicción inferior predecirá lo contrario.

Análisis discriminante

El análisis discriminante lineal (LDA) es otro predictor lineal importante utilizado para la clasificación. LDA funciona encontrando combinaciones lineales de características que separan mejor las diferentes clases. Se supone que las observaciones son independientes y se distribuyen normalmente. Si bien LDA se emplea a menudo para la reducción de dimensionalidad, también es una poderosa herramienta de clasificación que asigna observaciones a clases utilizando funciones discriminantes (funciones que miden las diferencias entre clases).

clasificación bayesiana

Los algoritmos de clasificación bayesianos utilizan el teorema de Bayes para calcular la probabilidad posterior de cada clase dados los datos observados. Estos algoritmos asumen ciertas propiedades estadísticas de los datos y su desempeño depende de qué tan bien se cumplan estos supuestos. Naive Bayes, por ejemplo, supone que las características son condicionalmente independientes dada la clase.

clasificación k-NN

El algoritmo k-vecino más cercano (k-NN) es otro método de clasificación ampliamente utilizado. Aunque se puede aplicar tanto a tareas de regresión como de clasificación, se utiliza más comúnmente para clasificación. El algoritmo asigna una clase a un nuevo punto de datos en función de las clases de sus k vecinos más cercanos (donde k es una variable), utilizando un cálculo de distancia para determinar la proximidad. El algoritmo k-NN es simple, eficiente y efectivo cuando existe una estructura local en los datos. Su rendimiento depende de seleccionar una métrica de distancia adecuada y garantizar que los datos tengan patrones locales que puedan ayudar en la clasificación.

Árboles de decisión y bosques aleatorios.

Los árboles de decisión son un algoritmo popular utilizado para tareas de clasificación. Funcionan dividiendo recursivamente los datos en función de los valores de las características para tomar una decisión sobre a qué clase pertenece una observación determinada. Sin embargo, los árboles de decisión tienden a sobreajustarse a los datos de entrenamiento, capturando ruido y generando una gran variación. Este sobreajuste da como resultado una generalización deficiente a nuevos datos.

Para mitigar el sobreajuste, se utilizan bosques aleatorios como método de conjunto. Un bosque aleatorio entrena múltiples árboles de decisión en paralelo sobre subconjuntos aleatorios de datos, y cada árbol hace su propia predicción. La predicción final se realiza agregando las predicciones de todos los árboles, normalmente mediante votación mayoritaria. Este proceso, conocido como “bagging” (una palabra abreviada para agregación de arranque), reduce la varianza y mejora la capacidad del modelo para generalizar datos invisibles. Los bosques aleatorios son eficaces para equilibrar el sesgo y la varianza, lo que los convierte en un algoritmo robusto y listo para usar para tareas de clasificación.

Aplicaciones de clasificación

Los algoritmos de clasificación se utilizan ampliamente en diversos campos para resolver problemas del mundo real categorizando datos en grupos predefinidos. A continuación se muestran algunas aplicaciones comunes de clasificación, incluido el reconocimiento facial, la clasificación de documentos y la predicción del comportamiento del cliente.

reconocimiento facial

Los sistemas de reconocimiento facial comparan un rostro en un vídeo o una fotografía en tiempo real con una base de datos de rostros conocidos. Se utilizan comúnmente para la autenticación.

Un sistema de desbloqueo de teléfono, por ejemplo, comenzaría usando un sistema de detección facial, que toma imágenes de baja resolución de la cámara dirigida al rostro cada pocos segundos y luego infiere si hay un rostro en la imagen. El sistema de detección facial podría ser un clasificador binario bien entrenado y entusiasta que responda a la pregunta "¿Hay una cara presente o no?"

Un clasificador perezoso seguiría el ansioso “¿Hay una cara?” clasificador. Utilizaría todas las fotos y selfies del propietario del teléfono para implementar una tarea de clasificación binaria separada y responder a la pregunta "¿Esta cara pertenece a una persona a la que se le permite desbloquear el teléfono?" Si la respuesta es sí, el teléfono se desbloqueará; si la respuesta es no, no lo será.

Clasificación de documentos

La clasificación de documentos es una parte crucial de las estrategias modernas de gestión de datos. Los clasificadores basados ​​en ML catalogan y clasifican una gran cantidad de documentos almacenados, respaldando los esfuerzos de indexación y búsqueda que hacen que los documentos y su contenido sean más útiles.

El trabajo de clasificación de documentos comienza con el preprocesamiento de los documentos. Sus contenidos se analizan y transforman en representaciones numéricas (ya que los números son más fáciles de procesar). Las características importantes del documento, como ecuaciones matemáticas, imágenes incrustadas y el idioma del documento, se extraen de los documentos y se resaltan para que los algoritmos de aprendizaje automático las aprendan. A esto le siguen otras tareas de procesamiento similares en la misma línea.

Luego, humanos clasifican manualmente un subconjunto de los documentos para crear un conjunto de datos de entrenamiento para los sistemas de clasificación. Una vez capacitado, un clasificador catalogará y clasificará todos los documentos entrantes rápidamente y a escala. Si se detecta algún error de clasificación, se pueden agregar correcciones manuales a los materiales de capacitación del sistema ML. De vez en cuando, el modelo clasificador se puede volver a entrenar con las correcciones agregadas y se mejorará su rendimiento.

Predicción del comportamiento del cliente.

Las tiendas minoristas y de comercio electrónico en línea recopilan información detallada y detallada sobre el comportamiento de sus clientes. Esta información se puede utilizar para categorizar nuevos clientes y responder preguntas como "¿Es probable que este nuevo cliente realice una compra?" y "¿Ofrecer un descuento del 25% influirá en el comportamiento de compra de este cliente?"

El clasificador se entrena utilizando datos de clientes anteriores y su comportamiento final, como si realizaron una compra. A medida que los nuevos clientes interactúan con la plataforma, el modelo puede predecir si realizarán una compra y cuándo. También puede realizar análisis hipotéticos para responder preguntas como "Si le ofrezco a este usuario un descuento del 25%, ¿realizará una compra?"

Ventajas de la clasificación

La clasificación ofrece varios beneficios en el dominio del aprendizaje automático, lo que la convierte en un enfoque ampliamente utilizado para resolver problemas de categorización de datos. A continuación, exploramos algunas de las ventajas clave de la clasificación, incluida su madurez, flexibilidad y capacidad para proporcionar resultados legibles por humanos.

Bien estudiado y comprendido.

La clasificación es uno de los problemas mejor estudiados y comprendidos en el dominio del aprendizaje automático. Como resultado, hay muchos conjuntos de herramientas maduros disponibles para tareas de clasificación, lo que permite a los usuarios equilibrar las compensaciones entre velocidad, eficiencia, uso de recursos y requisitos de calidad de los datos.

Se encuentran disponibles técnicas estándar, como exactitud, precisión, recuperación y matrices de confusión, para evaluar el desempeño de un clasificador. Con estas herramientas, puede resultar relativamente sencillo elegir el sistema de clasificación más apropiado para un problema determinado, evaluar su desempeño y mejorarlo con el tiempo.

Proporcionar resultados legibles por humanos

Los clasificadores a menudo permiten un equilibrio entre poder predictivo y legibilidad humana. Se pueden ajustar modelos más simples e interpretables, como los árboles de decisión o la regresión logística, para que su comportamiento sea más fácil de entender. Estos modelos interpretables se pueden utilizar para explorar las propiedades de los datos, lo que permite a los usuarios humanos obtener información sobre los datos. Estos conocimientos pueden luego guiar el desarrollo de modelos de aprendizaje automático más complejos y precisos.

Desventajas de la clasificación

Si bien la clasificación es una herramienta poderosa en el aprendizaje automático, presenta ciertos desafíos y limitaciones. A continuación, analizamos algunas de las desventajas clave de la clasificación, incluido el sobreajuste, el desajuste y la necesidad de un preprocesamiento extenso de los datos de entrenamiento.

Sobreajuste

Al entrenar modelos de clasificación, es importante ajustar el proceso de entrenamiento para reducir las posibilidades de que el modelo se ajuste demasiado a sus datos. El sobreajuste es un problema en el que un modelo memoriza algunos o todos sus datos de origen, en lugar de desarrollar una comprensión abstracta de las relaciones en los datos. Un modelo que ha sobreajustado los datos de entrenamiento funcionará bien cuando vea datos nuevos que se parezcan mucho a los datos con los que fue entrenado, pero es posible que no funcione tan bien en general.

Falta de adaptación

El rendimiento de los sistemas de clasificación depende de tener suficientes cantidades de datos de entrenamiento disponibles y de que se apliquen a problemas que funcionen bien para los algoritmos de clasificación elegidos. Si no hay suficientes datos de entrenamiento disponibles, o si un algoritmo de clasificación específico no tiene las herramientas adecuadas para interpretar los datos correctamente, es posible que el modelo entrenado nunca aprenda a hacer buenas predicciones. Este fenómeno se conoce como "desadaptación". Hay muchas técnicas disponibles para intentar mitigar el desajuste y aplicarlas correctamente no siempre es fácil.

Preprocesamiento de datos de entrenamiento.

Muchos sistemas de clasificación tienen requisitos relativamente rígidos para la estructura y el formato de los datos. Su desempeño a menudo está estrechamente relacionado con qué tan bien se procesaron los datos antes de exponerlos o capacitarlos. Como resultado, los sistemas de clasificación pueden ser rígidos e inflexibles, con límites estrictos en torno a los problemas y contextos de datos a los que se adaptan mejor.