¿Qué es el aprendizaje profundo?

Publicado: 2024-06-13

¿Qué es el aprendizaje profundo?

El aprendizaje profundo es un subconjunto del aprendizaje automático (ML) que utiliza redes neuronales con muchas capas, conocidas como redes neuronales profundas (DNN). Estas redes constan de numerosas unidades interconectadas llamadas neuronas o nodos que actúan como detectores de características. Cada red neuronal tiene una capa de entrada para recibir datos, una capa de salida para generar predicciones y múltiples capas ocultas para procesar los datos y extraer patrones significativos.

Por ejemplo, las primeras capas pueden detectar características simples como bordes y esquinas en una red de reconocimiento de imágenes, mientras que las capas más profundas pueden reconocer estructuras más complejas como caras u objetos. En una red de procesamiento del lenguaje, las primeras capas pueden identificar elementos básicos como letras o sonidos individuales, mientras que las capas más profundas pueden comprender la gramática, el contexto o incluso los sentimientos expresados ​​en oraciones.

Mientras que las primeras redes neuronales tenían sólo unas pocas capas ocultas, las redes neuronales profundas tienen muchas (a veces más de cien). Agregar múltiples capas ocultas hace que la red sea más flexible y mejor a la hora de aprender patrones complejos que se generalizan más allá de los datos de entrenamiento. Como resultado, la mayoría de las redes neuronales modernas son redes neuronales profundas.

Trabaja de forma más inteligente con Grammarly
El compañero de redacción de IA para cualquiera que tenga trabajo que hacer

Aprendizaje profundo versus aprendizaje automático

El aprendizaje profundo y el aprendizaje automático a menudo se mencionan juntos, pero tienen diferencias esenciales. En pocas palabras, el aprendizaje profundo es un tipo de aprendizaje automático. Los modelos de aprendizaje automático son una forma de inteligencia artificial (IA) que aprende patrones en los datos para hacer predicciones.

Los modelos de aprendizaje automático, como la regresión lineal, los bosques aleatorios, los k vecinos más cercanos y las máquinas de vectores de soporte, son bastante sencillos y se basan en características definidas por humanos. Por ejemplo, los humanos proporcionan características como pies cuadrados, número de dormitorios y características del vecindario para predecir los precios de las viviendas. Los modelos de aprendizaje automático ajustan la importancia de estas características para hacer predicciones, pero su precisión depende de la calidad de las características proporcionadas.

Los modelos de aprendizaje profundo, por otro lado, no necesitan características predefinidas. Aprenden funciones de forma independiente durante el entrenamiento, comenzando con valores aleatorios y mejorando con el tiempo. Esto les permite encontrar patrones importantes que los humanos podrían pasar por alto, lo que lleva a mejores predicciones. También pueden manejar muchas más funciones que los modelos de aprendizaje automático más simples y, en general, son mucho mejores en el manejo de datos sin procesar, como imágenes y texto.

Aunque los modelos de aprendizaje profundo son sólidos, a veces los modelos más simples pueden ser mejores. El aprendizaje profundo necesita grandes conjuntos de datos y su funcionamiento interno puede ser difícil de entender. Los modelos de aprendizaje automático más simples pueden ser más adecuados cuando se tiene menos datos o se necesita explicar cómo el modelo hace sus predicciones.

Cómo funciona el aprendizaje profundo

El aprendizaje profundo utiliza redes neuronales profundas para procesar y analizar datos a través de múltiples capas, produciendo predicciones sofisticadas.

1 capa de entrada

El proceso comienza en la capa de entrada, donde las neuronas detectan información básica. Por ejemplo, en un modelo de lenguaje, las neuronas podrían reconocer letras individuales comooot.

2 capas ocultas

A continuación, entran en juego las capas ocultas. Las neuronas activadas en la capa de entrada estimulan las neuronas de la primera capa oculta, que detecta características más complejas, como combinaciones de letras comoen. La red identifica características cada vez más abstractas a medida que la señal pasa a través de capas ocultas adicionales. Los pesos de las conexiones entre neuronas determinan la fuerza de estas activaciones.

3 Detección de características abstractas

La red detecta características más abstractas en capas ocultas más profundas. Esta capacidad permite que las redes neuronales profundas manejen tareas sofisticadas que requieren razonamiento abstracto, como redactar texto o reconocer objetos en imágenes.

4 capa de salida

Finalmente, la red genera una predicción en la capa de salida. Cada neurona de esta capa representa un posible resultado. Por ejemplo, al completar la frase “érase una vez ___”, una neurona podría representarel tiempo, otrael sueñoy un tercercolchón. La red estima la probabilidad de cada resultado y selecciona el más probable. Algunas redes, especialmente los modelos de lenguaje, introducen variabilidad al elegir la respuesta más probable la mayor parte del tiempo, lo que garantiza resultados diversos y naturales.

Las redes neuronales profundas aprenden patrones y características complejos procesando entradas a través de múltiples capas, lo que las convierte en herramientas poderosas para tareas como el reconocimiento de imágenes y el procesamiento del lenguaje natural (PLN).

Tipos de redes de aprendizaje profundo

El aprendizaje profundo abarca varios tipos de redes neuronales, cada una diseñada para manejar tareas específicas. Comprender estas diferentes arquitecturas es crucial para aprovechar eficazmente sus capacidades.

Redes neuronales de avance (FNN)

Las redes neuronales de avance, o redes neuronales "vainilla", procesan información en una dirección: de entrada a salida. Son ideales para tareas de predicción sencillas, como detectar fraudes con tarjetas de crédito o aprobar previamente préstamos. El entrenamiento se produce mediante retropropagación, ajustando el modelo en función de los errores de predicción.

Redes neuronales recurrentes (RNN)

Las redes neuronales recurrentes son adecuadas para tareas que requieren actualizaciones dinámicas, como la traducción de idiomas. Utilizan la propagación hacia atrás a través del tiempo (BPTT) para dar cuenta de secuencias de entradas, lo que las hace efectivas para comprender el contexto y las relaciones en datos secuenciales.

Memoria larga a corto plazo (LSTM)

Las redes de memoria a corto plazo mejoran las redes neuronales recurrentes al olvidar selectivamente información irrelevante y al mismo tiempo retener detalles importantes, lo que las hace prácticas para tareas que requieren retención de contexto a largo plazo. Las redes de memoria larga a corto plazo mejoraron las capacidades de Google Translate, pero pueden ser lentas con grandes conjuntos de datos debido a su procesamiento lineal.

Redes neuronales convolucionales (CNN)

Las redes neuronales convolucionales destacan en el reconocimiento de imágenes al escanear imágenes en busca de características visuales como bordes y formas. Conservan información espacial y pueden reconocer objetos independientemente de su posición en la imagen, lo que los convierte en lo último en tecnología para muchas aplicaciones basadas en imágenes.

Redes generativas adversarias (GAN)

Las redes generativas adversarias consisten en un generador y un discriminador que compiten. El generador crea datos falsos y el discriminador intenta identificarlos como falsos. Ambas redes mejoran mediante la retropropagación. Las redes generativas adversarias son excelentes para generar datos realistas y son útiles en el reconocimiento de imágenes.

Transformadores y atención.

Los transformadores representan un gran avance en el aprendizaje profundo, especialmente para el procesamiento del lenguaje natural. Utilizan mecanismos de atención para sopesar la importancia de diferentes elementos de entrada. A diferencia de los modelos anteriores, los transformadores procesan datos en paralelo, lo que permite un manejo eficiente de grandes conjuntos de datos. La autoatención permite a los transformadores considerar las relaciones entre todos los elementos en una entrada, lo que los hace muy efectivos para tareas como la generación y traducción de texto.

Aplicaciones del aprendizaje profundo

Los modelos de aprendizaje profundo se han aplicado a muchos problemas del mundo real, incluidos aquellos que antes parecían imposibles de resolver para una máquina.

Vehículos autónomos

Los vehículos autónomos se basan en modelos de aprendizaje profundo para reconocer señales y señales de tráfico, automóviles cercanos y peatones. Estos vehículos utilizan la fusión de sensores, combinando datos de lidar, radar y cámaras para crear una visión integral del entorno. Los algoritmos de aprendizaje profundo procesan estos datos en tiempo real para tomar decisiones de conducción. Por ejemplo, el sistema Autopilot de Tesla utiliza redes neuronales para interpretar el entorno y navegar en consecuencia, mejorando la seguridad y la eficiencia.

Grandes modelos de lenguaje (LLM) y chatbots

Los modelos de aprendizaje profundo son el núcleo de los chatbots con apariencia humana como ChatGPT y Gemini, así como de las herramientas de escritura de códigos como Copilot. Los modelos de lenguaje grandes se entrenan con grandes cantidades de datos de texto, lo que les permite comprender y generar un lenguaje humano de alta precisión. Estos modelos pueden entablar conversaciones coherentes, responder preguntas, escribir ensayos e incluso ayudar en la programación generando fragmentos de código basados ​​en descripciones en lenguaje natural. Por ejemplo, GPT-4 de OpenAI puede escribir código, redactar correos electrónicos y proporcionar explicaciones detalladas sobre diversos temas.

Asistencia de escritura

Las herramientas de escritura aprovechan los modelos de aprendizaje profundo para ayudarle a escribir mejor. Estas herramientas analizan oraciones y párrafos completos para brindar sugerencias de gramática, puntuación, estilo y claridad. Grammarly, por ejemplo, utiliza técnicas avanzadas de procesamiento del lenguaje natural para comprender el contexto de su escritura y ofrecer recomendaciones personalizadas. Puede detectar el tono, sugerir sinónimos e incluso ayudar a estructurar su escritura para mejorar la legibilidad y la participación.

Trabaja de forma más inteligente con Grammarly
El compañero de redacción de IA para cualquiera que tenga trabajo que hacer

Generación de imágenes

Los modelos de aprendizaje profundo como DALL-E han avanzado recientemente en la generación de imágenes novedosas basadas en un mensaje de texto o en la realización de transferencias de estilo para crear una nueva versión de una imagen existente utilizando el estilo de una tercera imagen. Por ejemplo, puedes crear una foto de perfil al estilo deLa noche estrellada(1889) de Vincent van Gogh ingresando una foto tuya y una referencia a la pintura. Estos modelos utilizan una combinación de redes neuronales convolucionales y redes generativas adversarias para producir imágenes creativas y muy realistas.

Sistemas de recomendación

¿Cómo te ayuda tu aplicación de música a descubrir nuevos artistas? Los modelos de aprendizaje profundo utilizan su historial de escucha anterior para aprender los patrones de sus preferencias y luego predecir nuevas canciones similares a las que le han gustado. Estos sistemas de recomendación analizan grandes cantidades de datos de los usuarios, incluidos hábitos de escucha, consultas de búsqueda e interacciones de los usuarios, como me gusta y omisiones. Servicios como Spotify y Netflix utilizan estos modelos para proporcionar contenido personalizado, haciendo que la experiencia del usuario sea más atractiva y adaptada a los gustos individuales.

Diagnostico medico

Algunos modelos de procesamiento del lenguaje pueden analizar información de los registros de los pacientes (como resultados de pruebas, respuestas a encuestas, notas de visitas al médico e historial médico) y descubrir posibles causas de los síntomas de los pacientes. Por ejemplo, Watson Health de IBM utiliza procesamiento de lenguaje natural para extraer información relevante de registros médicos no estructurados. De manera similar, los modelos de reconocimiento de imágenes pueden leer informes radiológicos para ayudar a los radiólogos a detectar resultados anormales. Los modelos de aprendizaje profundo se utilizan para identificar patrones en imágenes médicas, como rayos X y resonancias magnéticas, lo que ayuda a la detección temprana de afecciones como el cáncer y los trastornos neurológicos.

Desafíos y limitaciones del aprendizaje profundo

A pesar de su poder, los modelos de aprendizaje profundo son flexibles y conllevan costos reales. A continuación se presentan algunos desafíos del uso del aprendizaje profundo:

  • Requisitos de datos: los modelos de aprendizaje profundo requieren unagran cantidadde datos para entrenarlos bien. Por ejemplo, el modelo GPT-3 de OpenAI se entrenó en cinco conjuntos de datos, el más pequeño de los cuales contenía todos los artículos de Wikipedia.
  • Costos computacionales: entrenar y ejecutar modelos de aprendizaje profundo requiere una gran intensidad computacional y requiere mucha energía y costos.
  • Sesgo: los modelos entrenados con datos sesgados heredarán e incorporarán ese sesgo en sus respuestas. Por ejemplo, entrenar un modelo de reconocimiento de imágenes con un 90 % de imágenes de perros y un 10 % de imágenes de gatos no preparará bien el modelo si el 50 % de las imágenes del mundo real incluyen gatos.
  • Interpretabilidad: Las “capas ocultas” que componen la mayor parte de un modelo de aprendizaje profundo reciben un nombre apropiado porque puede resultar complicado saber qué están haciendo para hacer sus predicciones. En algunos casos, eso puede estar bien. En otros, es esencial saber qué entró en la predicción. Por ejemplo, comprender cómo un modelo predijo los resultados de los pacientes en respuesta a un nuevo tratamiento es científica y médicamente necesario.
  • Imágenes falsas y desinformación: las redes generativas de confrontación como DeepDream pueden producir imágenes falsas pero convincentes. En las manos equivocadas, estos podrían utilizarse para difundir información errónea. De manera similar, los chatbots como ChatGPT pueden "alucinar" información incorrecta y siempre deben verificarse.

El futuro del aprendizaje profundo

Si bien es difícil saber qué traerá el futuro para el aprendizaje profundo, aquí hay algunas áreas de desarrollo activo:

  • Los grandes modelos de lenguaje continúan mejorando: organizaciones como OpenAI continúan basándose en éxitos pasados, y usted debería esperar ver que las respuestas de sus modelos sean mejores y más precisas.
  • Aprendizaje multimodal: algunos modelos de aprendizaje profundo de vanguardia se entrenan de forma multimodal para generalizar diferentes tipos de información; por ejemplo, un modelo entrenado en texto podría predecir información sobre el habla o las imágenes.
  • Interpretabilidad: si bien los modelos de aprendizaje profundo siguen siendo relativamente opacos, es posible que veamos más herramientas en el futuro que faciliten la comprensión de cómo llegan a sus predicciones.

Conclusión

El aprendizaje profundo es una herramienta poderosa con el potencial de abordar muchos de los problemas que enfrentamos hoy en día, ya sea detectar un oso con una cámara de vida silvestre, descubrir nuevos tratamientos para enfermedades o escribir con mayor claridad.