¿Qué es una red neuronal?

Publicado: 2024-06-26

¿Qué es una red neuronal?

Una red neuronal es un tipo de modelo de aprendizaje profundo dentro del campo más amplio del aprendizaje automático (ML) que simula el cerebro humano. Procesa datos a través de nodos o neuronas interconectadas dispuestas en capas: entrada, oculta y salida. Cada nodo realiza cálculos simples, lo que contribuye a la capacidad del modelo para reconocer patrones y hacer predicciones.

Las redes neuronales de aprendizaje profundo son particularmente efectivas en el manejo de tareas complejas como el reconocimiento de imágenes y voz, y constituyen un componente crucial de muchas aplicaciones de IA. Los avances recientes en arquitecturas de redes neuronales y técnicas de entrenamiento han mejorado sustancialmente las capacidades de los sistemas de IA.

Cómo se estructuran las redes neuronales

Como su nombre lo indica, un modelo de red neuronal se inspira en las neuronas, los componentes básicos del cerebro. Los seres humanos adultos tienen alrededor de 85 mil millones de neuronas, cada una de ellas conectada a unas 1.000 más. Una célula cerebral se comunica con otra mediante el envío de sustancias químicas llamadas neurotransmisores. Si la célula receptora obtiene una cantidad suficiente de estas sustancias químicas, se excita y envía sus propias sustancias químicas a otra célula.

La unidad fundamental de lo que a veces se llama red neuronal artificial (RNA) es unnodo, que, en lugar de ser una célula, es una función matemática. Al igual que las neuronas, se comunican con otros nodos si reciben suficiente información.

Ahí es donde terminan las similitudes. Las redes neuronales están estructuradas de manera mucho más simple que el cerebro, con capas claramente definidas: entrada, oculta y salida. Una colección de estas capas se llamamodelo.Aprenden ose entrenanintentando repetidamente generar artificialmente resultados que se asemejen más a los resultados deseados. (Más de eso en un minuto.)

Las capas de entrada y salida se explican por sí solas. La mayor parte de lo que hacen las redes neuronales tiene lugar en las capas ocultas. Cuando un nodo se activa mediante la entrada de una capa anterior, realiza sus cálculos y decide si pasa la salida a los nodos de la siguiente capa. Estas capas se llaman así porque sus operaciones son invisibles para el usuario final, aunque existen técnicas para que los ingenieros vean lo que sucede en las llamadas capas ocultas.

Cuando las redes neuronales incluyen múltiples capas ocultas, se denominan redes de aprendizaje profundo. Las redes neuronales profundas modernas suelen tener muchas capas, incluidas subcapas especializadas que realizan distintas funciones. Por ejemplo, algunas subcapas mejoran la capacidad de la red para considerar información contextual más allá de la entrada inmediata que se analiza.

Cómo funcionan las redes neuronales

Piense en cómo aprenden los bebés. Intentan algo, fallan y vuelven a intentarlo de otra manera. El ciclo continúa una y otra vez hasta que perfeccionan el comportamiento. Así es más o menos cómo aprenden también las redes neuronales.

Al comienzo de su entrenamiento, las redes neuronales hacen conjeturas aleatorias. Un nodo en la capa de entrada decide aleatoriamente cuál de los nodos en la primera capa oculta activar, y luego esos nodos activan aleatoriamente los nodos en la siguiente capa, y así sucesivamente, hasta que este proceso aleatorio llega a la capa de salida. (Los modelos de lenguajes grandes, como GPT-4, tienen alrededor de 100 capas, con decenas o cientos de miles de nodos en cada capa).

Teniendo en cuenta toda la aleatoriedad, el modelo compara su resultado (que probablemente sea terrible) y descubre hasta qué punto estaba equivocado. Luego ajusta la conexión de cada nodo con otros nodos, cambiando cuán más o menos propensos deberían ser a activarse en función de una entrada determinada. Lo hace repetidamente hasta que sus resultados se acercan lo más posible a las respuestas deseadas.

Entonces, ¿cómo saben las redes neuronales lo que se supone que deben estar haciendo? El aprendizaje automático (ML) se puede dividir en diferentes enfoques, incluido el aprendizaje supervisado y no supervisado. En el aprendizaje supervisado, el modelo se entrena con datos que incluyen etiquetas o respuestas explícitas, como imágenes combinadas con texto descriptivo. Sin embargo, el aprendizaje no supervisado implica proporcionar al modelo datos sin etiquetar, lo que le permite identificar patrones y relaciones de forma independiente.

Un complemento común a esta formación es el aprendizaje por refuerzo, donde el modelo mejora en respuesta a la retroalimentación. Con frecuencia, esto lo proporcionan evaluadores humanos (si alguna vez has hecho clic en el pulgar hacia arriba o hacia abajo ante una sugerencia de una computadora, has contribuido al aprendizaje por refuerzo). Aun así, también hay formas de que los modelos aprendan de forma iterativa e independiente.

Es preciso e instructivo pensar en la salida de una red neuronal como una predicción. Ya sea evaluando la solvencia o generando una canción, los modelos de IA funcionan adivinando qué es lo más probable que sea correcto. La IA generativa, como ChatGPT, lleva la predicción un paso más allá. Funciona de forma secuencial, haciendo conjeturas sobre lo que debería venir después del resultado que acaba de generar. (Más adelante veremos por qué esto puede ser problemático).

Cómo las redes neuronales generan respuestas

Una vez entrenada una red, ¿cómo procesa la información que ve para predecir la respuesta correcta? Cuando escribes un mensaje como “Cuéntame una historia sobre hadas” en la interfaz de ChatGPT, ¿cómo decide ChatGPT cómo responder?

El primer paso es que la capa de entrada de la red neuronal divida su mensaje en pequeños fragmentos de información, conocidos comotokens. Para una red de reconocimiento de imágenes, los tokens pueden ser píxeles. Para una red que utiliza procesamiento de lenguaje natural (NLP), como ChatGPT, un token suele ser una palabra, parte de una palabra o una frase muy corta.

Una vez que la red ha registrado los tokens en la entrada, esa información pasa a través de las capas ocultas entrenadas anteriormente. Los nodos que pasa de una capa a la siguiente analizan secciones cada vez más grandes de la entrada. De esta manera, una red de PNL puede eventualmente interpretar una oración o un párrafo completo, no solo una palabra o una letra.

Ahora la red puede comenzar a elaborar su respuesta, lo que hace como una serie de predicciones palabra por palabra de lo que sucederá a continuación en función de todo en lo que ha sido entrenada.

Considere el mensaje: "Cuéntame una historia sobre hadas". Para generar una respuesta, la red neuronal analiza el mensaje para predecir la primera palabra más probable. Por ejemplo, podría determinar que hay un 80% de posibilidades de que "El" sea la mejor opción, un 10% de posibilidades de que "A" y un 10% de posibilidades de que "Una vez". Luego selecciona aleatoriamente un número: si el número está entre 1 y 8, elige "El"; si es 9, elige “A”; y si es 10, elige "Una vez". Supongamos que el número aleatorio es 4, que corresponde a "El". Luego, la red actualiza el mensaje a “Cuéntame una historia sobre hadas. El” y repite el proceso para predecir la siguiente palabra después de “El”. Este ciclo continúa, con cada nueva predicción de palabras basada en el mensaje actualizado, hasta que se genera una historia completa.

Diferentes redes harán esta predicción de manera diferente. Por ejemplo, un modelo de reconocimiento de imágenes puede intentar predecir qué etiqueta darle a la imagen de un perro y determinar que hay un 70 % de probabilidad de que la etiqueta correcta sea “chocolate Lab”, un 20 % para “English spaniel” y un 10 % para para "golden retriever". En el caso de la clasificación, generalmente, la red optará por la opción más probable en lugar de una suposición probabilística.

Tipos de redes neuronales

A continuación se ofrece una descripción general de los diferentes tipos de redes neuronales y cómo funcionan.

Redes neuronales de avance (FNN): en estos modelos, la información fluye en una dirección: desde la capa de entrada, a través de las capas ocultas y finalmente a la capa de salida.Este tipo de modelo es mejor para tareas de predicción más simples, como la detección de fraudes con tarjetas de crédito.
Redes neuronales recurrentes (RNN): a diferencia de las FNN, las RNN consideran entradas anteriores al generar una predicción.Esto los hace muy adecuados para tareas de procesamiento del lenguaje, ya que el final de una oración generada en respuesta a una indicación depende de cómo comenzó la oración.
Redes de memoria a corto plazo (LSTM): las LSTM olvidan información de forma selectiva, lo que les permite trabajar de manera más eficiente.Esto es crucial para procesar grandes cantidades de texto; por ejemplo, la actualización de Google Translate de 2016 a la traducción automática neuronal se basó en LSTM.
Redes neuronales convolucionales (CNN): las CNN funcionan mejor al procesar imágenes.Utilizancapas convolucionalespara escanear la imagen completa y buscar características como líneas o formas. Esto permite a las CNN considerar la ubicación espacial, como determinar si un objeto está ubicado en la mitad superior o inferior de la imagen, y también identificar una forma o tipo de objeto independientemente de su ubicación.
Redes generativas adversarias (GAN): las GAN se utilizan a menudo para generar nuevas imágenes basadas en una descripción o una imagen existente.Están estructurados como una competencia entre dos redes neuronales: una redgeneradora, que intenta engañar a una reddiscriminadorahaciéndole creer que una entrada falsa es real.
Transformadores y redes de atención: Los transformadores son responsables de la actual explosión de capacidades de IA.Estos modelos incorporan un foco de atención que les permite filtrar sus entradas para centrarse en los elementos más importantes y en cómo esos elementos se relacionan entre sí, incluso a través de páginas de texto. Los transformadores también pueden entrenar con enormes cantidades de datos, por lo que modelos como ChatGPT y Gemini se denominanmodelos de lenguaje grande (LLM).

Aplicaciones de las redes neuronales

Hay demasiadas para enumerarlas, por lo que aquí presentamos una selección de las formas en que se utilizan las redes neuronales en la actualidad, con énfasis en el lenguaje natural.

Asistencia en escritura: Los Transformers han transformado la forma en que las computadoras pueden ayudar a las personas a escribir mejor.Las herramientas de escritura de IA, como Grammarly, ofrecen reescritura de oraciones y párrafos para mejorar el tono y la claridad. Este tipo de modelo también ha mejorado la velocidad y precisión de las sugerencias gramaticales básicas. Obtenga más información sobre cómo Grammarly utiliza la IA.

Trabaja de forma más inteligente con Grammarly

El compañero de redacción de IA para cualquiera que tenga trabajo que hacer

Generación de contenido: si ha utilizado ChatGPT o DALL-E, ha experimentado la IA generativa de primera mano.Los transformadores han revolucionado la capacidad de las computadoras para crear medios que resuenen con los humanos, desde cuentos antes de dormir hasta representaciones arquitectónicas hiperrealistas.

Reconocimiento de voz: las computadoras son cada día mejores en el reconocimiento del habla humana.Con tecnologías más nuevas que les permiten considerar más contexto, los modelos se han vuelto cada vez más precisos a la hora de reconocer lo que el hablante pretende decir, incluso si los sonidos por sí solos pudieran tener múltiples interpretaciones.

Diagnóstico e investigación médicos: las redes neuronales destacan en la detección y clasificación de patrones, que se utilizan cada vez más para ayudar a los investigadores y proveedores de atención médica a comprender y abordar las enfermedades.Por ejemplo, debemos agradecer en parte a la IA el rápido desarrollo de las vacunas contra la COVID-19.

Desafíos y limitaciones de las redes neuronales.

He aquí un breve vistazo a algunos, pero no a todos, los problemas planteados por las redes neuronales.

Sesgo: una red neuronal sólo puede aprender de lo que le han dicho.Si está expuesto a contenido sexista o racista, su producción probablemente también será sexista o racista. Esto puede ocurrir al traducir de un idioma sin género a uno con género, donde los estereotipos persisten sin una identificación explícita de género.

Sobreajuste: un modelo mal entrenado puede leer demasiado en los datos que se le han proporcionado y tener dificultades con entradas novedosas.Por ejemplo, el software de reconocimiento facial entrenado principalmente en personas de una determinada etnia podría funcionar mal con rostros de otras razas. O un filtro de spam podría pasar por alto una nueva variedad de correo basura porque está demasiado centrado en patrones que ha visto antes.

Alucinaciones: Gran parte de la IA generativa actual utiliza la probabilidad hasta cierto punto para elegir qué producir en lugar de seleccionar siempre la opción de mayor rango.Este enfoque le ayuda a ser más creativo y producir texto que suene más natural, pero también puede llevarlo a hacer declaraciones que sean simplemente falsas. (Esta es también la razón por la que los LLM a veces se equivocan en matemáticas básicas). Desafortunadamente, estas alucinaciones son difíciles de detectar a menos que sepa mejor o verifique los hechos con otras fuentes.

Interpretabilidad: a menudo es imposible saber exactamente cómo hace predicciones una red neuronal.Si bien esto puede resultar frustrante desde la perspectiva de alguien que intenta mejorar el modelo, también puede tener consecuencias, ya que se depende cada vez más de la IA para tomar decisiones que tienen un gran impacto en la vida de las personas. Algunos modelos utilizados hoy en día no se basan en redes neuronales precisamente porque sus creadores quieren poder inspeccionar y comprender cada etapa del proceso.

Propiedad intelectual: muchos creen que los LLM violan los derechos de autor al incorporar escritos y otras obras de arte sin permiso.Si bien no tienden a reproducir directamente obras protegidas por derechos de autor, se sabe que estos modelos crean imágenes o frases que probablemente se derivan de artistas específicos o incluso crean obras en el estilo distintivo de un artista cuando se les solicita.

Consumo de energía: Todo este entrenamiento y funcionamiento de modelos de transformadores consume una enorme energía.De hecho, dentro de unos años, la IA podría consumir tanta energía como Suecia o Argentina. Esto destaca la creciente importancia de considerar las fuentes de energía y la eficiencia en el desarrollo de la IA.

El futuro de las redes neuronales

Predecir el futuro de la IA es muy difícil. En 1970, uno de los principales investigadores de IA predijo que “en tres a ocho años tendremos una máquina con la inteligencia general de un ser humano promedio”. (Todavía no estamos muy cerca de la inteligencia artificial general (AGI). Al menos la mayoría de la gente no lo cree así).

Sin embargo, podemos señalar algunas tendencias a las que debemos prestar atención. Los modelos más eficientes reducirían el consumo de energía y ejecutarían redes neuronales más potentes directamente en dispositivos como los teléfonos inteligentes. Las nuevas técnicas de entrenamiento podrían permitir predicciones más útiles con menos datos de entrenamiento. Un avance en la interpretabilidad podría aumentar la confianza y allanar nuevos caminos para mejorar la producción de las redes neuronales. Finalmente, combinar la computación cuántica y las redes neuronales podría conducir a innovaciones que apenas podemos empezar a imaginar.

Conclusión

Las redes neuronales, inspiradas en la estructura y función del cerebro humano, son fundamentales para la inteligencia artificial moderna. Se destacan en tareas de predicción y reconocimiento de patrones, lo que sustenta muchas de las aplicaciones de inteligencia artificial actuales, desde el reconocimiento de imágenes y voz hasta el procesamiento del lenguaje natural. Con avances en arquitectura y técnicas de capacitación, las redes neuronales continúan impulsando mejoras significativas en las capacidades de IA.

A pesar de su potencial, las redes neuronales enfrentan desafíos como el sesgo, el sobreajuste y el alto consumo de energía. Abordar estos problemas es crucial a medida que la IA continúa evolucionando. De cara al futuro, las innovaciones en eficiencia, interpretabilidad e integración de modelos con la computación cuántica prometen ampliar aún más las posibilidades de las redes neuronales, lo que podría conducir a aplicaciones aún más transformadoras.