Qu’est-ce que l’apprentissage profond ?

Publié: 2024-06-13

Qu’est-ce que l’apprentissage profond ?

L'apprentissage profond est un sous-ensemble de l'apprentissage automatique (ML) qui utilise des réseaux de neurones comportant de nombreuses couches, appelés réseaux de neurones profonds (DNN). Ces réseaux sont constitués de nombreuses unités interconnectées appelées neurones ou nœuds qui agissent comme des détecteurs de caractéristiques. Chaque réseau neuronal possède une couche d'entrée pour recevoir les données, une couche de sortie pour générer des prédictions et plusieurs couches cachées pour traiter les données et extraire des modèles significatifs.

Par exemple, les premières couches peuvent détecter des caractéristiques simples telles que les bords et les coins d'un réseau de reconnaissance d'images, tandis que les couches plus profondes peuvent reconnaître des structures plus complexes comme des visages ou des objets. Dans un réseau de traitement linguistique, les premières couches peuvent identifier des éléments de base tels que des lettres ou des sons individuels, tandis que les couches plus profondes peuvent comprendre la grammaire, le contexte ou même les sentiments exprimés dans les phrases.

Alors que les premiers réseaux de neurones ne comportaient que quelques couches cachées, les réseaux de neurones profonds en comptent plusieurs, parfois plus d'une centaine. L'ajout de plusieurs couches cachées rend le réseau plus flexible et plus efficace pour apprendre des modèles complexes qui se généralisent au-delà des données d'entraînement. En conséquence, la plupart des réseaux de neurones modernes sont des réseaux de neurones profonds.

Travaillez plus intelligemment avec Grammarly

Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Apprentissage profond vs apprentissage automatique

L’apprentissage profond et l’apprentissage automatique sont souvent mentionnés ensemble mais présentent des différences essentielles. En termes simples, le deep learning est un type d’apprentissage automatique. Les modèles d'apprentissage automatique sont une forme d'intelligence artificielle (IA) qui apprend des modèles dans les données pour faire des prédictions.

Les modèles d'apprentissage automatique tels que la régression linéaire, les forêts aléatoires, les k voisins les plus proches et les machines à vecteurs de support sont assez simples et reposent sur des fonctionnalités définies par l'homme. Par exemple, les humains fournissent des caractéristiques telles que la superficie en pieds carrés, le nombre de chambres et les caractéristiques du quartier pour prédire les prix des logements. Les modèles d’apprentissage automatique affinent l’importance de ces fonctionnalités pour effectuer des prédictions, mais leur précision dépend de la qualité des fonctionnalités fournies.

En revanche, les modèles d’apprentissage profond n’ont pas besoin de fonctionnalités prédéfinies. Ils apprennent les fonctionnalités de manière indépendante pendant la formation, en commençant par des valeurs aléatoires et en s'améliorant au fil du temps. Cela leur permet de trouver des modèles importants que les humains pourraient manquer, conduisant ainsi à de meilleures prédictions. Ils peuvent également gérer beaucoup plus de fonctionnalités que les modèles d’apprentissage automatique plus simples et sont généralement bien meilleurs dans la gestion des données brutes, telles que les images et le texte.

Bien que les modèles d’apprentissage profond soient robustes, des modèles plus simples peuvent parfois s’avérer meilleurs. L’apprentissage profond nécessite de grands ensembles de données et leur fonctionnement interne peut être difficile à comprendre. Des modèles d'apprentissage automatique plus simples peuvent être plus adaptés lorsque vous disposez de moins de données ou que vous devez expliquer comment le modèle effectue ses prédictions.

Comment fonctionne l'apprentissage profond

L'apprentissage profond utilise des réseaux de neurones profonds pour traiter et analyser les données à travers plusieurs couches, produisant ainsi des prédictions sophistiquées.

1 couche d'entrée

Le processus commence au niveau de la couche d’entrée, où les neurones détectent les informations de base. Par exemple, dans un modèle de langage, les neurones pourraient reconnaître des lettres individuelles commeoout.

2 calques cachés

Ensuite, les couches cachées entrent en jeu. Les neurones activés dans la couche d'entrée stimulent les neurones de la première couche cachée, qui détecte des caractéristiques plus complexes, telles que des combinaisons de lettres commesur. Le réseau identifie des caractéristiques de plus en plus abstraites à mesure que le signal traverse des couches cachées supplémentaires. Les poids des connexions entre neurones déterminent la force de ces activations.

3 Détection de caractéristiques abstraites

Le réseau détecte des fonctionnalités plus abstraites dans des couches cachées plus profondes. Cette capacité permet aux réseaux neuronaux profonds de gérer des tâches sophistiquées nécessitant un raisonnement abstrait, comme composer du texte ou reconnaître des objets dans des images.

4 Couche de sortie

Enfin, le réseau génère une prédiction dans la couche de sortie. Chaque neurone de cette couche représente un résultat possible. Par exemple, en complétant la phrase « il était une ___ », un neurone pourrait représenterle temps, un autrerêveet un troisièmematelas. Le réseau estime la probabilité de chaque résultat et sélectionne le plus probable. Certains réseaux, notamment les modèles linguistiques, introduisent de la variabilité en choisissant la plupart du temps la réponse la plus probable, garantissant ainsi des résultats diversifiés et naturels.

Les réseaux neuronaux profonds apprennent des modèles et des fonctionnalités complexes en traitant les entrées via plusieurs couches, ce qui en fait des outils puissants pour des tâches telles que la reconnaissance d'images et le traitement du langage naturel (NLP).

Types de réseaux d'apprentissage profond

L'apprentissage profond englobe différents types de réseaux de neurones, chacun conçu pour gérer des tâches spécifiques. Comprendre ces différentes architectures est crucial pour exploiter efficacement leurs capacités.

Réseaux de neurones feedforward (FNN)

Les réseaux de neurones feedforward, ou réseaux de neurones « vanille », traitent les informations dans une seule direction : de l’entrée à la sortie. Ils sont idéaux pour des tâches de prédiction simples telles que la détection de fraude par carte de crédit ou l'approbation préalable de prêts. La formation s'effectue par rétropropagation, ajustant le modèle en fonction des erreurs de prédiction.

Réseaux de neurones récurrents (RNN)

Les réseaux de neurones récurrents conviennent aux tâches nécessitant des mises à jour dynamiques, telles que la traduction linguistique. Ils utilisent la rétropropagation dans le temps (BPTT) pour prendre en compte les séquences d'entrées, ce qui les rend efficaces pour comprendre le contexte et les relations dans les données séquentielles.

Mémoire à long terme (LSTM)

Les réseaux de mémoire à long terme améliorent les réseaux neuronaux récurrents en oubliant sélectivement les informations non pertinentes tout en conservant les détails importants, ce qui les rend pratiques pour les tâches nécessitant une rétention de contexte à long terme. Les réseaux de mémoire à long terme ont amélioré les capacités de Google Translate, mais peuvent être lents avec de grands ensembles de données en raison de leur traitement linéaire.

Réseaux de neurones convolutifs (CNN)

Les réseaux de neurones convolutifs excellent dans la reconnaissance d'images en analysant les images à la recherche de caractéristiques visuelles telles que les bords et les formes. Ils préservent les informations spatiales et peuvent reconnaître les objets quelle que soit leur position dans l'image, ce qui en fait l'état de pointe pour de nombreuses applications basées sur l'image.

Réseaux contradictoires génératifs (GAN)

Les réseaux adverses génératifs se composent d’un générateur et d’un discriminateur en compétition. Le générateur crée de fausses données et le discriminateur tente de les identifier comme étant fausses. Les deux réseaux s’améliorent grâce à la rétropropagation. Les réseaux adverses génératifs sont excellents pour générer des données réalistes et sont utiles dans la reconnaissance d’images.

Transformateurs et attention

Les transformateurs représentent une avancée majeure dans l’apprentissage profond, notamment pour le traitement du langage naturel. Ils utilisent des mécanismes d’attention pour évaluer l’importance des différents éléments d’entrée. Contrairement aux modèles précédents, les transformateurs traitent les données en parallèle, permettant une gestion efficace de grands ensembles de données. L'attention personnelle permet aux transformateurs de prendre en compte les relations entre tous les éléments d'une entrée, ce qui les rend très efficaces pour des tâches telles que la génération et la traduction de texte.

Applications de l'apprentissage profond

Les modèles d’apprentissage profond ont été appliqués à de nombreux problèmes du monde réel, y compris ceux qui semblaient autrefois impossibles à résoudre pour une machine.

Véhicules autonomes

Les véhicules autonomes s'appuient sur des modèles d'apprentissage profond pour reconnaître les feux de circulation, les voitures à proximité et les piétons. Ces véhicules utilisent la fusion de capteurs, combinant les données du lidar, du radar et des caméras pour créer une vue complète de l'environnement. Les algorithmes de deep learning traitent ces données en temps réel pour prendre des décisions de conduite. Par exemple, le système Autopilot de Tesla utilise des réseaux neuronaux pour interpréter l'environnement et naviguer en conséquence, améliorant ainsi la sécurité et l'efficacité.

Grands modèles de langage (LLM) et chatbots

Les modèles d'apprentissage profond sont au cœur des chatbots humains comme ChatGPT et Gemini, ainsi que des outils d'écriture de code comme Copilot. Les grands modèles linguistiques sont formés sur de grandes quantités de données textuelles, ce qui leur permet de comprendre et de générer un langage humain très précis. Ces modèles peuvent engager des conversations cohérentes, répondre à des questions, rédiger des essais et même aider à la programmation en générant des extraits de code basés sur des descriptions en langage naturel. Par exemple, le GPT-4 d'OpenAI peut écrire du code, rédiger des e-mails et fournir des explications détaillées sur divers sujets.

Aide à la rédaction

Les outils d'écriture exploitent des modèles d'apprentissage en profondeur pour vous aider à mieux écrire. Ces outils analysent des phrases et des paragraphes entiers pour fournir des suggestions de grammaire, de ponctuation, de style et de clarté. Grammarly, par exemple, utilise des techniques avancées de traitement du langage naturel pour comprendre le contexte de votre écriture et proposer des recommandations personnalisées. Il peut détecter le ton, suggérer des synonymes et même aider à structurer votre écriture pour améliorer la lisibilité et l'engagement.

Travaillez plus intelligemment avec Grammarly

Le partenaire d'écriture IA pour tous ceux qui ont du travail à faire

Génération d'images

Les modèles d'apprentissage profond tels que DALL-E ont récemment fait des progrès en générant de nouvelles images basées sur une invite de texte ou en effectuant des transferts de style pour créer une nouvelle version d'une image existante en utilisant le style d'une troisième image. Par exemple, vous pouvez créer une photo de profil dans le style deLa Nuit étoilée(1889) de Vincent van Gogh en saisissant une photo de vous-même et une référence au tableau. Ces modèles utilisent une combinaison de réseaux neuronaux convolutifs et de réseaux adverses génératifs pour produire des images hautement réalistes et créatives.

Systèmes de recommandation

Comment votre application musicale vous aide-t-elle à découvrir de nouveaux artistes ? Les modèles d'apprentissage profond utilisent votre historique d'écoute antérieur pour connaître les modèles de vos préférences, puis prédire de nouvelles chansons similaires à celles que vous avez aimées. Ces systèmes de recommandation analysent de grandes quantités de données utilisateur, notamment les habitudes d'écoute, les requêtes de recherche et les interactions des utilisateurs telles que les likes et les sauts. Des services comme Spotify et Netflix utilisent ces modèles pour fournir un contenu personnalisé, rendant l'expérience utilisateur plus attrayante et adaptée aux goûts de chacun.

Diagnostic médical

Certains modèles de traitement du langage peuvent analyser les informations des dossiers des patients, telles que les résultats de tests, les réponses à des enquêtes, les notes de visites chez le médecin et les antécédents médicaux, et faire apparaître les causes possibles des symptômes des patients. Par exemple, Watson Health d'IBM utilise le traitement du langage naturel pour extraire des informations pertinentes à partir de dossiers médicaux non structurés. De même, les modèles de reconnaissance d’images peuvent lire les rapports de radiologie pour aider les radiologues à détecter des résultats anormaux. Les modèles d'apprentissage profond sont utilisés pour identifier des modèles dans les images médicales, telles que les rayons X et les IRM, contribuant ainsi à la détection précoce de maladies telles que le cancer et les troubles neurologiques.

Défis et limites du deep learning

Malgré leur puissance, les modèles d’apprentissage profond sont flexibles et entraînent des coûts réels. Voici quelques défis liés à l’utilisation du deep learning :

Exigences en matière de données : les modèles d'apprentissage profond nécessitentbeaucoupde données pour bien les former. Par exemple, le modèle GPT-3 d'OpenAI a été formé sur cinq ensembles de données, dont le plus petit contenait tous les articles Wikipédia.
Coûts de calcul : la formation et l'exécution de modèles d'apprentissage profond nécessitent beaucoup de calculs, d'énergie et de coûts.
Biais : les modèles formés sur des données biaisées hériteront et intégreront ce biais dans leurs réponses. Par exemple, entraîner un modèle de reconnaissance d'images sur 90 % d'images de chiens et 10 % d'images de chats ne préparera pas bien le modèle si 50 % des images du monde réel incluent des chats.
Interprétabilité : les « couches cachées » qui constituent l'essentiel d'un modèle d'apprentissage profond portent bien leur nom, car il peut être difficile de savoir ce qu'elles font pour faire leurs prédictions. Dans certains cas, cela peut convenir. Dans d’autres, il est essentiel de savoir ce qui a motivé la prédiction. Par exemple, comprendre comment un modèle prédit les résultats pour les patients en réponse à un nouveau traitement est scientifiquement et médicalement nécessaire.
Images fausses et désinformation : les réseaux contradictoires génératifs comme DeepDream peuvent produire des images fausses mais convaincantes. Entre de mauvaises mains, ces informations pourraient être utilisées pour diffuser de la désinformation. De même, les chatbots comme ChatGPT peuvent « halluciner » des informations incorrectes et doivent toujours être vérifiés.

L'avenir de l'apprentissage profond

Bien qu'il soit difficile de savoir ce que l'avenir nous réserve en matière d'apprentissage profond, voici quelques domaines de développement actif :

Les grands modèles de langage continuent de s'améliorer : des organisations comme OpenAI continuent de s'appuyer sur leurs succès passés, et vous devriez vous attendre à voir les réponses de leurs modèles s'améliorer et être plus précises.
Apprentissage multimodal : certains modèles d'apprentissage profond de pointe sont formés de manière multimodale pour se généraliser à différents types d'informations ; par exemple, un modèle entraîné sur du texte pourrait prédire des informations sur la parole ou des images.
Interprétabilité : même si les modèles d’apprentissage profond restent relativement opaques, nous pourrions voir à l’avenir davantage d’outils permettant de mieux comprendre comment ils parviennent à leurs prédictions.

Conclusion

L'apprentissage profond est un outil puissant susceptible de résoudre de nombreux problèmes auxquels nous sommes confrontés aujourd'hui, qu'il s'agisse de détecter un ours sur une caméra animalière, de découvrir de nouveaux traitements contre des maladies ou d'écrire plus clairement.