Une intelligence artificielle apprend le langage à travers les yeux d’un bébé
Sam avait 6 mois lorsqu’il a fixé pour la première fois une petite caméra sur son front. Pendant un an et demi, la caméra a capturé des bribes de sa vie. Il a crapahuté près des animaux de la famille, a regardé ses parents cuisiner et a pleuré sous le porche avec sa grand-mère. Pendant tout ce temps, la caméra enregistrait tout ce qu’il entendait. Ce qui ressemble à une mignonne vidéo familiale de bambin est en fait un concept audacieux : l’IA peut-elle apprendre le langage comme un enfant ? Les résultats pourraient également révéler comment les enfants acquièrent rapidement le langage et les concepts dès leur plus jeune âge.
Une nouvelle étude (lien plus bas) décrit comment des chercheurs ont utilisé les enregistrements de Sam pour entraîner une IA à comprendre le langage. Grâce à une infime partie de l’expérience de vie d’un enfant pendant un an, l’IA a pu saisir des concepts de base, par exemple une balle, un papillon ou un seau.
Image d’entête : les chercheurs ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un seul enfant. (Center for Data Science de l’université de New York)
L’IA, appelée Child’s View for Contrastive Learning (CVCL), imite grosso modo la façon dont nous apprenons lorsque nous sommes tout-petits, en associant la vue à l’audio. Il s’agit d’une approche très différente de celle adoptée par les grands modèles linguistiques tels que ceux qui sont à l’origine de ChatGPT ou de Bard. L’étonnante capacité de ces modèles à rédiger des essais, des poèmes ou même des scripts de podcasts a enthousiasmé le monde entier. Mais pour développer ces compétences, ils doivent assimiler des milliards de mots provenant d’une grande variété d’articles de presse, de scénarios et de livres.
Les enfants, en revanche, apprennent avec beaucoup moins de données et généralisent rapidement leurs apprentissages au fur et à mesure qu’ils grandissent. Les scientifiques se demandent depuis longtemps si l’IA peut saisir ces capacités avec les seules expériences de la vie quotidienne.
Selon l’auteur de l’étude, le Dr Wai Keen Vong, du Center for Data Science de l’université de New York :
Nous montrons, pour la première fois, qu’un réseau neuronal formé à partir des données réalistes d’un seul enfant peut apprendre à relier les mots à leurs équivalents visuels.
Les enfants s’imprègnent facilement des mots et de leur signification grâce à leur expérience quotidienne. Dès l’âge de 6 mois, ils commencent à associer des mots à ce qu’ils voient, par exemple, un objet rond et rebondissant est une « balle ». À l’âge de 2 ans, ils connaissent environ 300 mots et leurs significations.
Depuis longtemps, les scientifiques débattent de la manière dont cela se produit. Selon une théorie, les enfants apprennent à faire correspondre ce qu’ils voient à ce qu’ils entendent. Une autre suggère que l’apprentissage d’une langue nécessite une expérience plus large du monde, telle que l’interaction sociale et la capacité à raisonner. Il est difficile de distinguer ces idées à l’aide de tests cognitifs traditionnels chez les tout-petits. Mais nous pourrions obtenir une réponse en formant une IA à travers les yeux et les oreilles d’un enfant.
La nouvelle étude a exploité une riche ressource vidéo appelée SAYCam, qui comprend des données recueillies auprès de trois enfants âgés de 6 à 32 mois à l’aide de caméras de type GoPro attachées à leur front. Deux fois par semaine, les caméras ont enregistré environ une heure de séquences vidéo et audio pendant que les enfants tétaient, rampaient et jouaient. Tous les dialogues audibles ont été transcrits en « énoncés », c’est-à-dire en mots ou en phrases prononcés avant que le locuteur ou la conversation ne change. Le résultat est une mine de données multimédias du point de vue des bébés et des jeunes enfants.
Pour le nouveau système, l’équipe a conçu deux réseaux neuronaux avec un « juge » pour les coordonner. L’un d’eux traduit les images à la première personne en qui et le quoi de la scène, est-ce une mère qui cuisine ? L’autre a déchiffré les mots et les significations des enregistrements audio. Les deux systèmes ont ensuite été corrélés dans le temps afin que l’IA apprenne à associer les images correctes aux mots. Par exemple, l’IA a appris à associer l’image d’un bébé aux mots « Regarde, il y a un bébé » ou l’image d’un ballon de yoga aux mots « Wow, c’est un gros ballon ». Avec l’entraînement, elle a progressivement appris à séparer le concept d’un ballon de yoga de celui d’un bébé. Cela permet au modèle de savoir quels mots doivent être associés à quels objets.
L’équipe a ensuite entraîné l’IA sur des vidéos datant d’environ un an et demi de la vie de Sam. Au total, cela représente plus de 600 000 images vidéo, associées à 37 500 paroles transcrites. Bien que cela paraisse important, cela ne représente que 1 % de la vie quotidienne de Sam et est négligeable par rapport à la quantité de données utilisées pour former de grands modèles de langage.
Pour tester le système, l’équipe a adapté un test cognitif courant utilisé pour mesurer les capacités linguistiques des enfants. Ils ont montré à l’IA quatre nouvelles images : un chat, un berceau, une balle et une pelouse, et lui ont demandé laquelle était la balle. Dans l’ensemble, l’IA a choisi la bonne image dans environ 62 % des cas. Les performances ont presque égalé celles d’un algorithme de pointe formé sur 400 millions de paires d’images et de textes provenant du web, soit une quantité de données supérieure à celle utilisée pour former l’IA dans le cadre de l’étude. Les chercheurs ont constaté qu’il était essentiel de lier les images vidéo à l’audio. Lorsque l’équipe a mélangé les images vidéo et les paroles qui leur étaient associées, le modèle s’est complètement effondré.
L’IA pouvait également « sortir des sentiers battus » et s’adapter à de nouvelles situations. Lors d’un autre test, elle a été entraînée sur le point de vue de Sam concernant un livre d’images, alors que son parent lui disait : « C’est un canard et un papillon. » Plus tard, il a brandi un papillon en jouet lorsqu’on lui a demandé : « Peux-tu faire le papillon ? ». Face à des images de papillons multicolores, que l’IA n’avait jamais vues auparavant, elle a détecté trois exemples sur quatre pour le mot « papillon » avec une précision supérieure à 80 %.
Tous les concepts de mots n’ont pas obtenu les mêmes résultats. Par exemple, le mot « cuillère » a donné du fil à retordre à l’IA. Mais il convient de souligner que, à l’instar d’un reCAPTCHA difficile, les images d’entraînement étaient difficiles à déchiffrer, même pour un humain.
L’IA s’appuie sur les progrès récents de l’apprentissage automatique multimodal, qui combine texte, images, audio ou vidéo pour entraîner une machine. À partir de l’expérience d’un seul enfant, l’algorithme a été en mesure de comprendre comment les mots sont liés les uns aux autres et de les associer à des images et à des concepts. Il semble que pour les tout-petits, le fait d’entendre des mots et de les associer à ce qu’ils voient contribue à enrichir leur vocabulaire. Cela ne veut pas dire que d’autres processus cérébraux, tels que les signaux sociaux et le raisonnement, n’entrent pas en jeu. Pour les chercheurs, l’ajout de ces éléments à l’algorithme pourrait potentiellement l’améliorer.
L’équipe prévoit de poursuivre l’expérience. Pour l’instant, l’IA « bébé » n’apprend qu’à partir d’images fixes et son vocabulaire est essentiellement composé de noms. L’intégration de séquences vidéo dans la formation pourrait aider l’IA à apprendre des verbes, car la vidéo comprend des mouvements. L’ajout de l’intonation aux données vocales pourrait également s’avérer utile. Les enfants apprennent très tôt que le « hmm » de leur mère peut avoir des significations très différentes en fonction du ton.
Dans l’ensemble, la combinaison de l’IA et des expériences de la vie est une nouvelle et puissante méthode d’étude des cerveaux humains et des machines. Elle pourrait nous aider à développer de nouveaux modèles d’IA qui apprennent comme les enfants, et potentiellement redéfinir les connaissances sur la façon dont notre cerveau apprend le langage et les concepts.
L’étude publiée dans Science : Grounded language acquisition through the eyes and ears of a single child et présentée sur le site de l’Université de New York : AI Learns Through the Eyes and Ears of a Child.