Une intelligence artificielle apprend le langage à travers les yeux d’un bébé

10 Fév 2024 | 0 commentaires

Sam avait 6 mois lorsqu’il a fixé pour la première fois une petite caméra sur son front. Pendant un an et demi, la caméra a capturé des bribes de sa vie. Il a crapahuté près des animaux de la famille, a regardé ses parents cuisiner et a pleuré sous le porche avec sa grand-mère. Pendant tout ce temps, la caméra enregistrait tout ce qu’il entendait. Ce qui ressemble à une mignonne vidéo familiale de bambin est en fait un concept audacieux : l’IA peut-elle apprendre le langage comme un enfant ? Les résultats pourraient également révéler comment les enfants acquièrent rapidement le langage et les concepts dès leur plus jeune âge.

Une nouvelle étude (lien plus bas) décrit comment des chercheurs ont utilisé les enregistrements de Sam pour entraîner une IA à comprendre le langage. Grâce à une infime partie de l’expérience de vie d’un enfant pendant un an, l’IA a pu saisir des concepts de base, par exemple une balle, un papillon ou un seau.

Image d’entête : les chercheurs ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un seul enfant. (Center for Data Science de l’université de New York)

L’IA, appelée Child’s View for Contrastive Learning (CVCL), imite grosso modo la façon dont nous apprenons lorsque nous sommes tout-petits, en associant la vue à l’audio. Il s’agit d’une approche très différente de celle adoptée par les grands modèles linguistiques tels que ceux qui sont à l’origine de ChatGPT ou de Bard. L’étonnante capacité de ces modèles à rédiger des essais, des poèmes ou même des scripts de podcasts a enthousiasmé le monde entier. Mais pour développer ces compétences, ils doivent assimiler des milliards de mots provenant d’une grande variété d’articles de presse, de scénarios et de livres.

Les enfants, en revanche, apprennent avec beaucoup moins de données et généralisent rapidement leurs apprentissages au fur et à mesure qu’ils grandissent. Les scientifiques se demandent depuis longtemps si l’IA peut saisir ces capacités avec les seules expériences de la vie quotidienne.

Selon l’auteur de l’étude, le Dr Wai Keen Vong, du Center for Data Science de l’université de New York :

Nous montrons, pour la première fois, qu’un réseau neuronal formé à partir des données réalistes d’un seul enfant peut apprendre à relier les mots à leurs équivalents visuels.

Les enfants s’imprègnent facilement des mots et de leur signification grâce à leur expérience quotidienne. Dès l’âge de 6 mois, ils commencent à associer des mots à ce qu’ils voient, par exemple, un objet rond et rebondissant est une « balle ». À l’âge de 2 ans, ils connaissent environ 300 mots et leurs significations.

Depuis longtemps, les scientifiques débattent de la manière dont cela se produit. Selon une théorie, les enfants apprennent à faire correspondre ce qu’ils voient à ce qu’ils entendent. Une autre suggère que l’apprentissage d’une langue nécessite une expérience plus large du monde, telle que l’interaction sociale et la capacité à raisonner. Il est difficile de distinguer ces idées à l’aide de tests cognitifs traditionnels chez les tout-petits. Mais nous pourrions obtenir une réponse en formant une IA à travers les yeux et les oreilles d’un enfant.

La nouvelle étude a exploité une riche ressource vidéo appelée SAYCam, qui comprend des données recueillies auprès de trois enfants âgés de 6 à 32 mois à l’aide de caméras de type GoPro attachées à leur front. Deux fois par semaine, les caméras ont enregistré environ une heure de séquences vidéo et audio pendant que les enfants tétaient, rampaient et jouaient. Tous les dialogues audibles ont été transcrits en « énoncés », c’est-à-dire en mots ou en phrases prononcés avant que le locuteur ou la conversation ne change. Le résultat est une mine de données multimédias du point de vue des bébés et des jeunes enfants.

Pour le nouveau système, l’équipe a conçu deux réseaux neuronaux avec un « juge » pour les coordonner. L’un d’eux traduit les images à la première personne en qui et le quoi de la scène, est-ce une mère qui cuisine ? L’autre a déchiffré les mots et les significations des enregistrements audio. Les deux systèmes ont ensuite été corrélés dans le temps afin que l’IA apprenne à associer les images correctes aux mots. Par exemple, l’IA a appris à associer l’image d’un bébé aux mots « Regarde, il y a un bébé » ou l’image d’un ballon de yoga aux mots « Wow, c’est un gros ballon ». Avec l’entraînement, elle a progressivement appris à séparer le concept d’un ballon de yoga de celui d’un bébé. Cela permet au modèle de savoir quels mots doivent être associés à quels objets.

L’équipe a ensuite entraîné l’IA sur des vidéos datant d’environ un an et demi de la vie de Sam. Au total, cela représente plus de 600 000 images vidéo, associées à 37 500 paroles transcrites. Bien que cela paraisse important, cela ne représente que 1 % de la vie quotidienne de Sam et est négligeable par rapport à la quantité de données utilisées pour former de grands modèles de langage.

Pour tester le système, l’équipe a adapté un test cognitif courant utilisé pour mesurer les capacités linguistiques des enfants. Ils ont montré à l’IA quatre nouvelles images : un chat, un berceau, une balle et une pelouse, et lui ont demandé laquelle était la balle. Dans l’ensemble, l’IA a choisi la bonne image dans environ 62 % des cas. Les performances ont presque égalé celles d’un algorithme de pointe formé sur 400 millions de paires d’images et de textes provenant du web, soit une quantité de données supérieure à celle utilisée pour former l’IA dans le cadre de l’étude. Les chercheurs ont constaté qu’il était essentiel de lier les images vidéo à l’audio. Lorsque l’équipe a mélangé les images vidéo et les paroles qui leur étaient associées, le modèle s’est complètement effondré.

L’IA pouvait également « sortir des sentiers battus » et s’adapter à de nouvelles situations. Lors d’un autre test, elle a été entraînée sur le point de vue de Sam concernant un livre d’images, alors que son parent lui disait : « C’est un canard et un papillon. » Plus tard, il a brandi un papillon en jouet lorsqu’on lui a demandé : « Peux-tu faire le papillon ? ». Face à des images de papillons multicolores, que l’IA n’avait jamais vues auparavant, elle a détecté trois exemples sur quatre pour le mot « papillon » avec une précision supérieure à 80 %.

Tous les concepts de mots n’ont pas obtenu les mêmes résultats. Par exemple, le mot « cuillère » a donné du fil à retordre à l’IA. Mais il convient de souligner que, à l’instar d’un reCAPTCHA difficile, les images d’entraînement étaient difficiles à déchiffrer, même pour un humain.

L’IA s’appuie sur les progrès récents de l’apprentissage automatique multimodal, qui combine texte, images, audio ou vidéo pour entraîner une machine. À partir de l’expérience d’un seul enfant, l’algorithme a été en mesure de comprendre comment les mots sont liés les uns aux autres et de les associer à des images et à des concepts. Il semble que pour les tout-petits, le fait d’entendre des mots et de les associer à ce qu’ils voient contribue à enrichir leur vocabulaire. Cela ne veut pas dire que d’autres processus cérébraux, tels que les signaux sociaux et le raisonnement, n’entrent pas en jeu. Pour les chercheurs, l’ajout de ces éléments à l’algorithme pourrait potentiellement l’améliorer.

L’équipe prévoit de poursuivre l’expérience. Pour l’instant, l’IA « bébé » n’apprend qu’à partir d’images fixes et son vocabulaire est essentiellement composé de noms. L’intégration de séquences vidéo dans la formation pourrait aider l’IA à apprendre des verbes, car la vidéo comprend des mouvements. L’ajout de l’intonation aux données vocales pourrait également s’avérer utile. Les enfants apprennent très tôt que le « hmm » de leur mère peut avoir des significations très différentes en fonction du ton.

Dans l’ensemble, la combinaison de l’IA et des expériences de la vie est une nouvelle et puissante méthode d’étude des cerveaux humains et des machines. Elle pourrait nous aider à développer de nouveaux modèles d’IA qui apprennent comme les enfants, et potentiellement redéfinir les connaissances sur la façon dont notre cerveau apprend le langage et les concepts.

L’étude publiée dans Science : Grounded language acquisition through the eyes and ears of a single child et présentée sur le site de l’Université de New York : AI Learns Through the Eyes and Ears of a Child.

Il n’y a aucune publicité sur GuruMeditation et le Guru ne compte que sur la reconnaissance de ses lecteurs/ lectrices.

Merci pour votre aide !

← Article Précédent Article Suivant →

Derniers Articles

“Saumon-mouth” : ce saumon préhistorique géant avait des dents semblables à des défenses

Comme tout droit sorti du film RRRrrrr!!!, ,avec son bestiaire à défenses de poulemouth, chevalmouth, chienmouth… voici un saumon préhistorique arborant des défenses.

Les plus anciens fossiles d’Oncorhynchus rastrosus datent d’environ 12 millions d’années, le long de la côte californienne. Ce saumon vivait le long des côtes pacifiques de l’Amérique du Nord et du Japon, atteignant une taille de 2,4 mètres et pesant 200 kg. De précédentes études des fossiles ont montré que le saumon du Pacifique…

Lire

Des cellules synthétiques capables de se former d’elles-mêmes agissent comme des cellules vivantes avec des capacités supplémentaires

À l’aide d’ADN et de protéines, des scientifiques ont créé de nouvelles cellules synthétiques qui agissent comme des cellules vivantes. En brouillant la frontière entre les matériaux artificiels et vivants, ces cellules peuvent être reprogrammées pour remplir de multiples fonctions, ouvrant ainsi la voie à de nouvelles technologies de biologie synthétique censées dépasser les capacités de la nature.

Les cellules tirent leur structure et leur stabilité de leur cytosquelette, une structure de protéines qui enferme et protège d’autres composants…

Lire

Des scientifiques clonent deux furets en voie de disparition à partir de cellules congelées en 1988

Actuellement, il n’y a que 370 furets à pieds noirs vivants et tous descendent des sept mêmes furets élevés dans le cadre d’un programme de restauration dans les années 1980. Cela signifie que leur population présente une faible diversité génétique, ce qui ajoute encore plus de problèmes à une espèce déjà en difficulté.

Selon l’US Fish and Wildlife Service (USFWS), le département de l’Intérieur des États-Unis qui s’occupe de la gestion et la préservation de…

Lire

Des chercheurs découvrent la plus ancienne preuve irréfutable de l’existence du champ magnétique terrestre

Des chercheurs ont retrouvé au Groenland un témoignage du champ magnétique terrestre vieux de 3,7 milliards d’années, fournissant ainsi la plus ancienne estimation de son intensité à partir d’échantillons de roches entières.

Selon Claire Nichols, du Massachusetts Institute of Technology (MIT) et chercheuse principale :

Il s’agit d’une avancée très importante, car nous essayons de déterminer le rôle de l’ancien champ magnétique lorsque la vie sur Terre est apparue.

L’analyse estime que le champ magnétique de la planète à l’époque semble avoir été remarquablement similaire à…

Lire

Une vaste étude génétique reconstitue l’arbre phylogénétique des plantes à fleurs

Au moyen de données génomiques provenant de plus de 9500 espèces, des botanistes ont dressé la carte des relations évolutives entre les plantes à fleurs. Ce nouvel arbre phylogénétique aidera les scientifiques à reconstituer les origines des plantes à fleurs et à orienter les futurs efforts de conservation.

Les plantes à fleurs et à fruits, appelées angiospermes, représentent environ 90 % des plantes terrestres. Elles sont essentielles au maintien des écosystèmes de la Terre…

Lire

D’étranges îles découvertes par la NASA sur un lac de lave de la lune de Jupiter, Io

La NASA a découvert une merveille géologique sur Io, la lune ardente de Jupiter, le monde le plus volcanique du système solaire. Les survols effectués par la sonde Juno ont révélé des montagnes inhabituellement escarpées et jusqu’alors inconnues, ainsi que de surprenantes îles dans un lac de lave.

En utilisant les données de Juno, les chercheurs ont créé des animations qui mettent en valeur ces lacs volcaniques et ces imposantes montagnes…

Lire

L’affaissement des villes chinoises est le signe d’un problème beaucoup plus global

Des dizaines de scientifiques chinois ont tiré la sonnette d’alarme en s’appuyant sur une analyse détaillée des données satellitaires pour déterminer les mouvements des sols à travers la Chine, en écrivant qu’un tiers des citadins du pays pourraient se retrouver dans une « ville en train de s’affaisser ».

Dirigée par Zurui Ao, Xiaomei Hu et Xie Hu de l’Université normale de Chine du Sud et de l’Université de Pékin, la recherche publiée cette semaine…

Lire

Dernières Brèves

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

La NASA a lancé son système de voile solaire composite avancé (Advanced Solar Sail) à bord d’une fusée Electron de RocketLab, déployant ainsi une voile de 9 mètres en orbite terrestre basse…

Lire

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

Lire

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Lire

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Lire

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Lire

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Lire

Les astronautes sont conscients de la distance à laquelle ils "volent" dans l’espace en dépit de la microgravité

Des scientifiques étudiant les astronautes à bord de la Station spatiale internationale ont déterminé que les humains sont étonnamment doués pour s’orienter et évaluer la distance qu’ils ont parcourue en microgravité.

Selon Laurence Harris, spécialiste de la vision et de la perception du mouvement à l’université York au Canada, auteur principal de la nouvelle étude…

Lire

Rejoignez les ~~millions~~ quelques abonnées à GuruMeditation et inscrivez-vous aux lettres d'informations (News Letter) !

Une intelligence artificielle apprend le langage à travers les yeux d’un bébé

Il n’y a aucune publicité sur GuruMeditation et le Guru ne compte que sur la reconnaissance de ses lecteurs/ lectrices.

Merci pour votre aide !

Derniers Articles

“Saumon-mouth” : ce saumon préhistorique géant avait des dents semblables à des défenses

Des cellules synthétiques capables de se former d’elles-mêmes agissent comme des cellules vivantes avec des capacités supplémentaires

Des scientifiques clonent deux furets en voie de disparition à partir de cellules congelées en 1988

Des chercheurs découvrent la plus ancienne preuve irréfutable de l’existence du champ magnétique terrestre

Une vaste étude génétique reconstitue l’arbre phylogénétique des plantes à fleurs

D’étranges îles découvertes par la NASA sur un lac de lave de la lune de Jupiter, Io

L’affaissement des villes chinoises est le signe d’un problème beaucoup plus global

Dernières Brèves

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

Les astronautes sont conscients de la distance à laquelle ils "volent" dans l’espace en dépit de la microgravité

NewsLetter

Bravo et Merci !

Poster le commentaire Annuler la réponse

Pin It on Pinterest