Sélectionner une page

L’intelligence artificielle de Google n’a même plus besoin des humains pour les surpasser au jeu de go

19 Oct 2017 | 1 commentaire

Go-deepmind

L‘intelligence artificielle (IA) AlphaGo de Google DeepMind, qui avait déjà battu l’humain au jeu de go, est devenue encore plus intelligente. Le dernier système de l’entreprise a non seulement battu toutes les précédentes versions du logiciel, mais il l’a fait tout seul.

Selon Demis Hassabis, PDG et cofondateur de DeepMind :

La chose la plus frappante pour moi est que nous n’avons plus besoin de données humaines.

Alors que la première version d’AlphaGo devait être formée à partir des données de plus de 100 000 parties humaines, l’AlphaGo Zero peut apprendre à jouer à partir d’une « feuille blanche ». DeepMind a non seulement éliminé le besoin initial d’une entrée de données humaines, mais Zero est également capable d’apprendre plus vite que son prédécesseur.

David Silver, le principal programmeur du projet Go de DeepMind, affirme que l’AlphaGo qui avait battu le champion du monde (18 fois) Lee Sedol 4-1 a demandé plusieurs mois d’entraînement.

Nous avons atteint un niveau de performance supérieur après seulement 72 heures d’entraînement avec l’AlphaGo Zero.

Seulement 4,9 millions de jeux simulés ont été nécessaires pour former Zero, par rapport aux 30 millions d’origine de l’AlphaGo. Après trois jours d’apprentissage, Zero a réussi à vaincre la version de Lee Sedol, 100-0. Après avoir joué pendant 40 jours, Zero a battu la version la plus puissante d’AlphaGo de DeepMind, appelée Master, qui a battu le maître chinois Ke Jie en mai.

Pour Satinder Singh, directeur du laboratoire IA de l’université du Michigan :

Zero surpasse massivement l’AlphaGo déjà surhumain et pourrait être l’une des plus grandes avancées de l’IA jusqu’à maintenant.

Quand AlphaGo Zero a commencé à jouer contre lui-même, il ne lui a été présenté qu’un ensemble de règles, un plateau et les pions blancs et noirs. Il ne savait pas quelles stratégies, mouvements ou tactiques seraient nécessaires pour gagner. « Les seules ressources nécessaires sont les pierres noires et blanches du plateau », selon Silver, ajoutant qu’il croit que l’entreprise pourrait créer un système capable d’apprendre les règles du jeu.

Un goban traditionnel, plateau du jeu de go, avec des pierres noires et blanches. (Wikipédia)

Go_game

Dès le début, à partir du moment où Zero a reçu les règles, le système a joué des parties contre lui-même. Pendant ce temps, il apprend les mouvements qu’il peut faire et qui le conduiront à une victoire. Pour que DeepMind améliore son système déjà couronné de succès et parvienne à ce résultat, il a dû refaire les algorithmes utilisés dans l’IA.

Le processus global utilise un algorithme d’apprentissage par renforcement combiné avec un système de recherche. Pour faire simple, cela signifie que Zero apprend par des essais et des erreurs et peut utiliser son système de recherche pour évaluer chaque mouvement potentiel.

Lorsque Zero a joué un match contre lui-même, il a reçu des rétroactions du système. Un +1 est donné s’il gagne et un -1 s’il perd. Après chaque partie, le réseau neuronal du Zero se reconfigure automatiquement en une nouvelle version, théoriquement meilleure. En moyenne, le système prenait 0,4 seconde de réflexion avant de réaliser un mouvement.

Le nouveau système utilise un seul réseau neuronal au lieu des deux et quatre des processeurs AI de Google, par rapport aux 48 nécessaires pour battre Lee. Au cours du développement de Zero, Hassabis affirme que le système a été formé sur du matériel qui a coûté près de 35 millions de dollars (29 millions d’Euros) à l’entreprise. Le matériel est également utilisé pour d’autres projets DeepMind.

Dans le développement de Zero, DeepMind a été capable de faire plus… avec moins. Dans ses tests en internes, la firme affirme que Zero a pu battre toutes ses précédentes versions : AlphaGo Master, AlphaGo Lee, AlphaGo Fan, Crazy Stone, Pachi et GruGo. Silver ajoute que Zero n’a pas atteint son niveau maximal possible de connaissance, mais uniquement parce que l’équipe a cessé de travailler sur le projet.

L’étude conclut :

Il est possible de l’entraîner à un niveau surhumain, sans exemples ni conseils humains, sans connaissance du domaine au-delà des règles de base.

Le système a appris les mouvements et les tactiques humaines communes et les a complétés avec ses propres et ses plus efficaces mouvements.

Comme pour la victoire de Deep Blue contre le grand maître des échecs Gary Kasparaov en 1996, le succès continu de DeepMind au jeu de Go a des implications plus larges.

Mais aussi avancé soit Zero, il ne peut être appliqué à n’importe quel problème et le résoudre.

Selon M. Singh :

Pris ensemble, les résultats suggèrent que les IA fondées sur l’apprentissage par renforcement peuvent être bien meilleures que celles qui reposent sur l’expertise humaine. Le système, par exemple, ne pouvait pas être utilisé pour traduire des langues.

Pour Hassabis et ses collègues, le défi permanent consiste à appliquer ce qui a été appris dans le cadre du projet AlphaGo à d’autres problèmes d’intelligence artificielle avec des applications dans le monde réel.

Nous avons essayé de concevoir l’algorithme pour qu’il puisse jouer, en principe, à d’autres jeux appartenant à une classe similaire (incluant les échecs) et plus généralement aux domaines de la planification.

Cela inclut le repliement des protéines, la découverte de médicaments, la conception de matériaux et la chimie quantique. Une partie de la résolution de ces problèmes réside dans la capacité à créer des simulations de résultats potentiels. Le jeu de Go est contraint à un environnement fixe et strict : il n’y a pas de hasard ou de chance qui affecte le résultat. D’appliquer cette approche à des scénarios réels où il y a un niveau d’imprévisibilité, est beaucoup plus difficile.

La nouvelle recherche de DeepMind a été publiée dans la revue Nature : Mastering the game of Go without human knowledge et constitue un autre pas important vers l’objectif de l’entreprise de créer une intelligence artificielle globale.

Faire un Don !

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Le Guru fait une pause dans ses écrits, car il a besoin de votre soutien !

Le Guru lance un appel aux dons afin de l’aider à poursuivre son activité…

Un orang-outan est le premier non-humain à soigner des blessures à l’aide d’une plante médicinale

]Un orang-outan sauvage mâle de Sumatra a été observé en train d’appliquer les feuilles mâchées d’une plante aux propriétés médicinales connues sur une plaie de sa joue. Il s’agirait du premier cas documenté de traitement actif d’une plaie par un animal sauvage à l’aide d’une substance végétale biologiquement active connue.

Les chercheurs ont observé l’orang-outan, qu’ils ont baptisé Rakus, en juin 2022 dans la zone de recherche de Suaq Balimbing, dans le parc national de…

Des chercheurs reconstituent le visage d’une Néandertalienne à partir d’un crâne écrasé vieux de 75 000 ans

Une équipe de paléo-archéologues est présentée dans un nouveau documentaire dans lequel ces experts ont reconstitué le visage d’une femme néandertalienne ayant vécu il y a 75 000 ans.

Le crâne, écrasé en centaines de fragments probablement par un éboulement après la mort, a été déterré en 2018 dans la grotte de Shanidar, au Kurdistan irakien. Baptisés Shanidar Z, les restes du Néandertalien sont peut-être la partie supérieure d’un squelette découvert dans…

Des scientifiques créent des cerveaux hybrides souris-rat avec des neurones des deux espèces

Des chercheurs américains ont utilisé une technique spéciale pour éliminer les neurones de souris en développement, qu’ils ont remplacés par des cellules souches de rat. Ces cellules se sont transformées en neurones de rat dans le cerveau de la souris, qui est AINSI devenu un cerveau hybride. Chose remarquable, les rongeurs modifiés sont en bonne santé et se comportent normalement, ce qui est très prometteur pour les thérapies régénératives neuronales.

Les recherches ont été menées par deux équipes indépendantes, qui ont publié leurs résultats…

La vie s’est épanouie alors que le champ magnétique de la Terre a failli disparaître il y a 590 millions d’années

Le champ magnétique terrestre a failli s’effondrer il y a quelque 590 millions d’années, exposant vraisemblablement la vie à la surface de la planète à un risque d’augmentation du rayonnement cosmique.

Selon de nouvelles recherches, l’affaiblissement temporaire du bouclier magnétique aurait pu être tout sauf une catastrophe biologique. En fait, il pourrait avoir augmenté les niveaux d’oxygène, créant ainsi les conditions idéales pour l’épanouissement des premières formes de vie…

Les “rayures de tigre” de la lune de Saturne, Encelade, sont liées à ses spectaculaires geysers

Les mouvements des lignes de faille de la croûte gelée d’Encelade, une des lunes de Saturne, pourraient être à l’origine des panaches de matière glacée qui s’échappent du ventre aqueux de la lune, selon une équipe de chercheurs qui a récemment modélisé ces mouvements.

L’étude de l’équipe s’est concentrée sur les “rayures de tigre” d’Encelade, de longues fissures situées principalement dans les parties méridionales de la lune, que certains pensent avoir été causées par un ancien impact. D’autres chercheurs ont…

Plus de 90 % des oiseaux polaires sont contaminés par des microplastiques

Le plastique est pratiquement partout sur Terre. De la plus haute montagne aux plus grandes profondeurs des océans, des régions polaires à l’intérieur de notre corps, il n’y a plus moyen d’y échapper. Bien que la pollution plastique soit loin d’être un nouveau problème, l’ampleur de la pollution par les microplastiques n’est apparue que récemment.

La pollution plastique est généralement divisée en macroplastiques (>5 cm), microplastiques (0,1 µm-5 mm) et nanoplastiques (<0,1 µm). Plus le plastique est...

Le plus haut observatoire du monde entre en fonction au Chili

Pour le Livre Guinness des records, l’Observatoire d’Atacama de l’Université de Tokyo (TAO) est l’observatoire astronomique le plus haut du monde.

Le TAO se trouve à une altitude de 5 640 mètres au sommet d’une montagne dans le désert d’Atacama, au nord du Chili. Le télescope de 6,5 m optimisé pour les infrarouges est enfin opérationnel après 26 ans de planification et de construction…

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

La NASA a lancé son système de voile solaire composite avancé (Advanced Solar Sail) à bord d’une fusée Electron de RocketLab, déployant ainsi une voile de 9 mètres en orbite terrestre basse…

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Pin It on Pinterest

Share This