Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

1 Juin 2019 | 1 commentaire

Auparavant jugé trop compliqué, même pour les algorithmes, un agent intelligent (du domaine de l’intelligence artificielle (IA)) a été mis au point pour remporter des parties multijoueurs en ligne.

N’utilisant rien d’autre que le même point de vue basé sur les pixels et la même connaissance de l’état du jeu que les joueurs humains, les scientifiques dirigés par Max Jaderberg de la société de recherche DeepMind, propriété de Google, ont généré des agents d’IA pour jouer à une variante du jeu populaire Quake III Arena, appelé Capture the Flag (Capture de drapeaux), qui oppose deux équipes dans des environnements générés aléatoirement et qui doivent trouver et capturer des drapeaux ennemis dans la carte.

L’équipe a développé les agents en utilisant des techniques d’apprentissage par renforcement à travers le gameplay, et après 450 000 parties, les robots ont été en mesure de battre des joueurs humains professionnels, un exploit non négligeable dans un environnement si complexe avec autant de variables.

(Deepmind)

L’un des trois paradigmes de l’apprentissage machine, avec l’apprentissage supervisé et l’apprentissage non supervisé, l’apprentissage par renforcement n’utilise pas de combinaisons définitives d’entrées-sorties et n’exige pas la correction ou l’effacement des actions imparfaites.

Au lieu de cela, il équilibre l’exploration d’un domaine inconnu avec la découverte de toute connaissance recueillie à son sujet, parfait pour des conditions en perpétuelle évolution parmi un grand nombre d’agents, tels que ceux présents dans un jeu multijoueur.

Le but de l’étude DeepMind était que les agents apprennent vraiment par eux-mêmes lorsqu’ils commencent avec les mêmes informations dont disposerait un joueur humain. Cela signifiait aucune connaissance des règles et aucune capacité de communiquer et de partager des informations en dehors du jeu, alors que les précédentes itérations de travaux similaires donnaient les modèles logiciels de l’environnement ou l’état des autres acteurs.

Le processus d’apprentissage est optimisé en laissant les agents perdre un grand nombre de parties à la fois, en rassemblant les résultats pour obtenir une vue descendante des trucs et astuces que chaque agent a appris et en distribuant ensuite ces connaissances à la génération suivante. Comme un joueur humain, ils glanent de l’expérience sur la stratégie qui est ensuite applicable à une nouvelle carte, même s’ils ne connaissent pas sa disposition et sa topologie, ni l’intention ou la position des autres joueurs.

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Dans de telles circonstances, selon Jaderberg et ses collègues :

Le résultat est suffisamment incertain pour fournir un signal d’apprentissage significatif.

Le processus d’apprentissage par renforcement s’est déroulé en deux étapes, de l’optimisation du comportement d’un seul agent pour obtenir des récompenses qui est ensuite mise en correspondance avec les « hyper-paramètres » de l’ensemble des données. Les agents moins performants sont remplacés par des descendants qui internalisent les leçons apprises à tous les niveaux, une pratique également appelée » formation basée sur la population » (population-based training).

Les résultats furent remarquables. Même lorsque le système a ralenti les temps de réaction des agents jusqu’à ce qu’ils atteignent des niveaux humains moyens, ils ont tout de même atteint et dépassé les performances de ces derniers. Après des heures d’entraînement, les joueurs humains n’ont pas été capables de les battre dans plus de 25% des tentatives, et plus intéressant encore, les agents IA ont découvert et employé des tactiques gagnantes qui étaient couramment utilisées par les joueurs humains.

Mais l’ingrédient secrèt pourrait être dans la méthodologie parallèle et multijeu. Des systèmes similaires d’auto-apprentissage permettent aux agents intelligents de tester ce qu’ils ont appris par rapport à leurs propres politiques en un seul exercice, ils jouent littéralement contre eux-mêmes.

Outre leur performance au jeu Quake III Arena, les chercheurs notent que c’est l’évolutivité de l’approche qui offre des applications passionnantes sur des systèmes multi-agents où un apprentissage stable est nécessaire.

L’étude publiée dans Science : Human-level performance in 3D multiplayer games with population-based reinforcement learning et présentée sur le site de Deepmind : Capture the Flag: the emergence of complex cooperative agents.

Faire un Don !



Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

← Article Précédent Article Suivant →

Derniers Articles

D’étranges îles découvertes par la NASA sur un lac de lave de la lune de Jupiter, Io

La NASA a découvert une merveille géologique sur Io, la lune ardente de Jupiter, le monde le plus volcanique du système solaire. Les survols effectués par la sonde Juno ont révélé des montagnes inhabituellement escarpées et jusqu’alors inconnues, ainsi que de surprenantes îles dans un lac de lave.

En utilisant les données de Juno, les chercheurs ont créé des animations qui mettent en valeur ces lacs volcaniques et ces imposantes montagnes…

Lire

L’affaissement des villes chinoises est le signe d’un problème beaucoup plus global

Des dizaines de scientifiques chinois ont tiré la sonnette d’alarme en s’appuyant sur une analyse détaillée des données satellitaires pour déterminer les mouvements des sols à travers la Chine, en écrivant qu’un tiers des citadins du pays pourraient se retrouver dans une « ville en train de s’affaisser ».

Dirigée par Zurui Ao, Xiaomei Hu et Xie Hu de l’Université normale de Chine du Sud et de l’Université de Pékin, la recherche publiée cette semaine…

Lire

Des bactéries multirésistantes trouvées à bord de la station spatiale internationale mutent pour acquérir des caractéristiques distinctes

La Station spatiale internationale (ISS) est depuis longtemps connue pour être un environnement unique, mais selon une nouvelle étude de la NASA, il y pousse des choses tout à fait extraterrestres.

L’agence spatiale américaine indique que des scientifiques du Jet Propulsion Laboratory ont examiné des échantillons de la bactérie Enterobacter bugandensis résistante aux médicaments (ou pharmacorésistantes) trouvée dans l’ISS et qu’ils ont constaté que les souches avaient muté en…

Lire

Des scientifiques chinois affirment avoir trouvé le moyen de propulser des sous-marins furtifs à l’aide de lasers

Des scientifiques chinois de l’Institut de technologie de Harbin ont mis au point un système de propulsion laser qui ouvre une nouvelle ère pour la technologie sous-marine. Plutôt que d’utiliser un arbre de propulsion et des hélices, le système proposé fait appel à des impulsions laser et à des fibres optiques pour générer une poussée comparable à celle d’un moteur à réaction commercial.

L’ensemble du système n’utilise que 2 mégawatts de puissance laser, ce qui est dans les limites de puissance d’un sous-marin nucléaire…

Lire

Des physiciens pensent que la taille illimitée du multivers pourrait être infiniment plus grande

Des physiciens de l’université de Californie à Davis (UCD), du laboratoire national de Los Alamos aux États-Unis et de l’École polytechnique fédérale de Lausanne (Suisse) ont redessiné la carte de la réalité fondamentale pour démontrer que la façon dont nous mettons les objets en relation en physique pourrait nous empêcher de voir plus grand.

Depuis près d’un siècle, les théories et les observations qui relèvent de la mécanique quantique, les lois qui régissent l’infiniment petit…

Lire

Une nouvelle recherche explore le détournement neuronal que la dépendance à la cocaïne provoque dans le cerveau

La recherche menée par des scientifiques de l’université Rockefeller et de l’Icahn School of Medicine at Mount Sinai (États-Unis) a permis de mieux comprendre comment des drogues addictives comme la cocaïne peuvent l’emporter sur les systèmes de récompense naturels du cerveau, obligeant les individus à renoncer à des besoins fondamentaux comme la nourriture et l’eau.

Cette découverte repose sur une voie neuronale qui répond normalement aux récompenses naturelles, mais qui est exploitée par les…

Lire

Découverte d’anciens tunnels de lave dans le désert d’Arabie habités il y a des milliers d’années

Une importante étude archéologique a permis, pour la première fois, de localiser un tunnel de lave en Arabie saoudite qui a été habité par des humains il y a jusqu’à 10 000 ans.

Le site d’Umm Jirsan témoigne d’une activité humaine s’étalant sur plusieurs milliers d’années, de la période néolithique à l’âge du bronze. Soutenue par les autorités saoudiennes, cette fouille s’inscrit dans le prolongement de décennies de recherches entreprises dans la région pour reconstituer l’histoire de l’activité humaine au…

Lire

Dernières Brèves

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

Lire

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Lire

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Lire

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Lire

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Lire

Les astronautes sont conscients de la distance à laquelle ils "volent" dans l’espace en dépit de la microgravité

Des scientifiques étudiant les astronautes à bord de la Station spatiale internationale ont déterminé que les humains sont étonnamment doués pour s’orienter et évaluer la distance qu’ils ont parcourue en microgravité.

Selon Laurence Harris, spécialiste de la vision et de la perception du mouvement à l’université York au Canada, auteur principal de la nouvelle étude…

Lire

Le premier utilisateur de l’implant cérébral Neuralink joue aux échecs par la pensée

La société Neuralink a présenté une vidéo de son premier patient humain, Noland Arbaugh, jouant aux échecs sur ordinateur avec ses pensées grâce à un implant cérébral.

Paralysé des épaules à la suite d’un accident de plongée, Arbaugh s’est montré enthousiaste quant au potentiel de cette technologie… »

Lire

Rejoignez les ~~millions~~ quelques abonnées à GuruMeditation et inscrivez-vous aux lettres d'informations (News Letter) !

1 Commentaire

My KL sur 2 juin 2019 à 8 h 17 min

Bon il ne reste plus qu’a connecter ça aux robots de chez Boston Dynamics et de leur donner une arme réel.

C’est fascinant la quantité d’effort et de motivation que fourni l’homme pour scier sa propre branche. Triste futur
Réponse

Poster le commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

(Deepmind)

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Pourquoi ?

Derniers Articles

D’étranges îles découvertes par la NASA sur un lac de lave de la lune de Jupiter, Io

L’affaissement des villes chinoises est le signe d’un problème beaucoup plus global

Des bactéries multirésistantes trouvées à bord de la station spatiale internationale mutent pour acquérir des caractéristiques distinctes

Des scientifiques chinois affirment avoir trouvé le moyen de propulser des sous-marins furtifs à l’aide de lasers

Des physiciens pensent que la taille illimitée du multivers pourrait être infiniment plus grande

Une nouvelle recherche explore le détournement neuronal que la dépendance à la cocaïne provoque dans le cerveau

Découverte d’anciens tunnels de lave dans le désert d’Arabie habités il y a des milliers d’années

Dernières Brèves

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

Les astronautes sont conscients de la distance à laquelle ils "volent" dans l’espace en dépit de la microgravité

Le premier utilisateur de l’implant cérébral Neuralink joue aux échecs par la pensée

NewsLetter

Bravo et Merci !

1 Commentaire

Poster le commentaire Annuler la réponse

Pin It on Pinterest

Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

(Deepmind)

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Pourquoi ? Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Pourquoi ?

NewsLetter

Bravo et Merci !

1 Commentaire

Poster le commentaire Annuler la réponse

Pin It on Pinterest

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.