Des ingénieurs apprennent à l’IA à naviguer dans l’océan avec un minimum d’énergie
“Lorsque nous voulons que des robots explorent les profondeurs de l’océan, notamment en essaim, il est presque impossible de les contrôler avec un joystick depuis la surface, à 20 000 pieds de distance. Nous ne pouvons pas non plus leur fournir des données sur les courants océaniques locaux qu’ils doivent suivre, car nous ne pouvons pas les détecter depuis la surface. À un moment donné, nous avons besoin de drones océaniques capables de prendre eux-mêmes des décisions sur la façon de se déplacer“, explique John O. Dabiri (MS ’03, PhD ’05), titulaire de la chaire centenaire d’ingénierie aéronautique et mécanique et auteur correspondant d’un article sur la recherche publié dans Nature Communications le 8 décembre.
Les performances de l’IA ont été testées à l’aide de simulations informatiques, mais l’équipe à l’origine de cet effort a également mis au point un petit robot de la taille d’une paume de main qui exécute l’algorithme sur une minuscule puce informatique qui pourrait alimenter des drones marins sur Terre et sur d’autres planètes. L’objectif serait de créer un système autonome pour surveiller l’état des océans de la planète, par exemple en utilisant l’algorithme en combinaison avec des prothèses qu’ils ont précédemment développées pour aider les méduses à nager plus vite et sur commande. Des robots entièrement mécaniques utilisant l’algorithme pourraient même explorer les océans d’autres mondes, comme Encelade ou Europe.
Dans l’un ou l’autre de ces scénarios, les drones devront être capables de décider seuls de l’endroit où ils doivent aller et de la manière la plus efficace de s’y rendre. Pour ce faire, ils ne disposeront probablement que des données qu’ils peuvent recueillir eux-mêmes – des informations sur les courants d’eau qu’ils rencontrent actuellement.
Pour relever ce défi, les chercheurs se sont tournés vers les réseaux d’apprentissage par renforcement (RL). Par rapport aux réseaux neuronaux classiques, les réseaux d’apprentissage par renforcement ne s’entraînent pas sur un ensemble de données statiques, mais s’entraînent plutôt aussi vite qu’ils peuvent acquérir de l’expérience. Ce schéma leur permet d’exister sur des ordinateurs beaucoup plus petits – pour les besoins de ce projet, l’équipe a écrit un logiciel qui peut être installé et exécuté sur un Teensy – un microcontrôleur de 2,4 x 0,7 pouces que tout le monde peut acheter pour moins de 30 dollars sur Amazon et qui ne consomme qu’un demi watt environ.
À l’aide d’une simulation informatique dans laquelle le passage d’un obstacle dans l’eau crée plusieurs tourbillons se déplaçant dans des directions opposées, l’équipe a appris à l’IA à naviguer de telle sorte qu’elle profite des régions à faible vitesse dans le sillage des tourbillons pour atteindre l’emplacement cible en utilisant un minimum d’énergie. Pour faciliter sa navigation, le nageur simulé n’avait accès qu’à des informations sur les courants d’eau à l’endroit où il se trouvait, mais il a rapidement appris à exploiter les tourbillons pour se diriger vers la cible souhaitée. Dans un robot physique, l’IA n’aurait de la même manière accès qu’aux informations pouvant être recueillies par un gyroscope et un accéléromètre embarqués, qui sont tous deux des capteurs relativement petits et peu coûteux pour une plate-forme robotique.
Ce type de navigation est analogue à la façon dont les aigles et les faucons utilisent les courants thermiques dans l’air, en extrayant l’énergie des courants aériens pour manœuvrer jusqu’à l’endroit désiré en dépensant le moins d’énergie possible. Étonnamment, les chercheurs ont découvert que leur algorithme d’apprentissage par renforcement pouvait apprendre des stratégies de navigation encore plus efficaces que celles utilisées par les vrais poissons dans l’océan.
L’IA de Dabiri réussit à naviguer à travers les turbulences jusqu’à une cible, alors qu’un système naïf qui se contente de pointer vers la cible ne l’atteint pas.
“Au départ, nous espérions simplement que l’IA pourrait rivaliser avec les stratégies de navigation déjà observées chez de vrais animaux nageurs. Nous avons donc été surpris de voir qu’elle apprenait des méthodes encore plus efficaces en exploitant des essais répétés sur l’ordinateur“, explique M. Dabiri.
La technologie n’en est qu’à ses débuts : pour l’instant, l’équipe aimerait tester l’IA sur chaque type de perturbation de l’écoulement qu’elle pourrait rencontrer lors d’une mission dans l’océan – par exemple, des tourbillons ou des courants de marée – afin d’évaluer son efficacité dans la nature. Toutefois, en intégrant leurs connaissances de la physique des courants océaniques à la stratégie d’apprentissage par renforcement, les chercheurs visent à surmonter cette limite. La recherche actuelle prouve l’efficacité potentielle des réseaux d’apprentissage par renforcement pour relever ce défi, en particulier parce qu’ils peuvent fonctionner sur des dispositifs aussi petits. Pour tester cette méthode sur le terrain, l’équipe place le Teensy sur un drone personnalisé baptisé “CARL-Bot” (Caltech Autonomous Reinforcement Learning Robot). Le CARL-Bot sera déposé dans un réservoir d’eau de deux étages récemment construit sur le campus de Caltech et apprendra à naviguer dans les courants de l’océan.
“Non seulement le robot apprendra, mais nous apprendrons aussi à connaître les courants océaniques et à naviguer à travers eux“, explique Peter Gunnarson, étudiant diplômé à Caltech et auteur principal de l’article paru dans Nature Communications.
CREDIT / Caltech
L’article s’intitule “Learning efficient navigation in vortical flow fields”. Les coauteurs sont Ioannis Mandralis, étudiant diplômé à Caltech, Guido Novati de l’ETH Zurich en Suisse, et Petros Koumoutsakos (PhD ’92) de l’Université de Harvard. Cette recherche a été financée par une bourse d’études supérieures de la National Science Foundation pour Gunnarson et par une bourse Waterman de la NSF pour Dabiri.