Training Driving AI at 50,000× Real Time

https://www.profitableratecpm.com/f4ffsdxe?key=39b1ebce72f3758345b2155c98e6709c

Il s’agit d’un article sponsorisé présenté par General Motors. Visitez leur nouveau Blog d’ingénierie pour plus d’informations.

La conduite autonome est l’un des problèmes les plus exigeants de l’IA physique. Un système automatisé doit interpréter en temps réel un monde chaotique et en constante évolution : naviguer dans l’incertitude, prédire le comportement humain et fonctionner en toute sécurité dans une immense gamme d’environnements et de cas extrêmes.

Chez General Motors, nous abordons ce problème à partir d’un principe simple : même si la plupart des moments sur la route sont prévisibles, les événements rares, ambigus et inattendus (la longue traîne) sont ce qui définit en fin de compte si un système autonome est sûr, fiable et prêt à être déployé à grande échelle. (Remarque : alors que nous discutons ici de la recherche et des technologies émergentes pour résoudre la longue traîne requise pour une autonomie générale complète, nous discutons également de notre approche actuelle consistant à résoudre 99 % de la conduite autonome quotidienne dans une analyse approfondie de l’IA composée.)

À mesure que GM progresse vers la conduite sur autoroute sans les yeux fermés et, à terme, vers des véhicules entièrement autonomes, la résolution de la longue traîne devient le défi technique central. Cela nécessite de développer des systèmes sur lesquels on peut compter pour se comporter de manière raisonnable dans les conditions les plus inattendues.

GM développe une IA de conduite évolutive pour relever ce défi, en combinant simulation à grande échelle, apprentissage par renforcement et raisonnement basé sur un modèle de base pour former des systèmes autonomes à une échelle et à une vitesse qui seraient impossibles dans le monde réel seul.

Tests de résistance pour la longue traîne

Les scénarios à longue traîne de conduite autonome se déclinent en plusieurs variétés.

Certains se distinguent par leur rareté. Il y a un matelas sur la route. Une bouche d’incendie éclate. Une panne de courant massive à San Francisco qui a désactivé les feux de circulation a obligé les véhicules sans conducteur à relever des défis sans précédent. Ces rares interactions au niveau du système, en particulier dans les environnements urbains denses, montrent comment des cas extrêmes inattendus peuvent se répercuter à grande échelle.

Mais les défis à long terme ne se présentent pas uniquement sous la forme de raretés uniques. Ils se manifestent également sous forme de scénarios quotidiens qui nécessitent une courtoisie ou un bon sens typiquement humains. Comment faire la queue pour une place sans bloquer la circulation dans un parking bondé ? Ou naviguer dans une zone de construction, guidé par des ouvriers gestuels et des panneaux ad hoc ? Ce sont des défis simples pour un conducteur humain, mais qui nécessitent une ingénierie inventive pour être parfaitement gérés avec une machine.

Déploiement de modèles de langage de vision

Un outil que GM développe pour aborder ces scénarios nuancés est l’utilisation de modèles Vision Language Action (VLA). En commençant par un modèle de langage de vision standard, qui exploite les connaissances à l’échelle d’Internet pour donner un sens aux images, les ingénieurs de GM utilisent des têtes de décodage spécialisées pour affiner les tâches distinctes liées à la conduite. Le VLA qui en résulte peut donner un sens aux trajectoires des véhicules et détecter des objets 3D en plus de ses capacités générales de reconnaissance d’images.

Ces modèles optimisés permettent à un véhicule de reconnaître que le geste de la main d’un policier annule un feu rouge ou d’identifier à quoi pourrait ressembler une « zone de chargement » dans un terminal d’aéroport très fréquenté.

Ces modèles peuvent également générer des traces de raisonnement qui aident les ingénieurs et les opérateurs de sécurité à comprendre pourquoi une manœuvre s’est produite — un outil important pour le débogage, la validation et la confiance.

Tester des scénarios dangereux dans des simulations haute fidélité

Le problème est que la conduite nécessite des temps de réaction d’une fraction de seconde, donc toute latence excessive pose un problème particulièrement critique. Pour résoudre ce problème, GM développe un « VLA double fréquence ». Ce modèle à grande échelle fonctionne à une fréquence plus basse pour prendre des décisions sémantiques de haut niveau (« Cet objet sur la route est-il une branche ou un parpaing ? »), tandis qu’un modèle plus petit et très efficace gère le contrôle spatial immédiat à haute fréquence (direction et freinage).

Cette approche hybride permet au véhicule de bénéficier d’un raisonnement sémantique approfondi sans sacrifier les temps de réaction d’une fraction de seconde nécessaires à une conduite sûre.

Mais pour traiter un cas limite en toute sécurité, il faut que le modèle comprenne non seulement ce qu’il regarde, mais aussi comment réagir judicieusement. ciné-parc le défi qu’il a identifié. Pour cela, rien ne remplace l’expérience.

C’est pourquoi, chaque jour, nous exécutons des millions de simulations haute fidélité en boucle fermée, équivalentes à des dizaines de milliers de journées de conduite humaine, compressées en heures de simulation. Nous pouvons rejouer des événements réels, modifier des données du monde réel pour créer de nouveaux scénarios virtuels ou en concevoir de nouveaux entièrement à partir de zéro. Cela nous permet de tester régulièrement le système par rapport à des scénarios dangereux qu’il serait presque impossible de rencontrer en toute sécurité dans le monde réel.

Des données synthétiques pour les cas les plus difficiles

D’où viennent ces scénarios simulés ? Les ingénieurs de GM utilisent toute une série de technologies d’IA pour produire de nouvelles données de formation capables de modéliser des situations extrêmes tout en restant ancrées dans la réalité.

La recherche « Seed-to-Seed Translation » de GM, par exemple, exploite des modèles de diffusion pour transformer les données existantes du monde réel, permettant ainsi à un chercheur de transformer un enregistrement par temps clair en une nuit pluvieuse ou brumeuse tout en préservant parfaitement la géométrie de la scène. Le résultat ? Un « changement de domaine » : le clair devient pluvieux, mais tout le reste reste pareil.

De plus, notre simulateur basé sur la diffusion GM World nous permet de synthétiser des scénarios de trafic entièrement nouveaux en utilisant le langage naturel et les cadres de délimitation spatiale. Nous pouvons invoquer des scénarios entièrement nouveaux avec des conditions météorologiques différentes. Nous pouvons également prendre une scène routière existante et ajouter de nouveaux éléments stimulants, comme un véhicule coupant notre chemin.

Comparaison d'un modèle 3D et d'une vue de rue avec un véhicule retiré, étiqueté "Original" et "Édité".
Rue avec plusieurs voitures garées, partiellement inondée après de fortes pluies ; superposition de marquages ​​géométriques bleus.
Rue d'hiver avec voitures ; superposition de formes filaires 3D bleues.

La simulation haute fidélité n’est pas toujours le meilleur outil pour chaque tâche d’apprentissage. Le rendu photoréaliste est essentiel pour entraîner les systèmes de perception à reconnaître des objets dans des conditions variées. Mais lorsque l’objectif est d’enseigner la prise de décision et la planification tactique (quand fusionner ou comment naviguer à une intersection), les détails coûteux en calcul importent moins que les relations spatiales et la dynamique du trafic. Les systèmes d’IA peuvent avoir besoin de milliards, voire de milliards d’exemples légers pour prendre en charge l’apprentissage par renforcement, où les modèles apprennent les règles d’une conduite raisonnable par essais et erreurs rapides plutôt que de s’appuyer uniquement sur l’imitation.

À cette fin, General Motors a développé un simulateur d’apprentissage par renforcement multi-agents exclusif, GM Gym, pour servir d’environnement de simulation en boucle fermée capable à la fois de simuler les données de capteurs haute fidélité et de modéliser des milliers de conducteurs par seconde dans un environnement abstrait connu sous le nom de « Boxworld ».

En se concentrant sur des éléments essentiels tels que le positionnement spatial, la vitesse et les règles de la route tout en supprimant les détails tels que les flaques d’eau et les nids-de-poule, Boxworld crée un environnement de formation à grande vitesse pour les modèles d’apprentissage par renforcement à des vitesses incroyables, fonctionnant 50 000 fois plus vite qu’en temps réel et simulant 1 000 km de conduite par seconde de temps GPU. C’est une méthode qui nous permet non seulement d’imiter les humains, mais aussi de développer des modèles de conduite ayant des résultats objectifs vérifiables, comme la sécurité et le progrès.

De la politique abstraite à la conduite réelle

Bien entendu, le trajet de votre domicile à votre bureau ne passe pas par Boxworld. Il traverse un monde d’asphalte, d’ombres et de conditions météorologiques. Ainsi, pour amener cette expertise conceptuelle dans le monde réel, GM est l’un des premiers à utiliser une technique appelée « On Policy Distillation », dans laquelle les ingénieurs exécutent leur simulateur dans les deux modes simultanément : le Boxworld abstrait et rapide et le mode capteur haute fidélité.

Ici, le modèle d’apprentissage par renforcement – ​​qui a parcouru d’innombrables kilomètres abstraits pour développer une « politique » ou une stratégie de conduite parfaite – agit comme un enseignant. Il guide son « élève », le modèle qui vivra éventuellement dans la voiture. Ce transfert de sagesse est incroyablement efficace ; seulement 30 minutes de distillation peuvent capturer l’équivalent de 12 heures d’apprentissage brut par renforcement, permettant au modèle du monde réel d’hériter rapidement des instincts de sécurité que son cousin a minutieusement perfectionnés en simulation.

Concevoir les échecs avant qu’ils ne surviennent

Cependant, la simulation ne consiste pas seulement à entraîner le modèle à bien conduire ; il s’agit aussi d’essayer de le faire échouer. Pour tester rigoureusement le système, GM utilise un pipeline différenciable appelé SHIFT3D. Au lieu de simplement recréer le monde, SHIFT3D le modifie activement pour créer des objets « contradictoires » conçus pour tromper le système de perception. Le pipeline prend un objet standard, comme une berline, et transforme subtilement sa forme et sa pose jusqu’à ce qu’il devienne une version « stimulante » et amusante, plus difficile à détecter pour l’IA. L’optimisation de ces modes de défaillance permet aux ingénieurs de découvrir de manière préventive les risques de sécurité avant qu’ils n’apparaissent sur la route. Il a été démontré que le recyclage itératif du modèle sur ces objets « durs » générés réduit les quasi-collisions de plus de 30 %, comblant ainsi l’écart de sécurité dans les cas extrêmes qui pourraient autrement être manqués.

Même avec une simulation avancée et des tests contradictoires, un système véritablement robuste doit connaître ses propres limites. Pour garantir la sécurité face à l’inconnu, les chercheurs de GM ajoutent une « tête d’incertitude épistémique » spécialisée à leurs modèles. Cet ajout architectural permet à l’IA de faire la distinction entre le bruit standard et une véritable confusion. Lorsque le modèle rencontre un scénario qu’il ne comprend pas – un véritable événement de « longue traîne » – cela signale une forte incertitude épistémique. Cela agit comme un proxy de principe pour l’exploration de données, signalant automatiquement les exemples les plus déroutants et les plus précieux que les ingénieurs doivent analyser et ajouter à l’ensemble de formation.

Cette approche rigoureuse et multidimensionnelle – de la stratégie « Boxworld » aux tests de résistance contradictoires – constitue le cadre proposé par General Motors pour résoudre le dernier 1 % d’autonomie. Et même s’il sert de base au développement futur, il fait également apparaître de nouveaux défis de recherche que les ingénieurs doivent relever.

Comment pouvons-nous équilibrer les données essentiellement illimitées de l’apprentissage par renforcement avec les données limitées mais plus riches que nous obtenons de la conduite réelle ? À quel point pouvons-nous nous rapprocher d’une conduite pleinement humaine en écrivant une fonction de récompense ? Pouvons-nous aller au-delà du changement de domaine pour générer des scénarios complètement nouveaux avec des objets nouveaux ?

Résoudre la longue traîne à grande échelle

Travailler à résoudre la longue traîne de l’autonomie ne repose pas sur un modèle ou une technique unique. Cela nécessite un écosystème qui combine une simulation haute fidélité avec des environnements d’apprentissage abstraits, un apprentissage par renforcement avec imitation et un raisonnement sémantique avec un contrôle en une fraction de seconde.

Cette approche fait plus qu’améliorer les performances dans des cas moyens. Il est conçu pour faire apparaître les scénarios rares, ambigus et difficiles qui déterminent si l’autonomie est réellement prête à fonctionner sans supervision humaine.

Des questions de recherche restent ouvertes. Dans quelle mesure une politique de conduite peut-elle devenir humaine lorsqu’elle est optimisée grâce à des fonctions de récompense ? Comment pouvons-nous combiner au mieux une expérience simulée illimitée avec les priorités plus riches intégrées dans la conduite humaine réelle ? Et jusqu’où les modèles mondiaux génératifs peuvent-ils nous mener dans la création de cas extrêmes significatifs et critiques pour la sécurité ?

Répondre à ces questions est essentiel pour l’avenir de la conduite autonome. Chez GM, nous construisons les outils, l’infrastructure et la culture de recherche nécessaires pour y répondre, non pas à petite échelle, mais à l’échelle requise pour les vrais véhicules, les vrais clients et les vraies routes.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button