Retour au numéro
Vue 38 fois
04 avril 2015

SYSTÈMES INTELLIGENTS ET CONDUITE DE PROGRAMME
UNE ÉVOLUTION TECHNIQUE QUI INDUIT DES CHANGEMENTS ORGANISATIONNELS

Pour être capables de traiter des situations nouvelles, les robots et plus généralement les systèmes intelligents font appel à des techniques d’apprentissage automatique. celles-ci représentent un défi à la spécification puisqu’il s’agit par définition de traiter des situations qui ne sont pas intégralement prévisibles. il existe cependant des solutions pour mesurer objectivement de telles capacités. ces solutions, déjà éprouvées dans certains domaines d’application, impliquent une organisation adaptée mais sont facteurs de progrès rapides.


Les robots autonomes et plus généralement les systèmes intelligents représentent un enjeu industriel, commercial et de société majeur. Définir et mesurer leurs capacités est essentiel, que ce soit pour faire progresser la recherche et orienter les développements, pour acheter en connaissance de cause, ou encore garantir leur fiabilité et leur sécurité. Ce n’est cependant pas chose aisée.

En effet, ces systèmes font appel à des techniques d’apprentissage automatique qui leur confèrent des capacités de généralisation et leur permettent, à partir de l’analyse d’un nombre fini de situations correspondant à l’expérience du système, de traiter une variété infinie de situations nouvelles auxquelles ils peuvent être confrontés. Ces techniques permettent ainsi de dépasser les limitations de modèles purement analytiques. Mais cette puissance de représentation accrue n’est pas sans conséquences sur la démarche de développement et notamment d’évaluation de tels systèmes.

Tout d’abord, comme pour tout système complexe, montrer la capacité de tel ou tel modèle à offrir une fonctionnalité donnée ne saurait reposer uniquement sur des preuves formelles et doit recourir à l’expérimentation. Cela rejoint la boutade attribuée au concepteur des premiers tests de développement intellectuel, qui à la question de définir l’intelligence aurait répondu « C’est ce que mesurent mes tests ! ». Mais pour que cette démarche pragmatique reste scientifique et en particulier que les expérimentations soient reproductibles, il faut définir des objectifs de développement mesurables et mettre en place des données et des protocoles de test quantitatifs et transparents. C’est une tâche à la frontière entre recherche et assistance à maîtrise d’ouvrage qu’il est tentant de négliger. Mais c’est en fait un investissement essentiel à la qualité des développements.

 

Schéma d’organisation d’une campagne d’expérimentation de systèmes intelligents : Les systèmes traitent des données et leurs sorties sont comparées par un tiers évaluateur à des sorties de référence produites par des experts humains. Cette production de données de test est souvent gérée par un acteur spécialisé qui produit aussi des données d’apprentissage. Différents systèmes peuvent être comparés sur les mêmes données d’entrée avec des sorties de référence et une métrique communes.

 

De plus, si les données de test sont connues à l’avance, les mesures risquent d’être biaisées. Celles-ci doivent donc être effectuées sur des données nouvelles, inconnues du système et de ses développeurs, et l’investissement dans la production de données de test pour un objectif de recherche donné doit être renouvelé à intervalles réguliers tant que l’objectif reste visé. Cela suppose aussi que la production et la mise à disposition des données de test soient faites par un tiers.

Inversement, si les données de test ne sont pas publiées et analysées par les développeurs, la démarche scientifique et les progrès associés s’en trouvent fortement bridés. Cet impératif, combiné avec celui de conduire les tests en aveugle comme mentionné précédemment, impose donc que l’ensemble des mesures soient faites sur une période bornée et relativement courte, avant laquelle les données de test sont inconnues des systèmes et après laquelle l’analyse et l’exploitation des résultats peuvent se faire librement. Autrement dit, les mesures doivent être faites de manière synchronisée sous forme de campagnes impliquant l’ensemble des équipes de recherche concernées par l’objectif scientifique visé.

En résumé, évaluer des systèmes doués d’apprentissage de manière rigoureuse, comparable et non biaisée suppose une organisation relativement élaborée. Pour chaque objectif scientifique ou technique donné, il faut définir un protocole de mesure commun à l’ensemble des équipes de développement visant cet objectif, disposer d’un tiers qui produit un environnement de test mettant en œuvre ce protocole, et organiser des campagnes d’expérimentations synchronisées impliquant tous les acteurs. Ce type d’organisation est souvent appelée « campagne d’évaluation ».

Cette organisation est bien connue dans le cas où les systèmes doués d’apprentissage sont humains : C’est celle des examens d’étudiants ! Elle l’est beaucoup moins dans le cas des systèmes artificiels. En effet, tant qu’elle n’est pas en place, le besoin de disposer d’un tiers aux missions particulières n’apparaît pas clairement, et tant que ce tiers n’existe pas, elle ne peut pas se mettre en place. De plus, son financement dépend du soutien d’un acteur qui a intérêt à voir la technologie progresser dans son ensemble, typiquement une agence de financement de la recherche dans le cas de technologies génériques.

Cependant, l’analogie avec les examens est productive et permet de comprendre simplement les enjeux. De même que l’éducation ne se résume pas aux examens mais que ceux-ci en sont une composante extrêmement structurante, le développement de systèmes intelligents ne se résume pas à l’organisation de campagnes d’expérimentation mais celles-ci sont essentielles à la structuration d’une filière technologique.

Une autre analogie intéressante est celle de la mise en place de la métrologie dans d’autres disciplines. Chaque discipline expérimentale qui émerge appelle la mise en place d’une métrologie, et qui à son tour soutient l’émergence de la discipline. De même que la lunette astronomique a permis à l’astronomie de basculer dans l’époque moderne et que la création du système métrique est une étape majeure de la physique, la mise en place d’une organisation adaptée pour mesurer expérimentalement avec la rigueur nécessaire les capacités de systèmes intelligents est centrale dans la structuration de la discipline scientifique et des filières techniques et industrielles correspondantes.

 

© D. Dufourd et A. Dalgalarrondo, SPIE Aerosense 2003

Exemple de donnée d’entrée image annotée avec la sortie attendue du système (lignes blanches en surimpression) pour mesurer automatiquement les performances de systèmes de détection automatique de bord de route

Où en est-on aujourd’hui ? L’Europe est bien moins avancée que les États-Unis (cf. encart). Cela s’explique en grande partie par la prééminence dans le financement de la recherche américaine des programmes de défense et donc l’utilisation courante de la commande publique, qui offre un effet d’entraînement extrêmement important. On peut cependant souligner la bonne place de la France en Europe. Par ailleurs, l’adoption de la démarche se fait domaine par domaine. C’est en effet une question d’opportunité, car sa mise en œuvre est soumise à des conditions qu’il n’est pas toujours évident de réunir. Il est cependant intéressant de noter que, bien qu’elle suscite parfois un scepticisme a priori, ceux qui en font l’expérience l’adoptent rapidement et ne veulent ensuite plus revenir en arrière.

Dans le domaine de la robotique, les moyens de reproduire les expériences de manière rigoureusement comparable sont encore rarement mis en œuvre. Il existe bien des compétitions où différentes équipes s’affrontent ou se confrontent à un objectif commun, comme celles organisées par la DARPA pour le véhicule autonome (Grand Challenge et Urban Challenge, 2004-2007) et pour la robotique humanoïde (Robotics Challenge, 2015) ainsi que le défi CAROTTE (CArtographie par ROboT d’un Territoire) organisé par la DGA en partenariat avec l’ANR (2009-2012). C’est d’ailleurs un outil de management et de motivation essentiel qui permet d’entretenir les échanges entre équipes. Cependant, il faudrait mettre en place de manière plus systématique des bases de données et métriques communes permettant de mesurer quantitativement et automatiquement les performances des différentes fonctionnalités visées, à l’instar de la campagne d’évaluation sur la détection de bords de routes pour la robotique terrestre conduite par la DGA au début des années 2000, pour laquelle une base d’environ 20 000 images annotées manuellement a été produite (voir illustration).

Plusieurs signes laissent envisager que la situation pourrait évoluer rapidement. Aux États-Unis, le National Institute of Standards and Technology (NIST) investit massivement dans la mise en place d’infrastructures d’évaluation des systèmes robotiques. En Europe, le besoin de mesures objectives en robotique autonome commence à être exprimé largement. En France, le Laboratoire National de métrologie et d’Essais (LNE) est impliqué dans la réflexion sur la sécurité des véhicules autonomes. La configuration actuelle offre ainsi des opportunités nouvelles pour renforcer la structuration d’une filière essentielle pour l’avenir.  

  

Situation actuelle par domaine et par pays

La situation dépend du domaine scientifique et technologique. Les communautés où la méthodologie est la plus mûre sont celles de la reconnaissance automatique des contenus multimédias (reconnaissance de la parole, traitement du langage, traduction automatique, reconnaissance de l’écriture, de documents numérisés, d’images, de vidéos, ...). Les premières campagnes sont en effet apparues dès le milieu des années 1980 dans le cadre d’un programme américain de la darPa1 en reconnaissance automatique de la parole, grâce à quelques pionniers mais aussi dans un contexte particulier marqué par des critiques sur le manque de validité scientifique des travaux antérieurs dans le domaine. elles se sont ensuite progressivement propagées aux domaines connexes.

La situation dépend aussi beaucoup du pays dans lequel on se trouve. elle est sans conteste la plus avancée aux états-Unis, où le Nist emploie plus d’une cinquantaine de personnes organisant des campagnes d’expérimentation, principalement au profit de programmes de la darPa et de l’iarPa2, et où le nombre de programmes concernés se chiffre en dizaines. en europe, l’organisation de campagnes repose avant tout sur la motivation individuelle de quelques chercheurs, excepté en france, où le LNe a une équipe d’une demi-douzaine de personnes, qui travaille notamment au profit d’études amonts dGa et au sein de l’institut de recherche technologique systemX du Programme d’investissements d’avenir (Pia). dans le reste du monde, seul le Japon dispose aussi d’une équipe dédiée, au National institute of informatics (Nii).

1) Defense Advanced Research Projects Agency

2) Intelligence Advanced Research Projects Agency

 

 

 

    
Edouard Geoffrois
Edouard Geoffrois a initié et piloté plusieurs programmes de recherche duaux dans le domaine du traitement intelligent de l’information multimedia avant de rejoindre à l’Agence nationale de la recherche où il coordonne notamment l’activité des états membres européens pour le programme « Human Brain Project » sur la modélisation du cerveau.
 

Auteur

Articles liés par des tags

Commentaires

Aucun commentaire

Vous devez être connecté pour laisser un commentaire. Connectez-vous.