Nos ennemis savent aujourd’hui user et abuser de la communication visuelle. En publiant sur Internet des photos et des vidéos, ils nourrissent les bases de données des agences de sécurité du monde entier. Les images du terrain (photographies, images provenant du contrôle de personnes, renseignement d’origine image, saisie de matériel informatique ou de smartphones lors de perquisitions ou d’opérations spéciales…) contribuent également à ce déluge de données au sein desquelles trouver l’information pertinente revient à chercher une aiguille dans un super tanker rempli de bottes de foin. Comment naviguer dans ces immenses bases de données visuelles ? Comment présenter à l’opérateur les séquences pertinentes ?
Répondre à ces questions, c’est le but du programme VMR – pour Visual Media Reasoning – de la DARPA (US Defense Advanced Research Projects Agency). Ce programme a pour objectif d’utiliser des technologies d’Intelligence Artificielle afin de permettre à un opérateur humain en possession d’une image pertinente d’en tirer toutes les informations possibles. L’idée est ainsi de lui permettre de poser des questions naturelles comme : « qui est cet individu ? », ou encore « où se situe ce bâtiment ? ». La vidéo (très sibylline) ci-après présente le concept.
Il est aujourd’hui illusoire de penser répondre automatiquement à de telles questions – l’analyse visuelle par un opérateur humain reste incontournable. Mais le système VMR permet d’en augmenter significativement les performances, en procédant d’une part à une première analyse automatique par des algorithmes de vision artificielle, et de présenter les résultats de cette première analyse par le biais d’une interface « intelligente ».
Dans l’image ci-dessous, l’interface VMR développée conjointement avec le laboratoire US Army Research Laboratory, présente à l’analyste un paysage visuel constitué de toutes les images répondant potentiellement à une question posée, organisées par groupes ou clusters dont la taille et la position correspondent à des attributs spécifiques. Plutôt que d’utiliser une arborescence de menus, l’opérateurs peut donc zoomer dans l’interface, à la manière de Google Maps, pour décider d’examiner ou d’extraire une image d’un groupe, et de la stocker pour une analyse ultérieure, ou de l’insérer dans un autre groupe. L’interface réorganise alors automatiquement les images, en fonction des actions de l’opérateur.
L’intelligence artificielle est cachée : elle est utilisée en amont pour sélectionner les images pertinentes, et pour générer les diagrammes et groupes permettant de les rassembler. L’interface, quant à elle, facilite les actions de l’analyste en lui présentant une organisation visuelle cohérente, lui permettant de se concentrer sur des caractéristiques particulières comme la localisation ou la date de prise de vue. L’innovation est aussi dans le design de l’interface « Flat-Design », indiquant que toute l’information est présentée sur une seule « couche », sans avoir à rechercher dans des menus. Il s’agit d’un concept emprunté au grand public, et que l’on peut voir par exemple dans l’application Photo d’Apple.
La DARPA reste discrète sur les algorithmes de vision artificielle utilisés en amont – elle communique en revanche plus facilement sur l’interface VMR, qui, selon elle, constitue une véritable innovation dans le domaine, et repose sur l’observation que le cerveau humain est apte à analyser des images en grande quantité, sans faire appel à des fonctions de raisonnement de haut niveau. Une interface pour le cortex temporal inférieur, en somme…