Articles Tagués ‘AI’

20161123_115905_resized

Vous êtes quelques-uns à reprocher (gentiment) à ce blog une certaine orientation vers la recherche américaine. Ce n’est pas une volonté, mais une conséquence (1) des conséquents budgets américains en termes de R&D de défense et (2) d’une maîtrise certaine de la communication par nos voisins outre-Atlantique (les amenant d’ailleurs parfois à communiquer avec un certain talent des programmes politiques n’ayant pas grand-chose à voir avec la réalité, je dis ça comme ça….).

Une fois par an, la DGA organise son Forum Innovation. C’était hier et aujourd’hui, sur le site de Palaiseau, et pour le coup, cela amène une réelle volonté active de communication de la part à la fois de institutionnels, mais aussi des laboratoires et des petites entreprises. J’ai donc fait mon marché de l’innovation, en voici un premier résultat.

20161123_115841_resized

Le projet s’appelle AXONE. Il s’agit d’un système neuronal artificiel capable de réaliser des tâches d’analyse de scène en temps réel. Il s’agit du résultat d’un projet RAPID (Régime d’Appui pour l’Innovation Duale – voir la page de référence ici ) associant l’Institut Saint-Louis, la société Spikenet Technologies et la société GlobalSensing Technologies.

L’idée est d’utiliser un certain type de réseaux de neurones artificiels, les neurones à Spike, pour procéder à l’analyse en temps réel d’une scène visuelle, et de les embarquer sur des composants dédiés (SoC ou Systems on Chips). Je vais essayer d’expliquer simplement le concept – et ce, d’autant plus que j’avais travaillé il y a plus de vingt ans avec le Pr Simon Thorpe, créateur de la technologie SpikeNet (il me semble que j’ai même commis un article sur le sujet…).

20161123_115838_resized

Pour faire simple : en neurobiologie, on se pose depuis longtemps la question de la nature du codage de l’information par les neurones. La théorie générale est fondée sur un codage fréquentiel de l’information (fréquence des décharges électriques). Mais il existe une autre théorie reposant sur un codage temporel de l’information : le codage serait fait par des impulsions (spikes) ou plus précisément par les instants d’émission des impulsions. On prend donc en compte l’aspect temporel. Un réseau artificiel de neurones à spike est conçu pour simuler des réseaux qui contiennent un nombre très grand de neurones à décharge asynchrone et qui apprennent par codage des séquences de décharge. On appelle cela le codage par rangs (évidemment, je simplifie). Cette technologie est très utilisée pour la reconnaissance de formes, et en particulier le traitement d’images.

L’intérêt de cette technologie est que le temps d’apprentissage est très rapide, et très tolérant (aux conditions d’illumination, au bruit, aux contrastes…). Dans le projet AXONE, les participants ont ainsi pu implanter un réseau de neurones à spike sur une carte dédiée (ce que l’on appelle un processeur FPGA). En gros, il s’agit d’un processeur reconfigurable, comportant 1024 neurones artificiels, et conçue par la société GlobalSensing Technologies. Avec SpikeNet et l’ISL, et en 24 mois, les acteurs du projet AXONE ont réalisé une caméra reconfigurable générant des Spikes en lieu et place des images. Le travail a ainsi consisté (outre évidemment l’algorithmique sous-jacente) à intégrer ce réseau de neurones artificiel avec un capteur, au sein d’une caméra autonome, et de développer la librairie logicielle pour la mise en œuvre de ces composants.

20161123_115903_resized

Et le résultat est impressionnant. Lors de la présentation au Forum DGA, on a pu ainsi visualiser la reconnaissance de visages en temps réel (chaque visage est reconnu, en temps réel, avec sa signature unique). Les applications sont nombreuses : sécurité et surveillance de sites sensibles avec levée de doute par la caméra elle-même, capteurs abandonnés capables de réaliser une analyse in situ (voir mon article sur l’IA embarquée), et évidemment, augmentation de la capacité de reconnaissance de forme en robotique et en particulier pour les drones.

20161123_115855_resized

J’ajoute que la DGA a pris une initiative originale : celle de faire parrainer certaines innovations par des personnalités de l’institution. En l’occurrence, AXONE est parrainée par l’excellent Lionel MORIN, directeur du CATOD (Centre d’Analyse Technico-Opérationnelle de Défense) – ci-dessous.

20161123_123107_hdr_resized

Une technologie à suivre, et une excellente illustration des capacités d’innovation de l’écosystème français de la Défense – je publierai d’ailleurs bientôt d’autres articles suite à ma visite sur le forum Innovation.

dw4

Nous avons déjà parlé à plusieurs reprises dans ce blog de l’ordinateur quantique : je vous renvoie par exemple à cet article.

Pour mémoire, on rappelle qu’un tel superordinateur, imaginé par le physicien et Nobel Richard Feynman, repose sur le principe de l’utilisation des propriétés quantiques de la matière. Un ordinateur quantique manipule des qbits (ou qubits ou quantum bits) – voir l’article évoqué ci-dessus – et sa puissance est une fonction exponentielle du nombre de qbits manipulés. En traduction : plus un processeur quantique peut manipuler de qbits, plus il se rapproche du superordinateur rêvé par tous les informaticiens et capable de résoudre des problèmes jusque-là inattaquables.

dw1

Un calcul d’optimisation qui prendrait l’équivalent de l’âge de l’univers par un ordinateur classique serait résolu en moins de 10 minutes par un ordinateur quantique à 3000qbits. Inutile de souligner à nouveau la rupture stratégique et de souveraineté qu’amènerait un tel outil à la nation qui le posséderait.

qc3

Il y a quelques temps, la société canadienne D-Wave Systems, située à Burnaby, près de Vancouver, a annoncé avoir développé un ordinateur quantique (à 15 millions de dollars tout de même), acheté par Google ou la NSA entre autres (bien entendu je ne fais aucun rapprochement…), et capable de manipuler 512 qbits. Google a ainsi annoncé avoir constaté qu’un algorithme d’optimisation (dit « de recuit simulé ») était plus de 100 millions de fois plus rapide sur la machine de D-Wave que sur un ordinateur classique. Un exploit toutefois considéré avec méfiance par de nombreux spécialistes, dans la mesure où D-Wave a toujours refusé de divulguer les détails de ses tests, ni de procéder à des tests indépendants.

La société revient aujourd’hui sur le devant de la scène, avec un nouveau processeur quantique capable de manipuler 2000 qbits, et 1000 fois plus puissant que son prédécesseur, le D-Wave 2X.

dw2

Ce processeur utilise des micro-composants de niobium refroidis à l’helium liquide à une température proche du zéro absolu (en l’occurrence -273°C). Avec une telle machine, D-Wave annonce vouloir révolutionner la recherche opérationnelle et – c’est à la mode – l’apprentissage machine et l’intelligence artificielle.

Une telle machine, toutefois, ne pourra résoudre que les problèmes pour lesquels elle est optimisée ; les experts n’envisagent en effet le développement d’un véritable supercalculateur quantique qu’à partir de 2030. En l’occurrence, le nouveau processeur de D-Wave ne sait résoudre que des problèmes d’optimisation dits QUBO (Quadratic unconstrained binary optimization) – parmi lesquels, il est vrai, on trouve des problèmes de « pattern matching », d’optimisation ou certains algorithmes d’apprentissage.

Et c’est là que cela devient intéressant, car le développement de processeurs spécifiquement optimisés pour l’intelligence artificielle et en particulier le « deep learning » (le renouveau des réseaux de neurones) figure sur la feuille de route de nombre de fabricants de processeurs. Ainsi, NVIDIA a développé la carte DGX1, dédiée à l’apprentissage machine (et ne coûtant qu’environ 100k€).

dw3

Avec le développement du nouveau processeur de D-Wave, on commence à entrevoir une génération de machines quantiques spécifiquement optimisées, et qui permettraient de doper considérablement l’apprentissage non supervisé. Je ne rentre pas dans les détails, mais les grands défis de l’intelligence artificielle sont de ce type : détection d’anomalies dans des réseaux, identification de « patterns » dans les profils et comportements pour la lutte anti-terroriste, analyse automatique d’images complexes, etc…

dw5

Cela explique sans doute pourquoi D-Wave a été financée par plusieurs sociétés, dont Bezos Investment (fondée par la société du créateur d’Amazon, Jeff Bezos) et surtout, In-Q-Tel, la société d’investissement…de la CIA.

mov1

Ce n’est pas la première fois que nous parlons ici des caméras thermiques intelligentes. Mais ici, il s’agit d’une réelle convergence entre deux technologies : la vision thermique, et l’interprétation automatique d’images par vision artificielle. Cette convergence est matérialisée par l’alliance entre deux références du domaine : la société FLIR bien connue pour ses technologies de vision thermique par infrarouge, et la société MOVIDIUS, spécialiste de la vision artificielle embarquée.

Movidius est une société californienne qui développe des solutions dites de VPU pour Vision Processor Unit ; son architecture baptisée Myriad 2 est en fait un processeur spécialisé dans la vision artificielle embarquée. Il se compose d’un processeur DSP de traitement du signal permettant d’exécuter 150 milliards d’opérations par seconde, en ne consommant que 1,2 watts.

mov2

Ces deux sociétés viennent d’annoncer le fruit de leur collaboration : la caméra BOSON, une caméra thermique embarquant le Myriad 2 (possédant 12 cœurs de calcul programmables) et permettant d’implémenter in situ des algorithmes de traitement avancé de l’image, filtrage du bruit, et analyse d’objets. La caméra BOSON intègre les algorithmes de base, et l’utilisateur dispose de puissance de calcul et de mémoire disponibles pour implémenter ses propres traitements.

Le résultat ? Une caméra thermique miniaturisée, de faible consommation, et embarquant une intelligence artificielle permettant le traitement automatisé et en temps réel des images. Il devient ainsi possible de réaliser de la détection et du suivi d’images, de la détection de geste ou de mouvement, ou d’extraire des caractéristiques de haut niveau permettant d’implémenter une identification automatique de cible d’intérêt et un traitement de l’image correspondante.

Cela permet de réaliser l’essentiel des opérations au sein du capteur lui-même : toutes les opérations sont effectuées localement, sans devoir surcharger la bande passante du réseau, ni devoir transmettre des informations en vue d’en faire l’analyse sur un serveur distant. Une économie de temps, un gain de sécurité et d’efficacité : on peut ainsi imaginer qu’un drone aérien soit capable de réaliser l’interprétation automatique et immédiate des images qu’il capte, sans devoir faire appel à une liaison vers un segment sol.

Une caméra d’ailleurs facilement embarquée par un drone : la caméra BOSON est miniaturisée (21x21x11mm sans l’objectif), ne pèse que 7.5g pour l’unité de traitement, est possède une vision dans le spectre 7.5 µm – 13.5 µm. En revanche, elle est classée ITAR et nécessite donc à ce titre une autorisation d’export par les autorités américaines.

mov3

Il s’agit là d’une véritable révolution amenée, je le pense, à se généraliser : l’intégration de capacités de haut niveau (ici la vision artificielle) dans le senseur lui-même, permettant ainsi de conserver localement des capacités de traitement élaborées sans devoir transmettre l’information à un serveur distant.

Les applications vont de l’analyse d’images de surveillance, à la navigation, ou  la vision artificielle pour drones et robots,… Les grands du domaines ne s’y trompent pas : la société MOVIDIUS a été récemment sélectionnée par …Google, afin d’intégrer des capacités d’apprentissage dans les objets connectés. L’avènement des capteurs intelligents…

vmr3

Nos ennemis savent aujourd’hui user et abuser de la communication visuelle. En publiant sur Internet des photos et des vidéos, ils nourrissent les bases de données des agences de sécurité du monde entier. Les images du terrain (photographies, images provenant du contrôle de personnes, renseignement d’origine image, saisie de matériel informatique ou de smartphones lors de perquisitions ou d’opérations spéciales…) contribuent également à ce déluge de données au sein desquelles trouver l’information pertinente revient à chercher une aiguille dans un super tanker rempli de bottes de foin. Comment naviguer dans ces immenses bases de données visuelles ? Comment présenter à l’opérateur les séquences pertinentes ?

vmr1

Répondre à ces questions, c’est le but du programme VMR – pour Visual Media Reasoning – de la DARPA (US Defense Advanced Research Projects Agency). Ce programme a pour objectif d’utiliser des technologies d’Intelligence Artificielle afin de permettre à un opérateur humain en possession d’une image pertinente d’en tirer toutes les informations possibles. L’idée est ainsi de lui permettre de poser des questions naturelles comme : « qui est cet individu ? », ou encore « où se situe ce bâtiment ? ». La vidéo (très sibylline) ci-après présente le concept.

Il est aujourd’hui illusoire de penser répondre automatiquement à de telles questions – l’analyse visuelle par un opérateur humain reste incontournable. Mais le système VMR permet d’en augmenter significativement les performances, en procédant d’une part à une première analyse automatique par des algorithmes de vision artificielle, et de présenter les résultats de cette première analyse par le biais d’une interface « intelligente ».

Dans l’image ci-dessous, l’interface VMR développée conjointement avec le laboratoire US Army Research Laboratory, présente à l’analyste un paysage visuel constitué de toutes les images répondant potentiellement à une question posée, organisées par groupes ou clusters dont la taille et la position correspondent à des attributs spécifiques. Plutôt que d’utiliser une arborescence de menus, l’opérateurs peut donc zoomer dans l’interface, à la manière de Google Maps, pour décider d’examiner ou d’extraire une image d’un groupe, et de la stocker pour une analyse ultérieure, ou de l’insérer dans un autre groupe. L’interface réorganise alors automatiquement les images, en fonction des actions de l’opérateur.

vmr2

L’intelligence artificielle est cachée : elle est utilisée en amont pour sélectionner les images pertinentes, et pour générer les diagrammes et groupes permettant de les rassembler. L’interface, quant à elle, facilite les actions de l’analyste en lui présentant une organisation visuelle cohérente, lui permettant de se concentrer sur des caractéristiques particulières comme la localisation ou la date de prise de vue. L’innovation est aussi dans le design de l’interface « Flat-Design », indiquant que toute l’information est présentée sur une seule « couche », sans avoir à rechercher dans des menus. Il s’agit d’un concept emprunté au grand public, et que l’on peut voir par exemple dans l’application Photo d’Apple.

La DARPA reste discrète sur les algorithmes de vision artificielle utilisés en amont – elle communique en revanche plus facilement sur l’interface VMR, qui, selon elle, constitue une véritable innovation dans le domaine, et repose sur l’observation que le cerveau humain est apte à analyser des images en grande quantité, sans faire appel à des fonctions de raisonnement de haut niveau. Une interface pour le cortex temporal inférieur, en somme…