Articles Tagués ‘ROIM’

corti6

La vision artificielle a fait des progrès considérables dans ces dernières années, avec certes le développement de nouveaux capteurs, mais aussi en raison de l’apparition à la fois de processeurs spécialisés adaptés spécifiquement à cette problématique, et de nouveaux algorithmes, capables de fonctionner en temps réel, ce qui était inconcevable il y a quelques années. Dans ce domaine, de nombreuses sociétés apparaissent, mais celle-ci semble développer une approche originale, et que je pense assez adaptée (je vous dirai pourquoi).

corti1

Cortica est une société israélienne, issue du célèbre Technion, l’équivalent israélien du MIT. La société a été fondée en 2007 par trois chercheurs spécialisés dans l’informatique, l’ingénierie et les neurosciences, dont son dirigeant actuel, Igal Raichelgauz. Après avoir levé un financement d’environ 40M$, la société compte aujourd’hui une équipe conséquente de chercheurs en IA, mais également des experts militaires issus de la communauté israélienne du renseignement ( !) ce qui en dit long sur les applications visées.

L’approche de CORTICA est résolument inspirée par la biologie, et en particulier par le fonctionnement du cortex visuel primaire. Elle développe en effet une technologie d’apprentissage non supervisé (pour faire simple, je rappelle que l’apprentissage non supervisé a pour objectif de découvrir de la valeur dans des données qui ne sont pas structurées a priori, afin de réaliser une extraction de connaissances) afin de disposer d’une IA capable de comprendre l’image « comme un humain ».

corti2

En gros, l’IA cherche à identifier par elle-même des caractéristiques, des motifs (patterns), des relations entre différentes images, et ce de manière autonome, l’ambition étant – je cite – de constituer « un index universel visuel du monde ». Pour ce faire, la société a conçu une architecture d’apprentissage qui s’inspire du cortex visuel primaire des mammifères – peu de détails ont filtré, mais on peut imaginer en particulier qu’il s’agit de coder ce que l’on appelle des neurones à spikes – pour une description plus détaillée, je vous propose de relire cet article.

Cette architecture cherche à permettre un apprentissage non supervisé par observation, ce que l’on pourrait appeler de l’apprentissage prédictif (c’est le terme employé par Yann le Cun, chercheur en IA et directeur du laboratoire parisien d’IA de Facebook). En gros, au lieu de devoir constituer de grosses bases de données d’images « labellisées », donc traitées au préalable afin d’expliquer au système ce qu’il est supposé reconnaître, on présente à l’IA des images, et – comme un nouveau-né qui commence à observer le monde – elle apprend progressivement le sens et les relations entre ces différentes images présentées. Si je crois particulièrement à cette approche et surtout à l’inspiration biologique du cortex visuel primaire, c’est parce que dans ma – de plus en plus lointaine – jeunesse, j’ai travaillé au sein du groupe de bioinformatique de l’Ecole Normale Supérieure sur le sujet de l’apprentissage et de la vision active, inspirée de la modélisation des colonnes corticales du cortex visuel primaire, et que les résultats préliminaires, alors limités par la puissance de calcul dont nous disposions à l’époque, étaient déjà encourageants.

corti3

Cortica vise à déployer sa technologie en l’embarquant dans différents systèmes, qu’il s’agisse de véhicules autonomes, de systèmes automatiques d’analyse d’imagerie médicale, ou d’applications grand public. Mais on voit immédiatement le potentiel d’une telle technologie dans le domaine de la défense et de la sécurité. Le ROIM (renseignement d’origine image) a besoin de telles technologies afin de pouvoir très rapidement générer des « points d’attention » sur des images (images satellites, caméras de surveillance…) et leur donner du sens.

corti5

Il s’agit donc d’une tendance de fond en IA, qui bénéficie directement à la Défense, et qui est d’ailleurs accompagnée par l’émergence de nouveaux moyens de calcul dédié. Google a présenté récemment son Tensor Processing Unit (ci-dessus, et voir ce lien) qui met en œuvre une accélération hardware des réseaux de type Deep Learning. Mais les réseaux de neurones à spikes – tels que ceux a priori mis en œuvre dans la technologie de Cortica – connaissent un développement important, également en France.

Nous avions parlé dans ce blog du projet AXONE (ci dessous) soutenu par la DGA. Simon Thorpe, le chercheur à l’origine de cette technologie, dirige le CERCO, Centre de recherche sur le cerveau et la cognition (Cerco) – rattaché au CNRS et à l’université Toulouse-III. Via la structure Toulouse Tech Transfer (TTT), il vient de céder une licence d’exploitation de sa technologie de reconnaissance à BrainChip, spécialiste des solutions de reconnaissance pour la surveillance civile et qui avait racheté en septembre la société Spikenet Technology.

corti4

BrainChip utilisera cette technologie en vue d’optimiser son microprocesseur Snap, qui analyse en temps réel des flux vidéo. La tendance de fond semble donc se confirmer, avec de nouveaux acteurs en parallèle des Google, Facebook et autres géants, et avec des applications potentiellement considérables dans le domaine de la Défense et de la Sécurité. En attendant leur portage sur de futurs processeurs neuromorphiques, mais c’est une autre histoire.

Pour faire écho à mon récent billet d’humeur, on voit donc que les technologies d’IA commencent à atteindre un degré de maturité considérable, et suscitent un intérêt certain dans nombre de pays compte tenu des enjeux sous-jacents. A la France de maintenir et d’amplifier l’avance qu’elle possède dans le domaine.

vmr3

Nos ennemis savent aujourd’hui user et abuser de la communication visuelle. En publiant sur Internet des photos et des vidéos, ils nourrissent les bases de données des agences de sécurité du monde entier. Les images du terrain (photographies, images provenant du contrôle de personnes, renseignement d’origine image, saisie de matériel informatique ou de smartphones lors de perquisitions ou d’opérations spéciales…) contribuent également à ce déluge de données au sein desquelles trouver l’information pertinente revient à chercher une aiguille dans un super tanker rempli de bottes de foin. Comment naviguer dans ces immenses bases de données visuelles ? Comment présenter à l’opérateur les séquences pertinentes ?

vmr1

Répondre à ces questions, c’est le but du programme VMR – pour Visual Media Reasoning – de la DARPA (US Defense Advanced Research Projects Agency). Ce programme a pour objectif d’utiliser des technologies d’Intelligence Artificielle afin de permettre à un opérateur humain en possession d’une image pertinente d’en tirer toutes les informations possibles. L’idée est ainsi de lui permettre de poser des questions naturelles comme : « qui est cet individu ? », ou encore « où se situe ce bâtiment ? ». La vidéo (très sibylline) ci-après présente le concept.

Il est aujourd’hui illusoire de penser répondre automatiquement à de telles questions – l’analyse visuelle par un opérateur humain reste incontournable. Mais le système VMR permet d’en augmenter significativement les performances, en procédant d’une part à une première analyse automatique par des algorithmes de vision artificielle, et de présenter les résultats de cette première analyse par le biais d’une interface « intelligente ».

Dans l’image ci-dessous, l’interface VMR développée conjointement avec le laboratoire US Army Research Laboratory, présente à l’analyste un paysage visuel constitué de toutes les images répondant potentiellement à une question posée, organisées par groupes ou clusters dont la taille et la position correspondent à des attributs spécifiques. Plutôt que d’utiliser une arborescence de menus, l’opérateurs peut donc zoomer dans l’interface, à la manière de Google Maps, pour décider d’examiner ou d’extraire une image d’un groupe, et de la stocker pour une analyse ultérieure, ou de l’insérer dans un autre groupe. L’interface réorganise alors automatiquement les images, en fonction des actions de l’opérateur.

vmr2

L’intelligence artificielle est cachée : elle est utilisée en amont pour sélectionner les images pertinentes, et pour générer les diagrammes et groupes permettant de les rassembler. L’interface, quant à elle, facilite les actions de l’analyste en lui présentant une organisation visuelle cohérente, lui permettant de se concentrer sur des caractéristiques particulières comme la localisation ou la date de prise de vue. L’innovation est aussi dans le design de l’interface « Flat-Design », indiquant que toute l’information est présentée sur une seule « couche », sans avoir à rechercher dans des menus. Il s’agit d’un concept emprunté au grand public, et que l’on peut voir par exemple dans l’application Photo d’Apple.

La DARPA reste discrète sur les algorithmes de vision artificielle utilisés en amont – elle communique en revanche plus facilement sur l’interface VMR, qui, selon elle, constitue une véritable innovation dans le domaine, et repose sur l’observation que le cerveau humain est apte à analyser des images en grande quantité, sans faire appel à des fonctions de raisonnement de haut niveau. Une interface pour le cortex temporal inférieur, en somme…