Articles Tagués ‘analyse d’images’

tung00

« je le croirai quand je le verrai » : jamais cette affirmation n’a été aussi risquée qu’aujourd’hui, alors qu’Internet regorge d’images supposées refléter la réalité. La photo-portrait prétendue du cadavre de Ben Laden (que je me suis permis de flouter, parce que bon…), des photo-reportages dénonçant des violences policières à Chypre, ou des images de propagande gouvernementale … tous ces éléments, puisqu’ils sont visuels, nous semblent naturellement authentiques. Mais aujourd’hui, les logiciels de retouche photo sont sophistiqués, et nombre de ces éléments sont en fait fabriqués de toutes pièces. Fort heureusement, des solutions permettant de les démasquer existent – Aujourd’hui, focus sur eXo maKina, une société 100% française qui en a fait son cœur de métier.

Son fondateur et dirigeant, Roger Cozien, avec qui j’ai eu le plaisir de m’entretenir, est un expert en informatique et photographie. La société est surtout connue pour son logiciel Tungstene Factory, un logiciel impressionnant que l’on pourrait qualifier de plate-forme de photointerprétation, et permettant de savoir si une photo a été ou non manipulée ou éditée, et ce à des fins purement esthétiques, ou en vue de la truquer.

Considérons par exemple la photo suivante prise lors d’émeutes à Chypre, et utilisée ensuite à des fins de propagande anti-gouvernementales pour dénoncer des violences policières (Nota : toutes les images de cet article sont © eXo maKina). Cette image est-elle authentique ? Le policier de face porte-t’il réellement un coup de poing américain à la main droite ?

tung1

Le logiciel dispose d’une palette d’outils, permettant à l’opérateur d’appliquer des filtres et de procéder à l’analyse d’une image selon plusieurs axes : détection des ruptures dans les statistiques profondes de l’image (excavation des pixels identiques, par exemple, ou déformation des contours), détection des incohérences dans les aspects physiques de l’image (diffusion de la lumière, chrominance, luminance…), modification du bruit électronique, analyse des données EXIFS, de l’histogramme, etc… Il s’agit donc d’une plate-forme complète, destinée à assister l’expert dans son analyse. Le système fonctionne soit de manière autonome, soit en utilisant une base de données de référence.

Appliquée à l’image ci-dessus, le résultat est édifiant : le logiciel détecte des anomalies et permet d’affirmer que l’image a subi une intrusion – de fortes manipulations et une post-production importante :

tung000

Des zones altérées sont mises en évidence :

tung8

Confirmées par des anomalies dans le bruit électronique de l’image sur certaines zones :tung9

En résumé, les outils utilisés mettent en évidence que l’image a été modifiée en vue de faire passer un message politique :

tung10

Dans ce cas, la modification n’est pas purement esthétique : l’arrière-plan a été nettoyé afin de mettre en évidence les sujets au premier plan, mais au-delà, le mot « Police » sur le dossard a été profondément travaillé, ainsi que le coup de poing américain visible sur la main du policier. Même si l’on ne peut reconstituer l’image originelle, il est possible d’affirmer que la photo a subi trop de manipulations pour être authentique, il est impossible d’en tirer une quelconque information.

Dans d’autres cas, même si l’image semble suspecte, le logiciel permet de montrer que les modifications sont uniquement à visée photographique, afin d’améliorer la qualité visuelle de l’image. C’est le cas de cette photo de la manifestante Rachel Corrie, s’opposant à des bulldozers israéliens venus raser une maison à Gaza – elle sera d’ailleurs tuée par le bulldozer. Des réserves avaient été émises sur l’authenticité de la photo (problèmes supposés d’échelle entre la manifestante et le véhicule, ombres projetées…). Appliquée à cette photo, la technologie Tungstene permet d’en prouver l’authenticité : les modifications et éditions sont simplement le résultat d’un travail photographique classique.

tung2

Au-delà de l’interprétation des photos journalistiques, la société a également conçu TUNGSTENE RITUEL, une solution permettant, uniquement par analyse d’images, de détecter des contrefaçons de documents (en particulier de documents d’identité). L’intérêt est de ne pas nécessiter la présence physique de la pièce à analyser: tout peut se faire à distance puisque seule l’analyse de l’image est employée. De plus, dans la plupart des cas, le papier est authentique, ainsi que les encres. C’est donc l’analyse poussée de l’image et elle seule qui permet d’en établir ou non l’authenticité.

tung11

eXo maKina ne s’arrête pas là. Le 1er janvier 2016, la société va lancer HELIUM 3, une plate-forme pour fournir des technologies d’amplification multispectrale et de vision nocturne, pour l’analyse de vidéos. L’objectif est d’amplifier les vidéos sombres ou sous-exposées (débruitage, amplification intelligente, extraction de mouvement) de façon passive, en direct ou a posteriori, et en outre de calculer la vitesse relative des sujets observés par rapport au capteur. Les premières images divulguées sont impressionnantes : voici l’image issue de la vidéo initiale

tung3

Et l’amplification réalisée par HELIUM 3 :

tung4

Ici, l’image est analysée pour permettre le calcul automatique de la vitesse relative de déplacement du sujet :

tung7

Et enfin, une photo originale – vous conviendrez qu’elle est nettement sous-exposée ( !!!)

tung5

Et l’information récupérée par HELIUM 3.

tung6

Ces résultats impressionnants reposent donc sur une palette de compétences, une suite d’outils et d’algorithmes (ainsi qu’une méthodologie permettant de les mettre en œuvre de manière cohérente), mais aussi des compétences très pointues en termes de R&D. D’ailleurs, dans le domaine, des défis persistent : certains types de falsification de documents sont plus résistants que d’autre à l’analyse, mais surtout, le défi principal demeure la quantité massive de données à analyser. Pour pouvoir utiliser de telles techniques sur un smartphone ou un portable, il faut encore résoudre des problèmes de transport parcimonieux des images, de compression, etc…) ; c’est aujourd’hui la feuille de route de R&D de la société, qui a déjà plusieurs brevets à son actif.

tung12

Ah, et au fait, la photo de Ben Laden ? Tungstene a permis (ci-dessus) de démontrer qu’il s’agit d’un photomontage incontestable, avec des différences très claires, par exemple, entre la signature électronique du capteur qui a pris la photo originale de Ben Laden (à gauche) et celle qui a pris les photos d’une dépouille mortelle anonyme (à droite). Plus jamais vous ne croirez ce que vous verrez…

Crédits images © eXo maKina

Pour contacter Roger Cozien : communication@exomakina.fr

Et pour ceux que cela intéresse, voici un lien vers les publications d’eXo maKina 

vmr3

Nos ennemis savent aujourd’hui user et abuser de la communication visuelle. En publiant sur Internet des photos et des vidéos, ils nourrissent les bases de données des agences de sécurité du monde entier. Les images du terrain (photographies, images provenant du contrôle de personnes, renseignement d’origine image, saisie de matériel informatique ou de smartphones lors de perquisitions ou d’opérations spéciales…) contribuent également à ce déluge de données au sein desquelles trouver l’information pertinente revient à chercher une aiguille dans un super tanker rempli de bottes de foin. Comment naviguer dans ces immenses bases de données visuelles ? Comment présenter à l’opérateur les séquences pertinentes ?

vmr1

Répondre à ces questions, c’est le but du programme VMR – pour Visual Media Reasoning – de la DARPA (US Defense Advanced Research Projects Agency). Ce programme a pour objectif d’utiliser des technologies d’Intelligence Artificielle afin de permettre à un opérateur humain en possession d’une image pertinente d’en tirer toutes les informations possibles. L’idée est ainsi de lui permettre de poser des questions naturelles comme : « qui est cet individu ? », ou encore « où se situe ce bâtiment ? ». La vidéo (très sibylline) ci-après présente le concept.

Il est aujourd’hui illusoire de penser répondre automatiquement à de telles questions – l’analyse visuelle par un opérateur humain reste incontournable. Mais le système VMR permet d’en augmenter significativement les performances, en procédant d’une part à une première analyse automatique par des algorithmes de vision artificielle, et de présenter les résultats de cette première analyse par le biais d’une interface « intelligente ».

Dans l’image ci-dessous, l’interface VMR développée conjointement avec le laboratoire US Army Research Laboratory, présente à l’analyste un paysage visuel constitué de toutes les images répondant potentiellement à une question posée, organisées par groupes ou clusters dont la taille et la position correspondent à des attributs spécifiques. Plutôt que d’utiliser une arborescence de menus, l’opérateurs peut donc zoomer dans l’interface, à la manière de Google Maps, pour décider d’examiner ou d’extraire une image d’un groupe, et de la stocker pour une analyse ultérieure, ou de l’insérer dans un autre groupe. L’interface réorganise alors automatiquement les images, en fonction des actions de l’opérateur.

vmr2

L’intelligence artificielle est cachée : elle est utilisée en amont pour sélectionner les images pertinentes, et pour générer les diagrammes et groupes permettant de les rassembler. L’interface, quant à elle, facilite les actions de l’analyste en lui présentant une organisation visuelle cohérente, lui permettant de se concentrer sur des caractéristiques particulières comme la localisation ou la date de prise de vue. L’innovation est aussi dans le design de l’interface « Flat-Design », indiquant que toute l’information est présentée sur une seule « couche », sans avoir à rechercher dans des menus. Il s’agit d’un concept emprunté au grand public, et que l’on peut voir par exemple dans l’application Photo d’Apple.

La DARPA reste discrète sur les algorithmes de vision artificielle utilisés en amont – elle communique en revanche plus facilement sur l’interface VMR, qui, selon elle, constitue une véritable innovation dans le domaine, et repose sur l’observation que le cerveau humain est apte à analyser des images en grande quantité, sans faire appel à des fonctions de raisonnement de haut niveau. Une interface pour le cortex temporal inférieur, en somme…