Articles Tagués ‘deep learning’

face7

Oui, le sujet de ce post est assez énigmatique. Depuis quelques semaines, je multiplie les articles sur l’IA et ses applications militaires ou de sécurité, pour coller à l’actualité. Aujourd’hui, voici deux exemples assez concrets (voire un peu inquiétants) qui touchent au « deep learning » et dont les applications sont véritablement impressionnantes.

Reconnaître des visages dans le noir

face1

La reconnaissance faciale est l’une des technologies les plus connues et les plus immédiates du « deep learning ». Au passage, je me permets un petit rappel, tout le monde n’étant pas spécialiste de l’intelligence artificielle. Le deep learning est un sous-ensemble des techniques d’apprentissage machine à base de réseaux de neurones – le principe est de décomposer de manière hiérarchique le contenu d’une donnée complexe comme de la voix ou une image pour la classifier ensuite.

neuralnetworks

Le terme de deep learning a été inventé par Yann le Cun, actuel directeur du laboratoire d’IA de Facebook en France, pour « booster » sa recherche de fonds dans le domaine des réseaux de neurones qui était alors tombé en déshérence. Au-delà, il regroupe aujourd’hui nombre de techniques d’apprentissage à base de réseaux de neurones profonds, qui ne s’appuient pas sur des règles établies par avance. C’est, au passage, un problème : comme le souligne le rapport Villani, le deep learning est une « boite noire », car on se trouve dans l’incapacité de décrire de façon intelligible le résultat produit sur chaque nouveau cas, et en particulier à pointer les caractéristiques les plus importantes du cas en question ayant conduit au résultat produit.

face2

En l’occurrence, ces techniques sont très efficaces par exemple pour reconnaître des visages : à la fois en raison de la disponibilité d’images pour réaliser l’apprentissage, et de par le développement considérable des capacités de calcul (GPGPU par exemple), des sous-types de réseaux de neurones profonds comme les DCN (deep convolutional neural networks – je ne rentre pas dans le détail) sont capables de reconnaître des visages avec des performances proches de l’humain (voir par exemple le projet DeepFace).

face3

Mais cela, dans le spectre visible. Dans l’obscurité, on traite les images infrarouge, et cela pose un problème car les taux de reconnaissance chutent alors de façon drastique. La nuit, ou même dans certains cas où l’illumination n’est pas suffisante, les techniques de reconnaissance biométrique par réseaux de neurones ne peuvent plus fonctionner, sauf à utiliser une lampe torche, ce qui manque évidemment d’une certaine discrétion. La raison est simple : les visages à reconnaître en infrarouge doivent être combinés à une image provenant d’une base de données qui, elle, a été créée en lumière visible. Comme on le voit sur l’image ci-dessous, la comparaison est difficile.

face4

Pour surmonter ce problème, des chercheurs du ARL (US Army Research Laboratory) et de la firme Booz Allen Hamilton ont imaginé utiliser les réseaux de neurones afin de synthétiser à partir d’une image infrarouge, un visage en lumière visible qui, lui, pourra être comparé aux bases de données normales. Pour ce faire, ils utilisent une double technique : une régression non linéaire à l’aide de réseaux DCN pour extraire des caractéristiques de l’image thermique et construire une première représentation du visage, puis une synthèse et une optimisation des gradients permettant de projeter cette représentation dans le domaine visible – voir le processus ci-dessous et se reporter à l’article suivant qui donne tous les détails .

face10.jpg.png

Le résultat est spectaculaire : l’image synthétisée correspondant au visage non visible en thermique plus haut, est cette fois-ci beaucoup plus proche de sa représentation dans la base de données, ce qui permet une identification par des techniques de biométrie elles-mêmes fondées sur l’utilisation de réseaux de neurones.

face5

Et cela fonctionne très bien: lors de la conférence, les chercheurs ont ainsi utilisé une caméra thermique FLIR Boson 320 avec un portable permettant de faire tourner la démonstration en quasi temps-réel.

Mais les apports du deep learning ne s’arrêtent pas là…

Simuler un visage… et l’animer

Regardez cette vidéo. Non mais regardez-la vraiment….et jusqu’au bout.

 

Ce n’est donc pas Barack Obama qui parle, mais une combinaison d’une captation de son visage et d’un algorithme permettant de remplacer le mouvement de ses lèvres par un mouvement synthétique. Le résultat : on peut lui faire dire n’importe quoi, et je vous défie de le détecter. Impressionnant, et effrayant. Merci à mon fils qui m’a permis d’identifier et d’étudier cette vidéo.

C’est ce que l’on appelle un « deep fake » : un montage extrêmement réaliste permettant de simuler de manière photoréaliste, et grâce à l’IA, une vidéo plus vraie que nature. L’origine de ces fausses vidéos ? Un développeur opérant sur Reddit, sous le pseudonyme de « deepfakes », qui a adapté des techniques de deep learning en source ouverte, afin de substituer un visage de synthèse à un visage réel. Depuis (et après pas mal d’applications dans la pornographie, je vous laisse imaginer) la technique est devenue accessible à tous. L’exemple de Barack Obama montre ce qui est possible de faire, lorsque l’on est un tant soit peu professionnel.

face8

L’idée est de rassembler le plus d’images possibles de la cible (c’est pourquoi généralement les deep fakes s’attaquent à des personnalités publiques, dont les images circulent en grand nombre sur Internet). L’imposture consiste ensuite à apprendre (par deep learning) les traits caractéristiques de la cible – en l’occurrence le mouvement des lèvres – et à les remplacer par une image de synthèse commandée en temps réel par le « marionnettiste » (un individu dont on capte les mouvements des lèvres qui sont ensuite projetés sur les mouvements des lèvres de la cible).

Le souci c’est que l’on croit tout ce qui est sur Internet (la preuve dans mon article du 1er avril largement relayé, ce qui me fait encore rire) et que l’on croit encore plus ce que l’on voit. Ces techniques, qui relevaient il y a un an du projet scientifique, sont aujourd’hui démocratisées et accessibles. Le diagnostic est donc immédiat et fait peur : on ne peut plus croire ce que l’on voit. Reste donc à imaginer des algorithmes permettant, en identifiant les subtiles différences, à détecter l’imposture, et à discriminer le « deep fake » du vrai. Mais si cela reste possible pour les spécialistes et les scientifiques, il sera toujours facile pour un grand nombre d’entre nous de prendre l’image pour la réalité. Une nouvelle ère s’annonce donc, dans le domaine de la propagande et des manipulations psychologiques, une ère dans laquelle la prudence voire la méfiance s’imposent. Et cela, ce n’est pas drôle…

frbanner13

(Cet article fera l’objet de plusieurs posts). Les interfaces neurales, vous connaissez ? Loin d’être de la science fiction, il s’agit de pouvoir capturer, traiter et utiliser les informations fournies par vos ondes cérébrales, en temps réel.

Le concept n’est pas nouveau. Depuis très longtemps, à des fins thérapeutiques, ou simplement de recherche académique, de très nombreux dispositifs ont été imaginés afin de capturer les ondes  cérébrales. Toutefois, depuis ces cinq dernières années, on assiste à une explosion du domaine, liée à la fois à la mise en place sur le marché de systèmes « grand public » et à l’apparition de technologies de capture et de traitement dont le coût n’a plus rien à voir avec ce qui était pratiqué jusqu’alors.

L’apparition sur le marché de dispositifs EEG extrêmement légers, faciles d’installation (sans gel de contact) et d’utilisation suscite des travaux originaux : au-delà des célèbres et inutiles oreilles de chat pilotées par ondes alpha (produit Necomimi présenté à la Japan Expo de 2011 par la société japonaise Neurowear), on a vu apparaître ici et là des dispositifs destinés aux joueurs, ou organisateurs d’évènements. Citons par exemple INTERAXON, dont la charismatique CEO Ariel Garten n’hésite pas à payer de sa personne (sic) pour démontrer le potentiel de sa technologie.

En France, le projet ANR OpenViBE 2, a démontré en janvier 2013 que les technologies dites « BCI » (Brain Computer Interface ou Interfaces Cerveau Ordinateur) avaient atteint une maturité suffisante pour être intégrés dans des environnements virtuels commerciaux – nous y reviendrons. Citons également les dispositifs d’EMOTIV (casques de capture low cost) ou de NEUROSKY. Le système BodyWave dont j’ai repris plus haut la publicité, de la société Freer Logic propose de capter les ondes cérébrales sur les bras et les jambes de l’utilisateur.

interaxon section1-epoc

A quoi tout cela sert-il dans le domaine qui est le nôtre ? Au-delà des clichés de science-fiction, l’alliance de l’analyse de l’activité EEG (électroencéphalographique) et l’utilisation des techniques de machine learning (apprentissage automatique) permet aujourd’hui de fournir des informations en temps réel sur l’état cognitif d’un utilisateur, notamment sur son état de vigilance et sa charge mentale. Nous développerons les différentes utilisations dans différents articles, mais j’ai choisi de commencer par deux cas d’utilisation emblématiques.

En premier lieu, la société BrainWave science a développé une technologie de « brain fingerprinting », permettant, en présence d’un suspect, de savoir avec « un taux de succès supérieur à 99% » si ledit suspect a connaissance d’un crime, ou d’un aspect particulier d’un crime. Beaucoup de questions se posent : est-il possible d’utiliser une telle preuve au tribunal ? Sur quoi se fonde le taux de caractérisation ?, etc…  Entre nous, le site Internet fait un peu froid dans le dos, mais je n’ai pas encore recoupé ni analysé les informations pour connaitre le bien-fondé scientifique de la technologie de BWS. A suivre, donc.

Une utilisation bien plus directe se trouve être dans le champ d’activité qui m’occupe depuis de nombreuses années : la simulation. Le principe consiste à équiper de casques légers les opérateurs d’une simulation. Ces casques comportent des capteurs destinés à enregistrer les ondes cérébrales. Il s’agit de casques extrêmement légers pouvant être en particulier portés sous un casque de combat ou de pilotage, et doté d’émetteurs WIFI permettant une liaison avec une station de recueil des signaux.

Lorsque la simulation est lancée, les ondes cérébrales de chacun des opérateurs sont enregistrées par le système. Il s’agit en particulier de mesurer le degré de concentration, le degré de surcharge éventuelle (information overload) vis-à-vis des informations présentées, éventuellement le degré de stress. Bien évidemment ces différentes mesures peuvent être corrélées, et complétées par d’autres indicateurs vitaux (tension artérielle, rythme cardiaque, etc.…).

Il s’agit ensuite de mettre en corrélation les différents événements survenus dans la simulation et les mesures effectuées. Ce faisant, on arrive d’une part à analyser lors d’une séance de re-jeu ou d’analyse après action le comportement des différents opérateurs confrontés à un scénario.et d’autre part, in fine (cela relève encore de la recherche) à adapter le scénario de simulation en fonction de l’état de l’opérateur.

Une telle démonstration avait été présentée lors du salon IITSEC 2012, par une société californienne baptisée Advanced Brain Monitoring (ABM), société initialement spécialisée dans la recherche sur le système nerveux et la psychophysiologie.

ABM2

Un tel feed-back cognitif s’avère utile dans trois contextes :

  • en situation d’apprentissage, pour adapter individuellement la progression des scénarios,
  • en analyse après action (débriefing), pour affiner l’évaluation des progrès du sujet,
  • en situation d’action, pour contrôler le risque de stress cognitif individuel en mission collective.

Nous examinerons dans de futurs articles le potentiel de cette technologie, à la fois sous ses aspects captures, évoqués ici, et sous l’angle du contrôle-commande (thought-controlled computing).