Articles Tagués ‘IA’

corti6

La vision artificielle a fait des progrès considérables dans ces dernières années, avec certes le développement de nouveaux capteurs, mais aussi en raison de l’apparition à la fois de processeurs spécialisés adaptés spécifiquement à cette problématique, et de nouveaux algorithmes, capables de fonctionner en temps réel, ce qui était inconcevable il y a quelques années. Dans ce domaine, de nombreuses sociétés apparaissent, mais celle-ci semble développer une approche originale, et que je pense assez adaptée (je vous dirai pourquoi).

corti1

Cortica est une société israélienne, issue du célèbre Technion, l’équivalent israélien du MIT. La société a été fondée en 2007 par trois chercheurs spécialisés dans l’informatique, l’ingénierie et les neurosciences, dont son dirigeant actuel, Igal Raichelgauz. Après avoir levé un financement d’environ 40M$, la société compte aujourd’hui une équipe conséquente de chercheurs en IA, mais également des experts militaires issus de la communauté israélienne du renseignement ( !) ce qui en dit long sur les applications visées.

L’approche de CORTICA est résolument inspirée par la biologie, et en particulier par le fonctionnement du cortex visuel primaire. Elle développe en effet une technologie d’apprentissage non supervisé (pour faire simple, je rappelle que l’apprentissage non supervisé a pour objectif de découvrir de la valeur dans des données qui ne sont pas structurées a priori, afin de réaliser une extraction de connaissances) afin de disposer d’une IA capable de comprendre l’image « comme un humain ».

corti2

En gros, l’IA cherche à identifier par elle-même des caractéristiques, des motifs (patterns), des relations entre différentes images, et ce de manière autonome, l’ambition étant – je cite – de constituer « un index universel visuel du monde ». Pour ce faire, la société a conçu une architecture d’apprentissage qui s’inspire du cortex visuel primaire des mammifères – peu de détails ont filtré, mais on peut imaginer en particulier qu’il s’agit de coder ce que l’on appelle des neurones à spikes – pour une description plus détaillée, je vous propose de relire cet article.

Cette architecture cherche à permettre un apprentissage non supervisé par observation, ce que l’on pourrait appeler de l’apprentissage prédictif (c’est le terme employé par Yann le Cun, chercheur en IA et directeur du laboratoire parisien d’IA de Facebook). En gros, au lieu de devoir constituer de grosses bases de données d’images « labellisées », donc traitées au préalable afin d’expliquer au système ce qu’il est supposé reconnaître, on présente à l’IA des images, et – comme un nouveau-né qui commence à observer le monde – elle apprend progressivement le sens et les relations entre ces différentes images présentées. Si je crois particulièrement à cette approche et surtout à l’inspiration biologique du cortex visuel primaire, c’est parce que dans ma – de plus en plus lointaine – jeunesse, j’ai travaillé au sein du groupe de bioinformatique de l’Ecole Normale Supérieure sur le sujet de l’apprentissage et de la vision active, inspirée de la modélisation des colonnes corticales du cortex visuel primaire, et que les résultats préliminaires, alors limités par la puissance de calcul dont nous disposions à l’époque, étaient déjà encourageants.

corti3

Cortica vise à déployer sa technologie en l’embarquant dans différents systèmes, qu’il s’agisse de véhicules autonomes, de systèmes automatiques d’analyse d’imagerie médicale, ou d’applications grand public. Mais on voit immédiatement le potentiel d’une telle technologie dans le domaine de la défense et de la sécurité. Le ROIM (renseignement d’origine image) a besoin de telles technologies afin de pouvoir très rapidement générer des « points d’attention » sur des images (images satellites, caméras de surveillance…) et leur donner du sens.

corti5

Il s’agit donc d’une tendance de fond en IA, qui bénéficie directement à la Défense, et qui est d’ailleurs accompagnée par l’émergence de nouveaux moyens de calcul dédié. Google a présenté récemment son Tensor Processing Unit (ci-dessus, et voir ce lien) qui met en œuvre une accélération hardware des réseaux de type Deep Learning. Mais les réseaux de neurones à spikes – tels que ceux a priori mis en œuvre dans la technologie de Cortica – connaissent un développement important, également en France.

Nous avions parlé dans ce blog du projet AXONE (ci dessous) soutenu par la DGA. Simon Thorpe, le chercheur à l’origine de cette technologie, dirige le CERCO, Centre de recherche sur le cerveau et la cognition (Cerco) – rattaché au CNRS et à l’université Toulouse-III. Via la structure Toulouse Tech Transfer (TTT), il vient de céder une licence d’exploitation de sa technologie de reconnaissance à BrainChip, spécialiste des solutions de reconnaissance pour la surveillance civile et qui avait racheté en septembre la société Spikenet Technology.

corti4

BrainChip utilisera cette technologie en vue d’optimiser son microprocesseur Snap, qui analyse en temps réel des flux vidéo. La tendance de fond semble donc se confirmer, avec de nouveaux acteurs en parallèle des Google, Facebook et autres géants, et avec des applications potentiellement considérables dans le domaine de la Défense et de la Sécurité. En attendant leur portage sur de futurs processeurs neuromorphiques, mais c’est une autre histoire.

Pour faire écho à mon récent billet d’humeur, on voit donc que les technologies d’IA commencent à atteindre un degré de maturité considérable, et suscitent un intérêt certain dans nombre de pays compte tenu des enjeux sous-jacents. A la France de maintenir et d’amplifier l’avance qu’elle possède dans le domaine.

brow4

Nous avions déjà mentionné dans ce blog les travaux de l’université de Copenhague sur le « deep spying » : l’espionnage faisant appel à des techniques de « Deep Learning » (apprentissage machine fondé sur l’analyse de modèles de données). En l’occurrence, les chercheurs avaient réussi à montrer que l’on pouvait exploiter les mouvements d’une montre connectée pour reconnaître et reconstituer la totalité des informations tapées par l’utilisateur. Vous pouvez retrouver cet article ici

Une nouvelle étape vient d’être franchie, avec en première ligne des chercheurs de l’université de Newcastle (ci-dessous), et cette fois-ci, la technique se fonde sur l’utilisation de votre smartphone.

brow6

Tout d’abord, il faut bien réaliser qu’un smartphone, c’est entre 18 et 25 capteurs différents – et je parle là de la majorité des smartphones du marché : gyroscopes, détection des chocs, accéléromètre, détection du vecteur de rotation, orientation, odomètre, infrarouge, champ magnétique, etc… Vous seriez surpris.

brow3

Lorsque vous le tenez en main et que vous tapez un code d’accès, par exemple, ces capteurs réagissent en créant une véritable « signature ». Bien évidemment, celle-ci dépend de votre attitude, de votre activité, de votre environnement. Mais en l’observant dans différentes conditions, il est possible « d’apprendre » votre profil. Et pour exploiter cette technique, l’attaque imaginée par l’équipe de Maryam Mehrnezhad (ci-dessous) repose sur une faille : une absence de spécifications W3C (le consortium World Wide Web) affectant la majorité des navigateurs internet.

brow5

La faille repose sur le fait que la spécification W3C actuelle permet à un code javascript inclus dans une page web d’accéder aux informations de la majorité des capteurs présents dans votre smartphone, à l’exclusion de la caméra et du GPS, et ce sans la permission expresse de l’utilisateur. Cela fonctionne via une page de navigation, ou un onglet ouvert dans un navigateur (même inactif), et même si le smartphone est verrouillé. Voici la liste ci-dessous des navigateurs affectés par cette vulnérabilité, sous Android et iOS.

brow1

L’attaque imaginée par les chercheurs s’appelle TouchSignatures.  Les chercheurs ont constitué une base de 10 utilisateurs auxquels on a demandé d’entrer un code PIN de 4 chiffres, 5 fois de suite, sur un site Internet. Ce site alimentait un réseau de neurones qui a appris à reconnaître les interactions de l’utilisateur avec le smartphone. La video ci-après montre les capteurs à l’écoute des mouvements de l’utilisateur.

C’est un peu comme reconstituer un puzzle : distinguer les mouvements de l’utilisateur quand il tient son smartphone en main, avec quels doigts, quelle inclinaison,… et repérer les invariants (on tape généralement en tenant toujours son smartphone de la même façon, avec une orientation donnée, avec les mêmes doigts, etc…).

Touch Signatures a rapidement appris à distinguer entre les mouvements « normaux » du téléphone pris en main, et les patterns caractéristiques d’un code PIN. Il a ainsi pu identifier 70% des codes PIN des utilisateurs sous Android, et 56% sous iOS. Mais le système apprenant constamment, au 5e essai il était capable d’identifier et de cracker un code PIN avec 100% de succès ( !).

brow2

Pourquoi cette faille a-t’elle été ignorée par la communauté ? Parce que le code javascript ne pouvait accéder qu’à un flux d’informations provenant des senseurs à faible débit, ce qui était perçu comme un risque faible de sécurité (« si ce n’est pas une caméra, ce n’est pas un problème »).

Ces nouveaux travaux montrent que même à faible débit, il est possible de capturer des informations permettant d’accéder aux identifiants de l’utilisateurs sans que celui-ci ne s’en aperçoive. Des résultats qui ont au moins alerté les développeurs des navigateurs, qui planchent aujourd’hui tous sur des parades, avec plus ou moins de vigueur.  En attendant, la meilleure solution (pour les smartphones qui possèdent cette fonction) c’est d’utiliser la reconnaissance de l’empreinte digitale, en espérant que celle-ci ne puisse être capturée à l’avenir… ce qui serait plus préoccupant.

20161123_115905_resized

Vous êtes quelques-uns à reprocher (gentiment) à ce blog une certaine orientation vers la recherche américaine. Ce n’est pas une volonté, mais une conséquence (1) des conséquents budgets américains en termes de R&D de défense et (2) d’une maîtrise certaine de la communication par nos voisins outre-Atlantique (les amenant d’ailleurs parfois à communiquer avec un certain talent des programmes politiques n’ayant pas grand-chose à voir avec la réalité, je dis ça comme ça….).

Une fois par an, la DGA organise son Forum Innovation. C’était hier et aujourd’hui, sur le site de Palaiseau, et pour le coup, cela amène une réelle volonté active de communication de la part à la fois de institutionnels, mais aussi des laboratoires et des petites entreprises. J’ai donc fait mon marché de l’innovation, en voici un premier résultat.

20161123_115841_resized

Le projet s’appelle AXONE. Il s’agit d’un système neuronal artificiel capable de réaliser des tâches d’analyse de scène en temps réel. Il s’agit du résultat d’un projet RAPID (Régime d’Appui pour l’Innovation Duale – voir la page de référence ici ) associant l’Institut Saint-Louis, la société Spikenet Technologies et la société GlobalSensing Technologies.

L’idée est d’utiliser un certain type de réseaux de neurones artificiels, les neurones à Spike, pour procéder à l’analyse en temps réel d’une scène visuelle, et de les embarquer sur des composants dédiés (SoC ou Systems on Chips). Je vais essayer d’expliquer simplement le concept – et ce, d’autant plus que j’avais travaillé il y a plus de vingt ans avec le Pr Simon Thorpe, créateur de la technologie SpikeNet (il me semble que j’ai même commis un article sur le sujet…).

20161123_115838_resized

Pour faire simple : en neurobiologie, on se pose depuis longtemps la question de la nature du codage de l’information par les neurones. La théorie générale est fondée sur un codage fréquentiel de l’information (fréquence des décharges électriques). Mais il existe une autre théorie reposant sur un codage temporel de l’information : le codage serait fait par des impulsions (spikes) ou plus précisément par les instants d’émission des impulsions. On prend donc en compte l’aspect temporel. Un réseau artificiel de neurones à spike est conçu pour simuler des réseaux qui contiennent un nombre très grand de neurones à décharge asynchrone et qui apprennent par codage des séquences de décharge. On appelle cela le codage par rangs (évidemment, je simplifie). Cette technologie est très utilisée pour la reconnaissance de formes, et en particulier le traitement d’images.

L’intérêt de cette technologie est que le temps d’apprentissage est très rapide, et très tolérant (aux conditions d’illumination, au bruit, aux contrastes…). Dans le projet AXONE, les participants ont ainsi pu implanter un réseau de neurones à spike sur une carte dédiée (ce que l’on appelle un processeur FPGA). En gros, il s’agit d’un processeur reconfigurable, comportant 1024 neurones artificiels, et conçue par la société GlobalSensing Technologies. Avec SpikeNet et l’ISL, et en 24 mois, les acteurs du projet AXONE ont réalisé une caméra reconfigurable générant des Spikes en lieu et place des images. Le travail a ainsi consisté (outre évidemment l’algorithmique sous-jacente) à intégrer ce réseau de neurones artificiel avec un capteur, au sein d’une caméra autonome, et de développer la librairie logicielle pour la mise en œuvre de ces composants.

20161123_115903_resized

Et le résultat est impressionnant. Lors de la présentation au Forum DGA, on a pu ainsi visualiser la reconnaissance de visages en temps réel (chaque visage est reconnu, en temps réel, avec sa signature unique). Les applications sont nombreuses : sécurité et surveillance de sites sensibles avec levée de doute par la caméra elle-même, capteurs abandonnés capables de réaliser une analyse in situ (voir mon article sur l’IA embarquée), et évidemment, augmentation de la capacité de reconnaissance de forme en robotique et en particulier pour les drones.

20161123_115855_resized

J’ajoute que la DGA a pris une initiative originale : celle de faire parrainer certaines innovations par des personnalités de l’institution. En l’occurrence, AXONE est parrainée par l’excellent Lionel MORIN, directeur du CATOD (Centre d’Analyse Technico-Opérationnelle de Défense) – ci-dessous.

20161123_123107_hdr_resized

Une technologie à suivre, et une excellente illustration des capacités d’innovation de l’écosystème français de la Défense – je publierai d’ailleurs bientôt d’autres articles suite à ma visite sur le forum Innovation.

ge2

Nul doute, alors que la bataille de Mossoul débute, que la guerre électronique (GE) prend une grande part dans la préparation et l’implémentation des opérations militaires modernes. Outre la défense de ses propres moyens électromagnétiques, l’écoute et le renseignement, il s’agit d’empêcher l’utilisation du spectre électromagnétique de l’adversaire, par le leurrage, le brouillage, ou l’intrusion dans ses systèmes.

Mais ne croyons pas que cette capacité est l’apanage unique des grandes puissances. Tous les combattants aujourd’hui sur le théâtre s’affrontent sur le terrain des ondes, à l’aide de brouilleurs, intercepteurs, ou en leurrant les réseaux de communication. La compréhension fine des émissions électromagnétiques sur le champ de bataille est donc aujourd’hui incontournable pour conférer un avantage tactique aux combattants impliqués. Cela permet d’interférer avec un guidage de missile adverse, de garantir la fiabilité des données de géolocalisation (qui pourraient être volontaire modifiées par l’adversaire, etc…), et évidemment, d’interférer avec les systèmes ennemis, par exemple en rompant leur chaîne de commandement.

ge4

Dans ce contexte, la société BAE, à la demande de la DARPA américaine, a développé un terminal ultraportable de GE. L’idée est d’avoir un dispositif tactique portable capable de conférer à son porteur la capacité de comprendre les différents signaux de radiofréquences dans lesquels il est immergé.

Il ne s’agit pas uniquement d’électronique (même si la taille et le poids sont en l’occurrence critiques), car pour pouvoir comprendre le « champ de bataille des fréquences », il est nécessaire de disposer d’algorithmes mettant en œuvre des techniques d’analyse du signal et d’Intelligence Artificielle. Cette analyse doit être réalisée au niveau tactique, sur le terrain (au lieu de devoir communiquer les signaux et de procéder à leur analyse au niveau du poste de commandement). Cette analyse, BAE la réalise en utilisant ce que l’on appelle des algorithmes Bayésiens d’apprentissage machine. Vous trouverez sur Internet nombre d’articles expliquant cette technologie, et je me bornerai donc à dire ici qu’un algorithme Bayésien est un graphe orienté probabiliste, capable de tenir compte simultanément de connaissances a priori et de l’information contenue dans les données, et d’améliorer son analyse au fur et à mesure que de nouvelles bases de données lui sont présentées.

ge0

Evidemment, BAE ne fournit pas beaucoup d’information sur la manière dont son algorithme fonctionne (ce qui reviendrait à donner des recettes pour le contrer), mais on peut imaginer qu’il se nourrit des informations capturées lors des missions passées. Cette même approche a d’ailleurs été implémentée par la même société, en ce qui concerne les systèmes de GE de l’avion de chasse F-35.

ge3

Les systèmes portables de BAE seraient ainsi fournis avec une configuration initiale qui exploiterait au maximum les interceptions et formes d’ondes déjà connues, et pourraient évoluer en fonction des situations rencontrées sur chaque théâtre d’opérations (voire partager cette connaissance commune entre deux théâtres). En présence d’un signal analogue à un signal déjà vu, il pourrait adapter sa réponse (par exemple en augmentant la puissance d’émission radio si le signal adverse semble correspondre à une tentative d’affaiblissement du signal, ou en utilisant une autre portion du spectre si l’IA prédit qu’il s’agit d’une tentative de brouillage).

Et cela semble fonctionner puisque BAE annonce, lors des premiers tests, avoir pu identifier plus de 10 signaux différents, sur une grande largeur de spectre, et en présence de dispositifs de brouillage et d’interférence. On peut même imaginer dans un futur proche que cette IA soit considérablement dopée par son embarquabilité sur des processeurs spécialisés (je pense par exemple aux travaux de la jeune société française SCORTEX, aujourd’hui dans le domaine de la vision mais potentiellement dans d’autres domaines demain – si cela peut donner des idées à nos groupes industriels nationaux)

ge6

L’idée est ainsi d’analyser la « soupe » de signaux électromagnétiques, d’en identifier les caractéristiques, d’en cibler les plus pertinents, et d’indiquer au combattant comment utiliser ses propres technologies de GE pour pouvoir les contrer ou échapper aux détections adverses.

Ce projet est intéressant car il montre la réalité de ce que les américains (et en particulier le précédent ministre américain de la Défense, Chuck Hagel et portée par le ministre adjoint de la défense, Bob Works – ci-dessous) appellent la « third offset strategy».

ge1

La première stratégie sous l’administration Eisenhower visait à compenser la supériorité soviétique par la dissuasion nucléaire. La seconde, à la fin des années 1970, visait cette fois, à compenser la supériorité conventionnelle quantitative par l’investissement dans les technologies de l’information et le développement de doctrines et d’un complexe « reconnaissance-frappe » de précision (missiles guidés, etc.). La stratégie de 3e offset vise à assurer leur domination pure tant militaire que stratégique, et l’Intelligence Artificielle en est une composante essentielle. En multipliant le contrôle et le développement de normes sur l’IA, les Etats-Unis imposent leurs outils et leurs technologies permettant à l’IA de contribuer préférentiellement à la souveraineté américaine.

ge5

La multiplication des initiatives mettant l’IA au cœur de systèmes militaire n’est donc pas conjoncturelle mais bien préméditée. En combinaison avec la GE, il s’agit donc bel et bien de démontrer une supériorité qui va bien au-delà de l’échelon tactique. Car comme le disait le Général Siffre dans le livre « Maître des ondes, maître du monde » : « le spectre électromagnétique est le lieu de passage et d’échange des messages chargés de secrets du pouvoir politique, économique, financier, terroriste et mafieux. Qui sera maître de ces secrets cachés sur le spectre électromagnétique sera maître du monde ».

Note: ce blog évolue – vous ne devriez plus y voir de publicités, et vous pouvez aujourd’hui y accéder par un nom de domaine plus simple: VMF214.net

dw4

Nous avons déjà parlé à plusieurs reprises dans ce blog de l’ordinateur quantique : je vous renvoie par exemple à cet article.

Pour mémoire, on rappelle qu’un tel superordinateur, imaginé par le physicien et Nobel Richard Feynman, repose sur le principe de l’utilisation des propriétés quantiques de la matière. Un ordinateur quantique manipule des qbits (ou qubits ou quantum bits) – voir l’article évoqué ci-dessus – et sa puissance est une fonction exponentielle du nombre de qbits manipulés. En traduction : plus un processeur quantique peut manipuler de qbits, plus il se rapproche du superordinateur rêvé par tous les informaticiens et capable de résoudre des problèmes jusque-là inattaquables.

dw1

Un calcul d’optimisation qui prendrait l’équivalent de l’âge de l’univers par un ordinateur classique serait résolu en moins de 10 minutes par un ordinateur quantique à 3000qbits. Inutile de souligner à nouveau la rupture stratégique et de souveraineté qu’amènerait un tel outil à la nation qui le posséderait.

qc3

Il y a quelques temps, la société canadienne D-Wave Systems, située à Burnaby, près de Vancouver, a annoncé avoir développé un ordinateur quantique (à 15 millions de dollars tout de même), acheté par Google ou la NSA entre autres (bien entendu je ne fais aucun rapprochement…), et capable de manipuler 512 qbits. Google a ainsi annoncé avoir constaté qu’un algorithme d’optimisation (dit « de recuit simulé ») était plus de 100 millions de fois plus rapide sur la machine de D-Wave que sur un ordinateur classique. Un exploit toutefois considéré avec méfiance par de nombreux spécialistes, dans la mesure où D-Wave a toujours refusé de divulguer les détails de ses tests, ni de procéder à des tests indépendants.

La société revient aujourd’hui sur le devant de la scène, avec un nouveau processeur quantique capable de manipuler 2000 qbits, et 1000 fois plus puissant que son prédécesseur, le D-Wave 2X.

dw2

Ce processeur utilise des micro-composants de niobium refroidis à l’helium liquide à une température proche du zéro absolu (en l’occurrence -273°C). Avec une telle machine, D-Wave annonce vouloir révolutionner la recherche opérationnelle et – c’est à la mode – l’apprentissage machine et l’intelligence artificielle.

Une telle machine, toutefois, ne pourra résoudre que les problèmes pour lesquels elle est optimisée ; les experts n’envisagent en effet le développement d’un véritable supercalculateur quantique qu’à partir de 2030. En l’occurrence, le nouveau processeur de D-Wave ne sait résoudre que des problèmes d’optimisation dits QUBO (Quadratic unconstrained binary optimization) – parmi lesquels, il est vrai, on trouve des problèmes de « pattern matching », d’optimisation ou certains algorithmes d’apprentissage.

Et c’est là que cela devient intéressant, car le développement de processeurs spécifiquement optimisés pour l’intelligence artificielle et en particulier le « deep learning » (le renouveau des réseaux de neurones) figure sur la feuille de route de nombre de fabricants de processeurs. Ainsi, NVIDIA a développé la carte DGX1, dédiée à l’apprentissage machine (et ne coûtant qu’environ 100k€).

dw3

Avec le développement du nouveau processeur de D-Wave, on commence à entrevoir une génération de machines quantiques spécifiquement optimisées, et qui permettraient de doper considérablement l’apprentissage non supervisé. Je ne rentre pas dans les détails, mais les grands défis de l’intelligence artificielle sont de ce type : détection d’anomalies dans des réseaux, identification de « patterns » dans les profils et comportements pour la lutte anti-terroriste, analyse automatique d’images complexes, etc…

dw5

Cela explique sans doute pourquoi D-Wave a été financée par plusieurs sociétés, dont Bezos Investment (fondée par la société du créateur d’Amazon, Jeff Bezos) et surtout, In-Q-Tel, la société d’investissement…de la CIA.

alphap4

Décidément, l’intelligence artificielle est à la mode. Aujourd’hui, l’actualité est celle d’un projet commun entre l’université de Cincinnati et la société américaine Psibernetix. Et pas de Google ni de Facebook. Je reviendrai d’ailleurs dans un futur article sur les réelles promesses et les limites de ce concept marketing que l’on appelle « deep learning » et qui remet au goût du jour une technique de réseaux de neurones datant… des années 50. Mais ce sera pour plus tard, puisqu’ici, il ne s’agit pas de réseaux de neurones ni de deep learning mais d’une technique plus récente (mais des années 1960 quand même…).

De quoi s’agit-il ? D’un article publié dans le « Journal of Defense Management », présentant le système ALPHA, développé par la société Psibernetix à partir des travaux d’un chercheur nommé Nicholas Ernest, et qui a réussi à battre un pilote (retraité) de l’US Air Force, le Colonel Gene Lee, dans plusieurs combats simulés.

alpha2

On en parle pas de « dogfighting » (combat tournoyant) mais de tactiques, techniques et procédures aériennes nourries par les informations obtenues par les différents capteurs de chaque aéronef, et qui sont adaptées en temps réel par ALPHA. La technique d’intelligence artificielle sous-jacente repose sur une combinaison de logique floue et d’algorithmes génétiques. Pour faire simple : la logique floue est une technique de modélisation du raisonnement, dans laquelle les règles logiques ne sont pas « vraies » ou « fausses » mais peuvent prendre toute valeur entre « complètement vraies » et « complètement fausses » (je simplifie, bien entendu). Les algorithmes génétiques, quant à eux, cherchent à trouver la solution d’un problème en le modélisant sous forme d’une « population de solutions », dont les plus adaptées se recombinent entre elles sur le modèle de l’évolution, afin de cribler en parallèle tout l’espace de recherche, puis de converger vers une solution adaptée, génération après génération (là encore, je simplifie à outrance).

ALPHA repose donc sur une combinaison de ces deux techniques, mais surtout, sur la possibilité de décomposer des problèmes complexes en problèmes plus simples, capables de fonctionner sur de petits processeurs comme ceux des ordinateurs de bureau, ou de processeurs de type « raspberry pi ». Avec une capacité d’adaptation à la microseconde.

alpha1

ALPHA a été testé dans un exercice de tactique aérienne opposant des « agresseurs » rouges, ne disposant pas de couverture AWACS et dotés de missiles à courte portée, à des avions « bleus » dotés de missiles à plus longue portée, et d’une protection AWACS. ALPHA a commencé par s’entraîner contre lui-même, avant de se confronter à un programme d’IA développé par le US Air Force Research Lab. Il s’est ensuite opposé au Colonel Lee, un expert du domaine, ancien « USAF Air Battle manager », instructeur au sein de l’école de combat aérien, et lui-même pilote de chasse chevronné.

alphap3

Le résultat : dès que le Colonel Lee a pris manuellement le contrôle d’un avion bleu, il s’est fait battre à plate couture par ALPHA, capable d’exploiter de manière remarquable les données remontées par les capteurs de chaque appareil, et les erreurs de pilotage du colonel. D’après ce dernier, ALPHA est « l’IA la plus agressive, dynamique, adaptative et crédible jamais développée ».

Selon ses concepteurs, ALPHA pourrait être utilisée dans un mode de combat human/machine team, c’est-à-dire pour contrôler une escadrille de drones escortant des avions pilotés. Sa capacité de contrôle et d’adaptation à la microseconde en font en tout cas un candidat très crédible pour une telle tâche.

mov1

Ce n’est pas la première fois que nous parlons ici des caméras thermiques intelligentes. Mais ici, il s’agit d’une réelle convergence entre deux technologies : la vision thermique, et l’interprétation automatique d’images par vision artificielle. Cette convergence est matérialisée par l’alliance entre deux références du domaine : la société FLIR bien connue pour ses technologies de vision thermique par infrarouge, et la société MOVIDIUS, spécialiste de la vision artificielle embarquée.

Movidius est une société californienne qui développe des solutions dites de VPU pour Vision Processor Unit ; son architecture baptisée Myriad 2 est en fait un processeur spécialisé dans la vision artificielle embarquée. Il se compose d’un processeur DSP de traitement du signal permettant d’exécuter 150 milliards d’opérations par seconde, en ne consommant que 1,2 watts.

mov2

Ces deux sociétés viennent d’annoncer le fruit de leur collaboration : la caméra BOSON, une caméra thermique embarquant le Myriad 2 (possédant 12 cœurs de calcul programmables) et permettant d’implémenter in situ des algorithmes de traitement avancé de l’image, filtrage du bruit, et analyse d’objets. La caméra BOSON intègre les algorithmes de base, et l’utilisateur dispose de puissance de calcul et de mémoire disponibles pour implémenter ses propres traitements.

Le résultat ? Une caméra thermique miniaturisée, de faible consommation, et embarquant une intelligence artificielle permettant le traitement automatisé et en temps réel des images. Il devient ainsi possible de réaliser de la détection et du suivi d’images, de la détection de geste ou de mouvement, ou d’extraire des caractéristiques de haut niveau permettant d’implémenter une identification automatique de cible d’intérêt et un traitement de l’image correspondante.

Cela permet de réaliser l’essentiel des opérations au sein du capteur lui-même : toutes les opérations sont effectuées localement, sans devoir surcharger la bande passante du réseau, ni devoir transmettre des informations en vue d’en faire l’analyse sur un serveur distant. Une économie de temps, un gain de sécurité et d’efficacité : on peut ainsi imaginer qu’un drone aérien soit capable de réaliser l’interprétation automatique et immédiate des images qu’il capte, sans devoir faire appel à une liaison vers un segment sol.

Une caméra d’ailleurs facilement embarquée par un drone : la caméra BOSON est miniaturisée (21x21x11mm sans l’objectif), ne pèse que 7.5g pour l’unité de traitement, est possède une vision dans le spectre 7.5 µm – 13.5 µm. En revanche, elle est classée ITAR et nécessite donc à ce titre une autorisation d’export par les autorités américaines.

mov3

Il s’agit là d’une véritable révolution amenée, je le pense, à se généraliser : l’intégration de capacités de haut niveau (ici la vision artificielle) dans le senseur lui-même, permettant ainsi de conserver localement des capacités de traitement élaborées sans devoir transmettre l’information à un serveur distant.

Les applications vont de l’analyse d’images de surveillance, à la navigation, ou  la vision artificielle pour drones et robots,… Les grands du domaines ne s’y trompent pas : la société MOVIDIUS a été récemment sélectionnée par …Google, afin d’intégrer des capacités d’apprentissage dans les objets connectés. L’avènement des capteurs intelligents…