100% ont trouvé ce document utile (2 votes)
213 vues359 pages

Mitchell Melanie 2021 Intelligence Artificielle Triomphes

Transféré par

Fatoumata Sita Issifi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (2 votes)
213 vues359 pages

Mitchell Melanie 2021 Intelligence Artificielle Triomphes

Transféré par

Fatoumata Sita Issifi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 359

L’édition originale de cet ouvrage a été publiée en anglais sous le titre

Artificial Intelligence: A Guide for Thinking Human.

Copyright © 2019 by Melanie Mitchell

Avec la collaboration de Robert French

L’Éditeur remercie Patrick Géhant


pour l’aide apportée à la finalisation de la traduction.

Direction artistique : Nicolas Wiel


Image de couverture : © Jackie Niam / Adobe Stock.

Ouvrage publié avec le concours du

© Dunod, 2021 pour la traduction française


11 rue Paul Bert, 92240 Malakoff
www.dunod.com

ISBN : 978-2-10-083219-4
À mes parents, qui m’ont appris à penser, et bien plus encore.
Prologue

Terrifié

Si l’intelligence des ordinateurs semble croître à un rythme effrayant,


il reste néanmoins une chose que ces machines ne savent pas encore faire :
percevoir l’ironie. C’est ce que j’ai pensé il y a quelques années, quand, me
rendant à une réunion sur l’intelligence artificielle (IA), je me suis perdue
dans la capitale de la recherche et découverte – le Googleplex, le siège
social de Google, à Mountain View, en Californie. Le comble, c’est que
j’étais perdue à l’intérieur du bâtiment de Google Maps !
Le bâtiment lui-même avait été facile à trouver. Une voiture de Google
Street View était garée près de l’entrée, portant sur son toit un imposant
appendice surmonté d’une caméra en forme de ballon de foot rouge et noir.
Mais une fois à l’intérieur, munie du célèbre badge « Visiteur » donné par la
sécurité, j’ai erré, embarrassée, à travers une multitude de postes de travail
occupés par des employés Google, écouteurs sur les oreilles et tapant
frénétiquement sur des claviers d’ordinateurs Apple. Après une exploration
aléatoire (sans plan), j’ai finalement trouvé la salle affectée à la réunion et
rejoint les participants déjà arrivés.
Cette réunion, en mai 2014, avait été organisée par Blaise Agüera y
Arcas, un jeune informaticien qui avait récemment quitté un poste
important chez Microsoft pour aider Google à construire une intelligence
artificielle. À sa création, en 1998, Google proposait un « produit » : un site
web qui utilisait une méthode nouvelle, extraordinairement efficace, pour
explorer le Web. Au fil des ans, Google est devenu la plus importante
compagnie technologique du monde et offre aujourd’hui un vaste éventail
de produits et de services, tels Gmail, Google Docs, Google Translate,
YouTube, Android, que vous utilisez peut-être chaque jour, et d’autres dont
vous n’avez probablement jamais entendu parler.
Les fondateurs de Google, Larry Page et Sergey Brin, cherchent depuis
longtemps à créer de l’intelligence artificielle dans les ordinateurs, et cet
objectif est devenu une priorité majeure de Google. Durant la dernière
décennie, cette entreprise a recruté de nombreux experts en IA, en
particulier Ray Kurzweil, inventeur bien connu et futurologue controversé,
qui affirme l’existence d’une Singularité technologique, d’un futur proche
où les ordinateurs seront plus intelligents que les humains. Google a recruté
Kurzweil pour l’aider à concrétiser cette vision. En 2011, Google créa un
groupe de recherche interne en IA appelé Google Brain ; depuis,
l’entreprise a également acquis un nombre impressionnant de startups en IA
aux noms également optimistes tels que Applied Semantics, DeepMind, et
Vision Factory.
Bref, Google n’est plus un simple portail de recherche – loin de là. Il se
transforme rapidement en une entreprise d’application de l’IA. L’IA est la
colle qui unifie les divers produits, services et recherches fondamentales
proposés par Google et sa maison mère, Alphabet. L’ambition ultime de
l’entreprise est résumée dans la formulation originelle de la mission de son
groupe DeepMind : « Expliquer l’intelligence et l’utiliser pour expliquer
tout le reste. »*1

L’IA et GEB
J’étais passablement excitée à l’idée d’assister à une réunion sur l’IA chez
Google. Depuis mes études doctorales dans les années 1980, je travaillais
sur divers aspects de l’IA et j’étais énormément impressionnée par ce que
Google avait accompli. Je pensais en outre avoir quelques idées
intéressantes. Mais je dois admettre que ce jour-là, je n’étais qu’une simple
spectatrice. Cette réunion devait permettre à quelques chercheurs en IA de
chez Google, triés sur le volet, de dialoguer avec Douglas Hofstadter,
légende vivante de l’IA et auteur d’un célèbre livre énigmatiquement
intitulé Gödel, Escher, Bach : Les Brins d’une Guirlande Éternelle, ou plus
succinctement, GEB. Si vous êtes informaticien ou fan d’ordinateurs, vous
avez probablement entendu parler de ce livre, à moins que vous ne l’ayez
lu, ou essayé de le lire.
Écrit dans les années 1970, GEB fut une émanation des multiples
passions intellectuelles d’Hofstadter – les mathématiques, l’art, la musique,
le langage, l’humour, les jeux de mots, tout cela mobilisé pour se demander
comment l’intelligence, la conscience et le sentiment de conscience de soi,
dont chaque être humain a une expérience si profonde, peuvent émerger
d’un substrat non intelligent, non conscient, composé de cellules
biologiques. Il se demandait également comment les ordinateurs pourraient
finalement acquérir une intelligence et une conscience de soi. C’est un livre
unique ; je n’en connais aucun autre qui lui soit comparable, même de loin.
Bien qu’il ne soit pas facile à lire, il est pourtant devenu un best-seller et a
obtenu le prix Pulitzer et le National Book Award. Incontestablement, GEB
est plus que tout autre livre celui qui a le plus incité de jeunes gens à
s’intéresser à l’IA. Je fus l’une d’entre eux.
Au début des années 1980, après avoir obtenu ma licence de maths, j’ai
vécu à New York, enseignant les maths dans une école privée, malheureuse,
me demandant ce que je voulais réellement faire dans la vie. Je découvris
GEB après en avoir lu une critique dithyrambique dans Scientific American.
Je sortis immédiatement l’acheter. Je le dévorai en quelques semaines, de
plus en plus convaincue non seulement que je voulais devenir chercheuse
en IA, mais surtout que je voulais travailler avec Douglas Hofstadter. Je
n’avais jamais été autant passionnée par un livre ni persuadée de faire le
bon choix pour ma carrière.
À l’époque, Hofstadter enseignait l’informatique à l’Université
d’Indiana, et mon plan chimérique consistait à m’y inscrire en doctorat
d’informatique, puis à me rendre sur place et convaincre Hofstadter de
m’accepter comme étudiante. Il y avait cependant un petit problème : je
n’avais jamais suivi de cours d’informatique. J’avais grandi parmi des
ordinateurs ; mon père était ingénieur matériel dans une start-up
technologique des années 1960 et avait construit un gros ordinateur dans le
coin repos familial. Cette machine, une Scientific Data Systems Sigma 2, de
la taille d’un réfrigérateur, portait un magnet proclamant « Je prie en
FORTRAN », et enfant, j’étais pratiquement convaincue qu’il le faisait,
discrètement, la nuit, pendant que la famille dormait. Dans les années 1960
et 1970, j’ai appris quelques rudiments de langages de programmation
populaires à l’époque – le FORTRAN, puis le BASIC, puis le Pascal –,
mais je ne savais pratiquement rien des techniques de programmation
proprement dites, et moins que rien de tout ce que doit en outre savoir une
future diplômée en informatique.
Pour lancer mon projet, je quittai mon poste d’enseignante à la fin de
l’année scolaire, déménageai à Boston, et commençai à suivre des cours
d’introduction à l’informatique pour préparer ma nouvelle carrière.
Quelques mois plus tard, j’étais sur le campus du Massachusetts Institute of
Technology, attendant le début d’un cours, lorsque je vis une affiche
annonçant une conférence de Douglas Hofstadter deux jours plus tard sur ce
même campus. Je n’en croyais pas mes yeux ; la chance me souriait.
J’assistai à la conférence puis, après une longue attente parmi la foule des
admirateurs, je parvins à parler à Hofstadter. Il s’avéra qu’il était en année
sabbatique au MIT, au terme de laquelle il déménagerait d’Indiana à
l’Université du Michigan, à Ann Arbor.
Pour faire bref, après des demandes répétées de ma part, je le persuadai
de m’engager comme assistante de recherche, d’abord pour un été, puis
pour les six années suivantes en tant qu’étudiante de troisième cycle, au
terme desquelles je passai un doctorat en informatique à l’Université du
Michigan. Hofstadter et moi sommes restés en étroits contacts au fil des ans
et avons eu de nombreuses discussions sur l’IA. Connaissant mon intérêt
pour les recherches de Google en IA, il m’avait gentiment invitée à la
réunion organisée par Google.

Le jeu d’échecs : première apparition du doute


Le groupe dans la salle de conférences pas facile à trouver se composait
d’une vingtaine d’ingénieurs Google (plus Douglas Hofstadter et moi-
même), tous membres de diverses équipes IA de Google. La rencontre
débuta par le traditionnel tour de salle au cours duquel les participants se
présentent rapidement. Plusieurs d’entre eux précisèrent que leur propre
carrière avait été stimulée par la lecture de GEB durant leur jeunesse. Tous
étaient excités et curieux d’entendre ce que le légendaire Hofstadter avait à
dire sur l’IA. Hofstadter se leva alors pour parler : « J’ai quelques
remarques à faire sur la recherche en IA en général, et ici chez Google en
particulier. » Sa voix se fit passionnée. « Je suis terrifié. Terrifié. »
Hofstadter poursuivit*2. Dans les années 1970, expliqua-t-il, quand il
commença à s’y intéresser, l’IA était une perspective exaltante mais
semblait si loin de se concrétiser qu’il n’y avait aucun « danger à l’horizon,
aucun sentiment qu’elle survienne réellement. » La création de machines
douées d’intelligence humaine était une profonde aventure intellectuelle, un
projet de recherche à long terme, dont la réalisation, disait-on, se situait à au
moins « cent prix Nobel de nous »*3. Hofstadter croyait que l’IA était
possible en principe : « L’“ennemi”, c’était des gens comme John Searle,
Hubert Dreyfus et d’autres sceptiques, qui disaient qu’elle était impossible.
Ils ne comprenaient pas qu’un cerveau est un morceau de matière qui obéit
à des lois physiques et que l’ordinateur peut tout simuler… le niveau des
neurones, des neurotransmetteurs, et cætera. En principe, c’est faisable. »
En fait, les idées d’Hofstadter sur la simulation de l’intelligence à divers
niveaux – des neurones jusqu’à la conscience – sont discutées en détail dans
GEB et furent au cœur de ses propres recherches durant des décennies. Mais
en pratique, jusqu’à récemment, Hofstadter pensait qu’une IA générale de
« niveau humain » n’avait aucune chance de voir le jour durant sa vie (voire
celle de ses enfants), de sorte qu’il ne se souciait pas trop de cet aspect des
choses.
Vers la fin de GEB, Hofstadter a listé « Dix questions et réflexions »
concernant l’intelligence artificielle. L’une de ces questions demande :
« Existera-t-il des programmes d’échecs capables de battre n’importe quel
adversaire humain ? » La réponse d’Hofstadter était « non ». « Il existera
peut-être des programmes battant tout le monde aux échecs, mais ce ne
seront pas exclusivement des programmes d’échecs. Il s’agira de
programmes d’intelligence générale »*4.
Lors de la réunion Google, en 2014, Hofstadter a reconnu qu’il s’était
« totalement trompé ». Le rapide perfectionnement des programmes
d’échecs, dans les années 1980 et 1990, avait commencé à instiller le doute
dans sa vision des progrès de l’IA à court terme. Bien qu’Herbert Simon,
l’un des pionniers de l’IA, ait prédit en 1957 qu’un programme d’échecs
serait champion du monde « d’ici dix ans », au milieu des années 1970,
alors que Hofstadter rédigeait GEB, les meilleurs programmes d’échecs
avaient seulement atteint le niveau d’un bon amateur. Eliot Hearst,
champion d’échecs, professeur de psychologie et ami d’Hofstadter, avait
abondamment écrit sur les différences entre grands joueurs d’échecs et
programmes d’échecs informatiques. Les expériences montraient que pour
décider d’un coup, les grands joueurs utilisent la reconnaissance rapide des
configurations sur l’échiquier plutôt que le recours systématique à la force
d’anticipation brute qu’utilisent tous les programmes d’échecs. Durant une
partie, les meilleurs joueurs humains voient dans une configuration de
pièces un « type de position » exigeant un certain « type de stratégie ».
Autrement dit, ces joueurs peuvent rapidement identifier dans des
configurations et stratégies particulières des instances de concepts de
niveaux supérieurs. Hearst affirmait que tant que les ordinateurs ne
posséderaient pas cette aptitude générale à percevoir des configurations et à
reconnaître des concepts abstraits, les programmes d’échecs n’atteindraient
jamais le niveau des meilleurs joueurs humains. Hofstadter était d’accord
avec Hearst.
Toutefois, dans les années 1980 et 1990, les programmes d’échecs
devinrent bien plus performants, grâce principalement à un net
accroissement de la vitesse des ordinateurs. Les meilleurs programmes
jouaient encore de manière très inhumaine : en recourant toujours à la force
d’anticipation brute pour décider du coup suivant. Au milieu des années
1990, la machine Deep Blue, d’IBM, dotée d’un matériel conçu
spécifiquement pour le jeu d’échecs, avait atteint le niveau de grand maître,
et en 1997, elle battit le champion du monde en titre, Garry Kasparov, lors
d’une rencontre en six parties. La maîtrise aux échecs, qui autrefois
semblait être le summum de l’intelligence humaine, avait succombé devant
la recherche par la force brute.

La musique, bastion de l’humanité


Bien que la victoire de Deep Blue, marque d’une ascension des machines
intelligentes, ait provoqué une vague de consternation et d’inquiétude dans
la presse, la « vraie » IA semblait encore très lointaine. Deep Blue savait
jouer aux échecs, mais elle ne savait rien faire d’autre. Hofstadter s’était
trompé sur les échecs, mais n’avait pas changé de point de vue sur les autres
questions posées dans GEB, en particulier sur la première de sa liste :

QUESTION : un ordinateur pourra-t-il écrire de la belle musique ?


RÉFLEXION : oui, mais pas avant longtemps.

Hofstadter poursuivit :

La musique est un langage d’émotions, et tant que les programmes


n’éprouveront pas d’émotions aussi complexes que les nôtres, il est
impossible qu’un programme écrive quoi que ce soit de beau. Des
programmes peuvent écrire des « contrefaçons », de pâles imitations de la
syntaxe de la musique composée par d’autres, mais en dépit de ce que l’on
pourrait a priori penser, les règles syntaxiques ne font pas l’essence de la
musique. […] Penser […] que nous pourrons bientôt commander à une
« boîte à musique » de bureau préprogrammée, fabriquée en série, achetée
par correspondance, et bon marché, de sortir de ses circuits stériles des
morceaux que Chopin ou Bach auraient pu écrire s’ils avaient vécu plus
longtemps, c’est commettre une erreur d’appréciation grotesque et éhontée
sur la profondeur de l’esprit humain*5.

Pour Hofstadter, cette réflexion constituait « l’une des parties les plus
importantes de GEB – j’aurais parié ma vie sur elle. »
Au milieu des années 1990, sa confiance en son évaluation de l’IA fut de
nouveau ébranlée, cette fois très profondément, lorsqu’il tomba sur un
programme écrit par un musicien nommé David Cope. Ce programme
s’appelait « Experiments in Musical Intelligence » (EMI, Expériences en
intelligence musicale). Cope, compositeur et professeur de musique, avait
initialement développé EMI pour l’aider dans son travail de composition en
créant automatiquement des morceaux dans son propre style. EMI est
toutefois devenu célèbre pour avoir créé des morceaux dans le style de
compositeurs classiques tels que Bach et Chopin. Il compose en suivant un
vaste ensemble de règles, conçues par Cope pour définir explicitement une
syntaxe générale de composition. Appliquées à un vaste échantillonnage de
l’œuvre d’un compositeur, elles visent à produire une œuvre nouvelle
« dans le style » de ce compositeur.
Lors de la réunion Google, Hofstadter parla avec une grande émotion de
ses rencontres avec EMI :

Je me suis mis à mon piano et j’ai joué l’une des mazurkas écrites par EMI
« dans le style de Chopin ». Ça ne sonnait pas exactement comme du
Chopin, mais ça sonnait suffisamment comme du Chopin, et comme de la
musique cohérente, pour que j’en sois profondément troublé.
Depuis mon enfance, la musique me transporte et m’émeut jusqu’au plus
profond de moi-même. Et chacune de mes œuvres préférées me semble être
un message directement envoyé du cœur émotionnel de l’être humain qui
l’a composée. Elle semble m’ouvrir la partie la plus intime de son âme. Et il
semble n’y avoir rien de plus humain dans le monde que l’expression de la
musique. Rien. L’idée que la plus superficielle des manipulations de formes
puisse donner des choses semblant venir du cœur d’un être humain est très,
très troublante. Elle me sidérait totalement.

Hofstadter parla ensuite d’une conférence qu’il avait donnée à la


prestigieuse Eastman School of Music, à Rochester, dans l’État de New
York. Après avoir décrit EMI, Hofstadter demanda à son public – qui
comprenait plusieurs professeurs de théorie musicale et de composition – de
deviner lequel des deux morceaux joués devant eux par un pianiste était une
mazurka (peu connue) de Chopin et lequel était une composition de EMI.
Comme l’expliqua par la suite un membre du public, « la première mazurka
avait de la grâce et du charme, mais n’avait pas l’inventivité et la grande
fluidité typiques de Chopin […]. La seconde, par contre, avec son lyrisme
mélodique, ses gracieuses et amples modulations chromatiques, et sa forme
naturellement équilibrée, était incontestablement du Chopin. »*6 Bon
nombre d’enseignants partagèrent ce point de vue et, à la stupéfaction
d’Hofstadter, votèrent EMI pour le premier morceau et « véritable Chopin »
pour le second. Les bonnes réponses étaient exactement l’inverse.
Dans la salle de conférences de Google, Hofstadter marqua une pause et
nous scruta du regard. Personne ne disait mot. Finalement, il reprit :
« J’étais terrifié par EMI. Terrifié. Je le haïssais et me sentais extrêmement
menacé par lui. Il menaçait de détruire ce que je chérissais le plus dans
l’humanité. Je pense que ce programme était la quintessence même des
craintes que suscite en moi l’intelligence artificielle. »

Google et la Singularité
Hofstadter parla alors de sa profonde ambivalence à l’égard de ce que
Google elle-même tentait d’accomplir en IA – notamment, la voiture
autonome, la reconnaissance de la parole, la compréhension du langage
naturel, la traduction entre diverses langues, la création artistique par
ordinateur, la composition musicale, etc. Les inquiétudes d’Hofstadter se
sont accentuées lorsque Google a accueilli Ray Kurzweil et sa vision de la
Singularité, selon laquelle l’IA, utilisant sa capacité à se perfectionner et
apprendre toute seule, atteindra rapidement, puis dépassera, l’intelligence
humaine. Il semblait que Google faisait tout ce qu’elle pouvait pour
concrétiser cette vision le plus vite possible. Si Hofstadter doutait fortement
de l’hypothèse de la Singularité, il reconnaissait néanmoins être troublé par
les prédictions de Kurzweil. « J’étais terrifié par les scénarios. Je restais très
sceptique, mais en même temps, je me disais peut-être qu’ils ont raison,
même s’ils se trompent sur la date d’arrivée de la Singularité. Nous serons
totalement pris au dépourvu. Nous penserons qu’il ne se passe rien et tout
d’un coup les ordinateurs seront plus intelligents que nous. »
Si cela se produit réellement, « nous serons supplantés. Nous serons des
reliques. Nous serons complètement largués par les machines. »
« Cela arrivera peut-être, mais je ne veux pas que cela arrive bientôt. Je
ne veux pas que mes enfants soient complètement dépassés par les
ordinateurs. »
Hofstadter conclut son propos par une référence directe aux ingénieurs
Google présents dans la salle, suspendus à ses paroles : « Je trouve très
angoissant, très troublant, très triste, atroce, effrayant, bizarre, déroutant,
incompréhensible que des gens se précipitent, aveuglément et de manière
complètement délirante, pour créer ces choses. »

D’où vient la terreur d’Hofstadter ?


J’ai regardé autour de moi. L’auditoire était décontenancé, embarrassé
même. Pour ces chercheurs en IA, travaillant chez Google, rien de tout cela
n’était le moins du monde terrifiant. En fait, c’était une vieille histoire.
Lorsque Deep Blue battit Kasparov, lorsque EMI commença à composer
des mazurkas dans le style de Chopin et que Kurzweil écrivit son premier
livre sur la Singularité, nombre de ces ingénieurs étaient au lycée, se
délectant probablement de la lecture de GEB même si ses pronostics sur
l’IA étaient un peu dépassés. La raison même pour laquelle ils travaillaient
chez Google était justement pour faire advenir l’IA – non dans une centaine
d’années, mais aujourd’hui, le plus tôt possible. Ils ne comprenaient pas
pourquoi Hofstadter était si stressé.
Les chercheurs en IA ont l’habitude d’entendre les inquiétudes des gens
extérieurs à leur discipline, sans doute influencés par les nombreux films de
science-fiction montrant des machines super-intelligentes se retourner
contre leurs maîtres. Il leur arrive également d’entendre des gens craindre
qu’une IA de plus en plus sophistiquée ne remplace les humains dans
certaines professions, que son application aux mégadonnées ne porte
atteinte à la vie privée et n’ouvre la voie à une discrimination subtile, et que
des systèmes d’IA mal maîtrisés, mais néanmoins autorisés à prendre des
décisions autonomes, ne sèment le chaos.
La terreur d’Hofstadter était une réaction à une chose entièrement
différente. Elle ne concernait pas une IA devenant trop intelligente, trop
invasive, trop malveillante ou même trop utile. Non, ce qui le terrifiait était
que l’intelligence, la créativité, les émotions, voire la conscience elle-
même, soient trop faciles à engendrer – que ce qu’il appréciait le plus dans
l’humanité s’avère finalement n’être rien d’autre qu’un « sac à malices »,
qu’un ensemble superficiel d’algorithmes bruts qui parviendraient à
expliquer l’esprit humain.
Et pourtant, dans GEB, Hofstadter le dit sans ambiguïté : l’esprit et toutes
ses caractéristiques émergent uniquement du substrat physique du cerveau
et du reste du corps, ainsi que de l’interaction du corps avec le monde
physique. Autrement dit, il n’y a rien d’immatériel ou d’incorporel
dissimulé dans cette émergence. Le problème qui le travaille est réellement
celui de la complexité. Il craint que l’IA ne nous révèle que les qualités
humaines que nous apprécions le plus soient désespérément simples à
mécaniser. Comme il me l’a expliqué après la réunion en évoquant Chopin,
Bach et d’autres parangons d’humanité, « Si de tels esprits, d’une subtilité,
d’une complexité et d’une profondeur émotionnelle infinies, pouvaient être
banalisés par une petite puce électronique, cela détruirait mon sentiment
profond de ce que nous sommes, de notre humanité. »

Je suis perplexe
Après les remarques d’Hofstadter, il y eut une brève discussion au cours de
laquelle les ingénieurs Google, déconcertés, poussèrent Hofstadter à
préciser ses craintes concernant l’IA et Google en particulier. Mais une
barrière de communication demeura. La réunion se poursuivit, avec
présentations de projets, discussions de groupe, pauses-café, la routine
habituelle, mais rien ne porta sur les commentaires d’Hofstadter. Vers la fin
de la réunion, Hofstadter demanda à l’auditoire comment il voyait l’avenir à
court terme de l’IA. Plusieurs ingénieurs prédirent qu’une IA de niveau
humain général émergerait probablement d’ici les trente prochaines années,
en grande partie grâce aux progrès accomplis par Google en « réseaux de
neurones artificiels profonds ».
J’ai quitté la réunion ne sachant plus très bien que penser. Je savais
qu’Hofstadter avait été troublé par certains écrits de Kurzweil sur la
Singularité, mais je n’avais jamais pleinement compris la profondeur de son
émotion et de son anxiété. Je savais également que Google faisait de gros
efforts de recherche en IA, mais j’étais étonnée par l’optimisme de plusieurs
de ses ingénieurs à l’égard de la rapidité avec laquelle ils estimaient que
l’IA atteindrait un niveau « humain » général. Jusque-là, je pensais que l’IA
avait extrêmement progressé dans certains domaines limités, mais qu’elle
était encore loin d’avoir l’intelligence générale et diversifiée des humains,
et ne l’atteindrait pas dans un siècle, et encore moins dans trente ans. Et je
pensais que les gens qui croyaient le contraire sous-estimaient grandement
la complexité de l’intelligence humaine. J’avais lu des livres de Kurzweil et
les avais trouvés en grande partie ridicules. Mais tous les commentaires que
j’ai entendus lors de la réunion, provenant de personnes que je respectais et
que j’admirais, m’obligèrent à examiner de manière critique mes propres
points de vue. Si je supposais que ces chercheurs en IA sous-estimaient les
êtres humains, peut-être de mon côté avais-je sous-estimé le pouvoir et
l’avenir de l’actuelle IA ?
Dans les mois qui suivirent, je fis davantage attention aux débats
entourant ces questions. J’ai commencé à remarquer la multitude d’articles,
de blogs et de livres entiers rédigés par d’éminentes personnes nous disant
soudainement que nous devrions nous inquiéter, tout de suite, des dangers
liés à une IA « surhumaine », dépassant les capacités intellectuelles
humaines. En 2014, le physicien Stephen Hawking déclara : « Le
développement de la vraie intelligence artificielle pourrait entraîner la fin
de l’espèce humaine. »*7 Cette même année, l’entrepreneur Elon Musk,
fondateur des entreprises Tesla et SpaceX, affirma que l’intelligence
artificielle est probablement « notre plus grande menace existentielle » et
qu’« avec l’intelligence artificielle, nous invoquons le démon. »*8 Le
cofondateur de Microsoft, Bill Gates, approuva : « Je suis d’accord sur ce
point avec Elon Musk et quelques autres, et je ne comprends pas pourquoi
des gens ne se sentent pas concernés. »*9 Le livre du philosophe Nick
Bostrom, Superintelligence, sur les dangers potentiels des machines qui
deviennent plus intelligentes que les humains, fut un best-seller surprise,
malgré l’aridité et la lourdeur de son style
D’autres éminents penseurs tentaient de contrer cet alarmisme. Oui,
disaient-ils, nous devrions nous assurer que les programmes d’IA sont sûrs
et ne risquent pas de nuire aux humains, mais toute possibilité d’une IA
surhumaine à court terme est grandement exagérée. Selon l’entrepreneur et
activiste Mitchell Kapor, « l’intelligence humaine est un phénomène
merveilleux, subtil et mal compris. On ne risque pas de la dupliquer avant
longtemps. »*10 Le roboticien (et ancien directeur du Laboratoire IA du
MIT) Rodney Brooks approuve : nous « surestimons nettement les
capacités des machines – celles d’aujourd’hui et celles des prochaines
décennies » a-t-il écrit*11. Le psychologue et chercheur en IA Gary Marcus
est allé jusqu’à affirmer que la recherche d’une « IA forte » – c’est-à-dire
d’une IA de niveau humain général – « n’a connu pratiquement aucun
progrès. »*12
Je pourrais poursuivre indéfiniment ce duel de citations. En bref, ce que
j’ai trouvé, c’est que la discipline qu’on appelle « Intelligence Artificielle »
est très controversée à l’heure actuelle. Soit on y a accompli d’énormes
progrès, soit pratiquement aucun. Soit nous sommes à deux pas de la
« vraie » IA, soit nous en sommes éloignés de plusieurs siècles. Soit l’IA
résoudra nos problèmes, soit elle nous mettra tous au chômage, détruira
l’espèce humaine, ou dévalorisera notre humanité. Elle est soit une noble
quête, soit une « invocation du démon ».

De quoi parle ce livre


Ce livre est né de mon désir de comprendre la situation dans laquelle se
trouve réellement l’intelligence artificielle – ce que peuvent faire
actuellement les ordinateurs, et ce que nous pouvons en attendre dans les
prochaines décennies. Les commentaires provocateurs d’Hofstadter lors de
la réunion chez Google ont déclenché en moi une prise de conscience, tout
comme les réponses confiantes des chercheurs Google sur l’avenir à court
terme de l’IA. Dans les chapitres qui suivent, je tente de voir où en est
l’intelligence artificielle et de clarifier ses objectifs disparates – et parfois
contradictoires. Ce faisant, j’examine le fonctionnement réel de certains des
plus importants systèmes IA et recherche ce qui fait leur efficacité et leurs
limitations. Je regarde dans quelle mesure les ordinateurs peuvent
aujourd’hui faire des choses qui exigent selon nous de hauts niveaux
d’intelligence – battre des humains aux jeux les plus intellectuellement
exigeants, traduire d’une langue dans une autre, répondre à des questions
complexes, conduire des véhicules en terrain difficile. J’examine également
leur comportement dans des situations qui nous semblent aller de soi, dans
les tâches de la vie quotidienne que nous accomplissons sans y penser, telles
que la reconnaissance de visages et d’objets sur des images, la
compréhension du langage parlé et du texte écrit, et l’utilisation du bon sens
le plus élémentaire.
Je m’efforce également de donner un sens aux questions plus vastes qui
alimentent les débats sur l’IA depuis sa création. Qu’entendons-nous
effectivement par intelligence « humaine générale », voire « surhumaine » ?
L’actuelle IA est-elle proche de ce niveau, voire sur une trajectoire
qui pourrait y conduire ? Quels sont les dangers ? Quels aspects de notre
intelligence nous sont les plus chers, et dans quelle mesure l’IA de niveau
humain mettrait en question notre perception de notre propre humanité ?
Pour parler comme Douglas Hofstadter, jusqu’à quel point devrions-nous
être « terrifiés » ?
Ce livre n’est pas une étude générale ou une histoire de l’intelligence
artificielle. Il est plutôt une exploration en profondeur de quelques
méthodes utilisées en IA qui probablement influent ou influeront bientôt sur
votre vie, ainsi que des efforts de l’IA qui vont peut-être le plus loin dans la
remise en question de notre sentiment d’unicité de l’espèce humaine. Mon
but est de vous amener à partager cette exploration et, comme moi, de
repartir avec un sentiment plus clair de ce que cette discipline a accompli et
du chemin qui reste à parcourir avant que nos machines puissent se
prétendre dotées d’une humanité propre.
Première partie

Le contexte
1

Les racines de l’intelligence artificielle

Deux mois et dix hommes à Dartmouth


Le rêve de créer une machine intelligente – aussi intelligente, voire plus
intelligente, que les humains – est vieux de plusieurs siècles, mais a intégré
la science moderne avec l’arrivée des ordinateurs. En fait, les idées qui ont
conduit aux premiers ordinateurs programmables ont résulté de tentatives
faites par des mathématiciens pour comprendre la pensée humaine – en
particulier la logique – en tant que processus mécanique de « manipulation
de symboles ». Les ordinateurs sont essentiellement des manipulateurs de
symboles qui jonglent avec des combinaisons des symboles 0 et 1. Pour les
pionniers de l’informatique tels que Alan Turing et John von Neumann, il y
avait de grandes analogies entre les ordinateurs et le cerveau humain, et il
leur semblait évident que l’on pouvait reproduire l’intelligence humaine
dans des programmes informatiques.
La plupart des chercheurs en intelligence artificielle font remonter la
fondation officielle de leur discipline à un petit atelier organisé en 1956 à
Dartmouth College par un jeune mathématicien nommé John McCarthy.
En 1955, âgé de vingt-huit ans, McCarthy rejoignit la faculté de
mathématiques de Dartmouth. Durant ses études de premier cycle, il avait
acquis quelques rudiments de psychologie et de « théorie des automates » –
une toute nouvelle discipline qui allait devenir l’informatique –, et avait
caressé l’idée de créer une machine pensante. Durant ses études de
troisième cycle dans le département de mathématiques de l’Université de
Princeton, McCarthy fit la connaissance d’un étudiant, Marvin Minsky, qui
partageait sa fascination pour le potentiel des ordinateurs intelligents. Après
ses études, McCarthy travailla quelque temps aux Laboratoires Bell et chez
IBM, où il collabora avec Claude Shannon, l’inventeur de la théorie de
l’information, et Nathaniel Rochester, l’un des pionniers du génie
électrique. Une fois à Dartmouth, McCarthy persuada Minsky, Shannon et
Rochester de l’aider à organiser « durant l’été 1956, un workshop de
2 mois, réunissant 10 hommes et traitant de l’intelligence artificielle. »*1
L’expression intelligence artificielle est due à McCarthy ; il voulait
distinguer cette discipline des recherches connexes regroupées sous le nom
de cybernétique*2. Par la suite, McCarthy reconnut que personne n’aimait
vraiment ce nom – après tout, le but était l’authentique intelligence, et non
l’« artificielle » – mais « je devais lui donner un nom, alors je l’ai appelée
“intelligence artificielle”. »*3
Les quatre organisateurs soumirent une proposition à la Fondation
Rockefeller, accompagnée d’une demande de subvention pour leur
workshop, qui reposait sur « la conjecture selon laquelle chaque aspect de
l’apprentissage ou tout autre trait de l’intelligence peut en principe être
décrit avec une précision telle que l’on peut construire une machine capable
de le simuler. »*4 La proposition énumérait une série de sujets à discuter – le
traitement du langage naturel, les réseaux neuronaux, l’apprentissage
automatique, les concepts abstraits et le raisonnement, la créativité – qui
définissent encore aujourd’hui la discipline.
Même si les ordinateurs les plus avancés en 1956 étaient environ un
million de fois plus lents que les téléphones portables d’aujourd’hui,
McCarthy et ses collègues étaient persuadés que l’IA était à portée de
main : « Nous pensons que l’on peut accomplir un progrès significatif dans
un ou plusieurs de ces problèmes pour peu qu’un groupe de scientifiques
triés sur le volet y travaillent ensemble durant un été. »*5
Des obstacles apparurent rapidement, que connaîtrait aujourd’hui tout
organisateur de workshop. La Fondation Rockefeller n’accorda
que la moitié de la subvention demandée. Et il s’avéra plus difficile que ne
le pensait McCarthy de persuader les participants de venir séjourner à
Dartmouth, voire de s’entendre sur quoi que ce soit. Il y eut beaucoup de
discussions intéressantes, mais peu de cohérence. Comme d’habitude avec
ce genre de rencontres, « chacun avait une idée différente, un solide ego, et
beaucoup d’enthousiasme pour son propre projet. »*6 L’été de l’IA à
Dartmouth donna néanmoins quelques résultats très importants. Cette
discipline reçut un nom, et l’on esquissa ses objectifs généraux. Ceux qui
parmi ses pionniers allaient bientôt devenir les big four (les quatre grands) –
McCarthy, Minsky, Allen Newell et Herbert Simon – se retrouvèrent pour
planifier l’avenir. Et l’on ne sait pour quelle raison, tous quatre quittèrent la
réunion débordants d’optimisme pour leur discipline. Au début des
années 1960, McCarthy fonda le Laboratoire d’intelligence artificielle de
l’Université de Stanford, dont « l’objectif était de construire en une
décennie une machine totalement intelligente. »*7 À la même époque, le
futur prix Nobel Herbert Simon prédit que « d’ici vingt ans, des machines
seront capables de faire n’importe quel travail actuellement réalisable par
un humain. »*8 Peu après, Marvin Minsky, fondateur du MIT AI Lab
(Laboratoire d’IA du MIT), déclara que « d’ici une génération, […] les
problèmes posés par la création d’une “intelligence artificielle” seront en
grande partie résolus. »*9

On définit, puis on va de l’avant


Aucun de ces événements annoncés ne s’est encore réalisé. Où en sommes-
nous alors de la construction d’une « machine totalement intelligente » ?
Une telle machine nous obligerait-elle à rétro-concevoir le cerveau humain
dans toute sa complexité, ou y a-t-il un raccourci, un ensemble intelligent
d’algorithmes encore inconnus, susceptible de produire ce que nous
reconnaîtrions comme de « l’intelligence totale » ? Que signifie même
« intelligence totale » ?
« Définissez les termes, vous dis-je, ou jamais nous ne nous
entendrons. »*10 Cet avertissement de Voltaire est un défi pour quiconque
parle d’intelligence artificielle, car sa notion centrale – l’intelligence – est
encore extrêmement mal définie. Marvin Minsky lui-même est allé jusqu’à
forger l’expression « mot-valise »*11 pour qualifier des termes tels que
intelligence et ses nombreux cousins, tels pensée, cognition, conscience et
émotion, chacun étant comme une valise contenant un fouillis de différents
sens. En arborant différents sens en fonction du contexte, intelligence
artificielle hérite de ce problème.
La plupart des gens conviendraient que les humains sont intelligents et
que les grains de poussière ne le sont pas. De même, nous considérons
généralement que les humains sont plus intelligents que les vers de terre.
Pour ce qui est de l’intelligence humaine, le QI se mesure sur une seule
échelle, mais nous parlons aussi de différentes dimensions – émotionnelle,
verbale, spatiale, logique, artistique, etc. – de l’intelligence. Ainsi,
l’intelligence peut être binaire (une chose l’est ou ne l’est pas), continue
(une chose est plus intelligente qu’une autre) ou multidimensionnelle (une
personne peut avoir une grande intelligence verbale mais une faible
intelligence émotionnelle). En fait, le mot intelligence est une valise hyper-
bondée, avec sa fermeture éclair prête à sauter.
Pour le meilleur ou pour le pire, l’IA a grandement ignoré ces diverses
distinctions et s’est plutôt concentrée sur deux types d’activités, l’un
d’ordre scientifique, l’autre d’ordre pratique. Côté scientifique, les
chercheurs en IA étudient les mécanismes de l’intelligence « naturelle »
(c’est-à-dire biologique) en essayant de les programmer dans les
ordinateurs. Côté pratique, les partisans de l’IA veulent simplement créer
des programmes informatiques qui effectuent des tâches aussi bien ou
mieux que les humains, et ne se soucient pas de savoir si ces programmes
pensent réellement de la même manière que les humains. Quand on leur
demande si leurs motivations sont d’ordre pratique ou scientifique, nombre
de chercheurs en IA répondent en plaisantant que cela dépend de l’origine
de leurs subventions.
Dans un récent rapport sur l’état actuel de l’IA, un comité d’éminents
chercheurs a défini cette discipline comme « une branche de l’informatique
qui étudie les propriétés de l’intelligence en synthétisant l’intelligence. »*12
Un peu circulaire, n’est-ce pas ? Mais ce même comité a également reconnu
qu’il est difficile de définir cette discipline, et c’est peut-être une bonne
chose : « L’absence de définition précise, universellement admise, de l’IA a
probablement contribué au développement, à l’épanouissement et au
progrès de cette discipline à un rythme sans cesse croissant. »*13 En outre,
remarque le comité, « les praticiens, chercheurs spécialistes et développeurs
de l’IA sont plutôt guidés par un vague sens de l’orientation et par
l’impératif “d’aller de l’avant” ».

Une anarchie de méthodes


Au workshop de Dartmouth, en 1956, les participants n’avaient pas une
vision unanime de l’approche à adopter pour développer l’IA. Certains –
généralement des mathématiciens – considéraient que la logique
mathématique et le raisonnement déductif étaient le langage de la pensée
rationnelle. D’autres étaient partisans de méthodes inductives dans
lesquelles les programmes extraient des statistiques à partir des données et
utilisent les probabilités pour gérer l’incertitude. D’autres encore croyaient
fermement qu’il fallait s’inspirer de la biologie et de la psychologie pour
créer des programmes calqués sur la structure du cerveau. Cela vous
surprendra peut-être, mais les arguments avancés par les partisans de ces
diverses approches n’ont pas changé depuis Dartmouth. Et chaque approche
a généré sa propre panoplie de principes et de techniques, complétée par des
conférences et des revues spécialisées, avec peu d’échanges entre les sous-
spécialités. Une récente recension de la littérature sur l’IA a résumé ainsi la
situation : « Comme nous ne comprenons pas suffisamment ce qu’est
l’intelligence ou ne savons pas produire une IA de niveau général, plutôt
que d’arrêter certaines voies de recherche, nous devrions, pour
véritablement progresser, recourir à l’“anarchie de méthodes” que constitue
l’IA. »*14
Mais depuis les années 2010, une famille de méthodes en IA –
collectivement appelées « apprentissage profond » (ou réseaux neuronaux
profonds) – s’est élevée au-dessus de cette anarchie pour devenir le
paradigme dominant au sein de l’IA. En fait, dans la plupart des médias
populaires, l’expression intelligence artificielle elle-même en est venue à
signifier « apprentissage profond ». Cette confusion est regrettable et il me
faut la dissiper. L’IA est une discipline qui comprend une multitude
d’approches visant à créer des machines douées d’intelligence.
L’apprentissage profond n’est que l’une de ces approches –
l’une des nombreuses méthodes utilisées en apprentissage machine, sous-
discipline de l’IA, dans laquelle les machines « apprennent » à partir de
données ou de leurs propres « expériences ». Pour mieux comprendre
ces diverses différences, il importe de comprendre les causes d’une scission
philosophique survenue dans les premiers temps de la communauté des
chercheurs en IA : la scission entre l’IA dite symbolique et l’IA sub-
symbolique.

L’IA symbolique
Regardons d’abord l’IA symbolique. La connaissance d’un programme d’IA
symbolique se compose de mots ou de phrases (les « symboles »)
généralement compréhensibles par un humain, ainsi que de règles selon
lesquelles ce programme combine et traite ces symboles afin d’effectuer la
tâche qui lui est affectée.
Je vous donne un exemple. L’un des premiers programmes d’IA fut
baptisé en toute confiance General Problem Solver*15, GPS en abrégé,
et désigné ainsi car ces créateurs pensaient qu’il s’agissait d’un algorithme
général de résolution de toute sorte de problèmes. (Désolée pour cette
collision d’acronymes ; le General Problem Solver est antérieur au Global
Positioning System.) Et en effet, ce GPS pouvait résoudre des problèmes
comme celui « des missionnaires et des cannibales », que vous avez peut-
être déjà rencontré dans votre enfance : trois missionnaires et trois
cannibales doivent traverser une rivière, mais leur barque ne peut contenir
que deux personnes. Si à un moment les cannibales (affamés) sont plus
nombreux d’un côté de la rivière que les (appétissants) missionnaires…
bon, vous voyez probablement ce qui se passe. Comment tous les six
arrivent-ils à traverser la rivière sains et saufs ?
Les créateurs du General Problem Solver, les chercheurs en sciences
cognitives Herbert Simon et Allen Newell, avaient enregistré plusieurs
étudiants qui « réfléchissaient à voix haute » pendant qu’ils résolvaient ce
problème et d’autres énigmes logiques. Simon et Newell conçurent alors
leur programme de manière à imiter ce qu’ils estimaient être les processus
de pensée des étudiants.
Je ne vais pas entrer dans les détails du fonctionnement du GPS, mais on
peut percevoir sa nature symbolique en regardant la manière dont
les instructions de ce programme étaient codées. Dans le langage du GPS,
le codage du problème par un humain ressemblerait à peu près à ceci :

ÉTAT ACTUEL :
RIVE-GAUCHE = [3 MISSIONNAIRES, 3 CANNIBALES, 1 BARQUE]
RIVE-DROITE = [VIDE]

ÉTAT SOUHAITÉ
RIVE-GAUCHE = [VIDE]
RIVE-DROITE = [3 MISSIONNAIRES, 3 CANNIBALES, 1 BARQUE]

En français, ces lignes représentent le fait qu’initialement, la rive gauche


de la rivière « contient » trois missionnaires, trois cannibales et une barque,
tandis que la rive droite ne contient rien. L’état souhaité représente le but du
programme – amener tout le monde sur la rive droite de la rivière.
À chaque étape de cette procédure, le GPS tente de modifier l’état
courant pour le rapprocher de l’état souhaité. Dans son code, le programme
contient des « opérateurs » (sous forme de sous-programmes) qui peuvent
transformer l’état courant en un nouvel état et des « règles » qui codent les
contraintes associées à la tâche. Il existe ainsi un opérateur qui déplace un
certain nombre de missionnaires et de cannibales d’un bord à l’autre de la
rivière :

DÉPLACE (#MISSIONNAIRES, #CANNIBALES, DU-BORD, AU-


BORD)

Les mots entre parenthèses s’appellent des arguments, et lorsque le


programme tourne, il remplace ces mots par des nombres ou d’autres mots.
Autrement dit, #MISSIONNAIRES est remplacé par le nombre de
missionnaires à déplacer, #CANNIBALES est remplacé par le nombre de
cannibales à déplacer, et DU-BORD et AU-BORD sont remplacés par
« RIVE-GAUCHE » ou « RIVE-DROITE » en fonction de la rive dont les
missionnaires et les cannibales doivent être déplacés. Le code du
programme « sait » que la barque se déplace avec les missionnaires et les
cannibales.
Avant de pouvoir appliquer l’opérateur « DEPLACE » sur des valeurs
spécifiques qui remplacent les arguments, le programme doit vérifier les
règles qu’il contient. Par exemple, l’opérateur se bloque si jamais le nombre
de personnes dans la barque est supérieur à deux, ou s’il s’avère que son
utilisation entraînera sur une rive un surnombre de cannibales par rapport
aux missionnaires.
Si ces symboles représentent des concepts – missionnaires, cannibales,
barque, rive gauche – interprétables par un être humain, l’ordinateur qui
exécute ce programme ignore bien sûr tout du sens de ces symboles.
Vous pouvez remplacer toutes les occurrences de « MISSIONNAIRES »
par « Z372B » ou toute autre suite quelconque de caractères, le programme
fonctionnera exactement de la même manière. C’est en partie ce à quoi
General fait référence dans General Problem Solver. Pour l’ordinateur, le
« sens » des symboles résulte de la manière dont on peut les combiner, les
lier entre eux, les utiliser.
Les partisans de l’approche symbolique de l’IA soutenaient qu’il n’était
pas nécessaire d’écrire des programmes imitant le cerveau pour parvenir à
l’ordinateur intelligent et qu’un programme de traitement des symboles
suffirait. Certes, le fonctionnement d’un tel programme serait bien plus
complexe que l’exemple des Missionnaires et des Cannibales, mais il
reposerait toujours sur des symboles, des combinaisons de symboles et des
règles et opérations portant sur des symboles. L’IA symbolique de type GPS
a fini par prévaloir durant ses trois premières décennies d’existence, surtout
sous la forme de systèmes experts, où des experts humains concevaient des
règles d’une programmation informatique spécialisée dans le but de
résoudre des problèmes dans des domaines restreints, tels que les
diagnostics médicaux et la prise de décisions juridiques. Il existe plusieurs
branches actives de l’IA qui recourent aujourd’hui encore à l’IA
symbolique ; j’en donnerai quelques exemples plus loin, en particulier
lorsque j’évoquerai les approches du raisonnement et du sens commun via
l’IA.

L’IA sub-symbolique : les perceptrons


Si l’IA symbolique fut initialement inspirée par la logique mathématique et
la manière dont les gens décrivaient leur processus de pensée consciente,
l’approche sub-symbolique de l’IA s’inspira, elle, des neurosciences et
chercha à reproduire les processus de pensée parfois inconscients sous-
tendant ce que certains ont nommé la « perception rapide », telle que la
reconnaissance faciale ou la reconnaissance de la parole. Les programmes
d’IA sub-symboliques ne contiennent pas le type de langage
compréhensible par un humain que nous avons rencontré dans l’exemple
des missionnaires et des cannibales. Au lieu de cela, un programme sub-
symbolique est essentiellement un empilement d’équations – un maquis
d’opérations sur des nombres, souvent difficiles à interpréter. Nous allons le
voir, ces systèmes sont conçus pour apprendre à exécuter une tâche à partir
de données.
L’un des premiers exemples de programme d’IA sub-symbolique inspiré
par la structure du cerveau fut le perceptron, inventé à la fin des années
1950 par le psychologue Frank Rosenblatt*16. À nos oreilles modernes, le
mot perceptron fait un peu science-fiction des années 1950 (il fut
rapidement suivi du « cognitron » et du « néocognitron »), mais le
perceptron fut un jalon important en IA et l’influent arrière-grand-parent de
l’outil le plus performant et le plus abouti de l’IA moderne : le réseau
neuronal profond.
L’invention des perceptrons par Rosenblatt lui fut suggérée par la
manière dont les neurones traitent l’information. Un neurone est une cellule
cérébrale qui reçoit des signaux électriques ou chimiques provenant
d’autres neurones qui lui sont connectés en amont. En gros, un neurone fait
la somme de toutes les entrées qu’il reçoit des autres neurones, et si cette
somme atteint un certain seuil, le neurone se déclenche. Point important, les
connexions (synapses) reliant différents neurones à un neurone donné ont
des « poids » différents, une valeur qui correspond en quelque sorte à la
« conductivité » ou « l’efficacité » de la synapse. En faisant la somme de
ses entrées, le neurone tient compte de leurs poids. Autrement dit, il accorde
plus d’importance aux entrées provenant des connexions plus fortes qu’à
celles issues des connexions plus faibles. Les neurobiologistes pensent que
l’ajustement des poids des connexions entre neurones constitue un élément
clé de l’apprentissage dans le cerveau.
Pour un informaticien (ou, dans le cas de Rosenblatt, un psychologue), le
traitement de l’information par les neurones peut être simulé par un
programme informatique – un perceptron – doté de multiples entrées
numériques et d’une seule sortie. La figure 1 illustre l’analogie entre un
neurone et un perceptron. La figure 1A montre un neurone avec son
arborescence dendritique (les dendrites sont les fibres qui transmettent les
entrées à la cellule), son corps cellulaire et son axone (autrement dit,
le canal de sortie). La figure 1B montre le schéma d’un perceptron
élémentaire. Tel un neurone, le perceptron additionne les valeurs de ses
entrées, pondérées par leurs poids respectifs, et si le résultat est égal ou
supérieur à son seuil, il sort la valeur 1 (il « se déclenche ») ; dans le cas
contraire, il sort la valeur 0 (il « ne se déclenche pas »). Pour simuler la
diversité des poids des connexions à un neurone, Rosenblatt assigna une
valeur numérique à chaque entrée du perceptron correspondant à sa
conductivité. Au moment de comptabiliser la somme des entrées au
neurone, chaque entrée était alors multipliée par son poids. Ce qui entrait
donc au corps cellulaire était la somme des entrées brutes pondérées par
leur poids. Le seuil d’un perceptron est simplement un nombre fixé par le
programmeur (ou, comme nous allons le voir, appris par le perceptron lui-
même).
Figure 1. A. un neurone dans le cerveau. B. un perceptron élémentaire.

En somme, un perceptron est un simple programme qui prend une


décision de type binaire (c’est-à-dire oui-non, 1/0) selon que la somme de
ses entrées pondérées dépasse ou non une valeur de seuil. Il vous arrive
probablement de prendre des décisions de ce type. Par exemple, vous ne
faites pas pareillement confiance à vos amis quand vous leur demandez leur
point de vue sur un film. Si la somme totale de l’« enthousiasme des amis »
– somme qui accorde plus de poids à vos amis les plus fiables – est
suffisamment élevée (c’est-à-dire supérieure à une valeur de seuil
inconsciente), vous décidez d’aller voir le film. C’est ainsi qu’un perceptron
cinéphile prendrait sa décision… si seulement il avait des amis.
S’inspirant des réseaux de neurones cérébraux, Rosenblatt imagina des
réseaux de perceptrons accomplissant des tâches visuelles telles que la
reconnaissance de visages et d’objets. Pour avoir une idée de la façon dont
cela pourrait fonctionner, examinons le cas d’un perceptron qui doit
reconnaître des chiffres manuscrits comme ceux de la figure 2.
Figure 2. Exemple de chiffres manuscrits

Construisons un perceptron détecteur de « 8 » – c’est-à-dire qui sort un 1


si ses entrées proviennent d’une image représentant un 8, et qui sort un 0 si
l’image représente un autre chiffre. La conception d’un tel détecteur exige
(1) que l’on trouve comment transformer une image en un ensemble
d’entrées numériques, et (2) que l’on détermine les valeurs des poids et du
seuil du perceptron, de sorte qu’il donne la sortie correcte (1 pour les « 8 »
et 0 pour les autres chiffres). Je vais donner maintenant quelques détails, car
nous retrouverons nombre d’idées identiques dans ma discussion ultérieure
des réseaux neuronaux et de leur application à la vision par ordinateur.

Les entrées de notre perceptron


La figure 3A montre l’agrandissement d’un 8 manuscrit. Chaque carreau du
quadrillage est un pixel doté d’une « intensité » numérique : les carreaux
blancs ont une intensité nulle, les carreaux noirs ont une intensité égale à 1,
et les carreaux gris une intensité intermédiaire. Supposons que les images
données à notre perceptron aient toutes la même taille que celle-ci : 18 × 18
pixels. La figure 3B donne le schéma d’un perceptron conçu pour la
reconnaissance des chiffres 8. Ce perceptron a 324 (c’est-à-dire 18 × 18)
entrées, dont chacune correspond à un des pixels du quadrillage de 18 × 18
carreaux. Pour chaque image donnée au perceptron, la valeur de chaque
entrée correspond à l’intensité du pixel correspondant. Chaque entrée
possède son propre poids (non indiqué sur la figure).

Figure 3. Un perceptron conçu pour reconnaître les « 8 » manuscrits. Chaque pixel


dans un quadrillage 18 x 18 correspond à une entrée du perceptron.
Il y a donc 324 (= 18 x 18) entrées.

L’apprentissage des poids et du seuil du perceptron


Contrairement au système symbolique du General Problem Solver que j’ai
décrit plus haut, un perceptron ne comporte pas de règles explicites pour
accomplir sa tâche ; tout son « savoir » est codé dans les nombres qui
composent ses poids et son seuil. Dans ses divers articles, Rosenblatt a
montré que si on lui donne les bonnes valeurs de poids et de seuil, un
perceptron comme celui de la figure 3B peut se sortir honorablement de
tâches perceptives telles que la reconnaissance de simples chiffres
manuscrits. Mais comment, exactement, déterminer les bonnes valeurs des
poids et du seuil ? Ici encore, Rosenblatt proposa une solution inspirée de la
structure du cerveau : le perceptron devait apprendre ces valeurs tout seul.
Et comment était-il censé apprendre ces valeurs ? S’appuyant sur les
théories psychologiques behavioristes en vogue à l’époque, l’idée de
Rosenblatt était que les perceptrons devaient apprendre par
conditionnement opérant. S’inspirant en partie des travaux du psychologue
behavioriste B. F. Skinner, qui dressait des rats et des pigeons à accomplir
des tâches en leur donnant des renforcements positifs et négatifs, l’idée de
Rosenblatt était que le perceptron devait être pareillement dressé à partir
d’exemples : il devait être récompensé lorsqu’il « répondait » correctement
– dans notre exemple, quand il disait correctement « oui » quand il y avait
un 8 en entrée – et puni lorsqu’il se trompait (disait qu’il y avait un 8 en
entrée alors qu’il y avait un 6). Cette forme de conditionnement est
aujourd’hui connue en IA sous le nom d’apprentissage supervisé. Durant la
phase d’apprentissage (également appelé phase d’entraînement) le système
reçoit un échantillon, produit une sortie, puis reçoit un « signal de
supervision (ou d’erreur) » indiquant l’écart entre la sortie du système et la
sortie correcte. Le système utilise alors ce signal d’erreur pour ajuster ses
poids et son seuil.
Le concept d’apprentissage supervisé est une composante essentielle de
l’IA moderne et mérite d’être présenté plus en détail. L’apprentissage
supervisé exige typiquement un vaste ensemble d’échantillons positifs (par
exemple, une série de 8 écrits par différentes personnes) et d’échantillons
négatifs (par exemple, un ensemble d’autres chiffres manuscrits ne
contenant aucun 8). Chaque échantillon est étiqueté par un humain qui en
indique la catégorie – en l’occurrence, 8 ou non 8. Cette étiquette sera
utilisée pour déterminer le signal de supervision. Certains échantillons
positifs et négatifs servent à l’apprentissage du système ; ils constituent
l’ensemble d’apprentissage. Le reste – l’ensemble de test – sert à évaluer la
performance du système une fois son apprentissage terminé, autrement dit,
à mesurer la fiabilité de ses réponses pour de nouvelles données qui ne
faisaient pas partie de son ensemble d’apprentissage.
Le mot le plus important en informatique est peut-être algorithme, qui
désigne une série d’instructions que doit suivre un ordinateur afin de
résoudre un problème donné. La principale contribution de Frank
Rosenblatt à l’IA fut sa conception d’un algorithme, appelé l’algorithme
d’apprentissage d’un perceptron, permettant, à partir des données
d’apprentissage, de faire apprendre à un perceptron un ensemble de poids et
un seuil susceptibles de produire des réponses correctes, au moins pour
toutes les données de l’ensemble d’apprentissage. Voici comment ça
fonctionne : au début, les poids et le seuil sont fixés au hasard sur un
intervalle de valeurs comprises entre –1 et 1. Dans notre exemple, le poids
de la première entrée pourrait être 0,2, celui de la deuxième, -0,6, et ainsi de
suite, et le seuil serait fixé à 0,7. Un programme informatique, appelé
générateur de nombres aléatoires, peut facilement générer ces valeurs
initiales.
Nous pouvons maintenant commencer l’apprentissage. On donne au
perceptron une première donnée venant de l’ensemble d’apprentissage ; à
ce stade, le perceptron ne voit pas l’étiquette donnant la bonne catégorie. Il
multiplie chaque entrée par son poids, additionne tous les résultats, compare
la somme obtenue à la valeur de seuil, et sort soit 1 soit 0. Ici, la sortie 1
signifie qu’il suppose qu’il s’agit d’un 8 et la sortie 0 qu’il ne s’agit pas
d’un 8. Maintenant, le processus d’apprentissage compare la sortie du
perceptron à la réponse correcte basée sur l’étiquette humaine (c’est-à-dire
un 1, si la donnée présenté à l’entrée était un 8 ou un 0, s’il s’agissait d’un
autre chiffre). Si la sortie du perceptron est identique à l’étiquette, les poids
et le seuil ne changent pas. Mais si elle est différente, les poids et le seuil
changent légèrement, ce qui, dans cet exemple d’apprentissage, rapproche
de la bonne réponse la somme obtenue par le perceptron. En outre, la
variation de chaque poids dépend non seulement de la valeur du signal de
supervision, mais aussi de la valeur de l’entrée qui lui est associée. Par
exemple, dans le 8 de la figure 3A, les pixels de plus grande intensité (ici,
les noirs) auraient le plus d’impact sur le changement de leurs poids
associés, et les pixels d’intensité nulle (ici, les blancs) n’auraient aucun
impact. (Les lecteurs intéressés trouveront quelques détails mathématiques
dans les notes*17.)
Tout ce processus se répète pour la donnée d’apprentissage suivante. Le
processus d’apprentissage passe de multiples fois par tous les échantillons
d’apprentissage, modifiant légèrement les poids et le seuil chaque fois que
le perceptron commet une erreur. Comme l’a découvert B. F. Skinner en
dressant des pigeons, il est préférable d’apprendre progressivement lors de
nombreux essais ; si les poids et le seuil changeaient trop lors d’un essai, le
système pourrait finir par apprendre une erreur (comme une
surgénéralisation telle que « les moitiés inférieure et supérieure d’un 8 sont
toujours de taille égale. ») Au terme de multiples répétitions sur chacune
des données de l’ensemble d’apprentissage, le système converge (du moins
l’espère-t-on) vers un ensemble de poids et un seuil qui donnent des
réponses correctes pour toutes les données d’apprentissage. À ce stade, on
peut évaluer la fiabilité du perceptron en regardant son comportement face à
des images qu’il n’a pas rencontrées pendant la phase d’apprentissage.
Un détecteur de 8 est utile si vous ne vous intéressez qu’aux 8. Mais
qu’en est-il de la reconnaissance des autres chiffres ? Il est relativement
simple de donner dix sorties à notre perceptron, une pour chaque chiffre.
Pour tout chiffre manuscrit, la sortie correspondante à ce chiffre serait égale
à 1 et toutes les autres sorties seraient égales à 0. Ce perceptron élargi peut
apprendre tous ses poids et tous ses seuils en utilisant l’algorithme
d’apprentissage du perceptron ; il suffit d’utiliser un ensemble
d’apprentissage suffisamment important.
Rosenblatt et d’autres chercheurs ont montré que des réseaux de
perceptrons pouvaient apprendre des tâches perceptives relativement
simples ; en outre, Rosenblatt a démontré mathématiquement que pour une
certaine famille de tâches, très limitée néanmoins, des perceptrons
suffisamment entraînés pouvaient, en principe, apprendre à exécuter ces
tâches sans la moindre erreur. Ce qui n’était pas clair, toutefois, c’était la
performance des perceptrons pour des tâches d’IA plus générales. Cette
incertitude n’a pourtant pas empêché Rosenblatt et ses bailleurs de fonds de
l’Office of Naval Research de faire des prédictions ridiculement optimistes
sur les capacités du perceptron. Résumant une conférence de presse tenue
par Rosenblatt en juillet 1958, le New York Times écrivit :

La Marine a révélé aujourd’hui l’existence d’un embryon d’ordinateur


électronique qui pourra, selon elle, marcher, parler, voir, écrire, se
reproduire et être conscient de son existence. Selon certaines prédictions,
les futurs perceptrons seront capables de reconnaître des personnes, de dire
leurs noms et de traduire instantanément, oralement ou par écrit, les paroles
d’une langue dans une autre langue*18.

Oui, même à ses tout débuts, l’IA connut une médiatisation exagérée. Je
reviendrai plus loin sur les regrettables conséquences de cette médiatisation.
Mais pour l’instant, je vais me servir des perceptrons pour mettre en
lumière une différence majeure entre les approches symbolique et sub-
symbolique de l’IA.
Le fait que les « connaissances » d’un perceptron consistent en un
ensemble de nombres – à savoir les poids et le seuil qu’il a appris – signifie
qu’il est difficile de découvrir les règles utilisées par le perceptron pour
effectuer son travail de reconnaissance. Ses règles ne sont pas symboliques ;
contrairement aux symboles du General Problem Solver, tels que RIVE-
GAUCHE, #MISSIONNAIRES et DÉPLACE, les poids et le seuil d’un
perceptron ne représentent pas des concepts particuliers. Il n’est pas facile
de convertir ces nombres en règles compréhensibles par des humains. La
situation se complique énormément avec les réseaux neuronaux modernes
et leurs millions de poids.
On pourrait faire une analogie sommaire entre les perceptrons et le
cerveau humain. Si je pouvais ouvrir votre crâne et observer les décharges
d’un sous-ensemble de vos centaines de milliards de neurones, je
n’obtiendrais probablement aucune information sur ce à quoi vous étiez en
train de penser ou sur les « règles » que vous avez utilisées pour prendre
telle ou telle décision. Le cerveau humain a toutefois donné naissance au
langage, qui vous permet d’utiliser des symboles (des mots et des phrases)
pour me dire – souvent de manière imparfaite – ce à quoi vous pensez ou
pourquoi vous avez fait telle ou telle chose. C’est en ce sens que nos
déclenchements neuronaux peuvent être considérés comme sub-
symboliques, dans la mesure où ils sous-tendent les symboles que nos
cerveaux créent on ne sait comment. Les perceptrons, tout comme les
réseaux de neurones simulés plus complexes, peuvent être qualifiés de
« sub-symboliques » par analogie avec le cerveau. Leurs partisans pensent
que pour parvenir à l’intelligence artificielle, les symboles linguistiques et
les règles qui régissent le traitement de ces symboles ne peuvent être
programmés directement, comme cela a été fait pour le General Problem
Solver, mais doivent émerger d’architectures neuronales à l’instar du
traitement intelligent des symboles qui émerge du cerveau.

Les limites des perceptrons


Après la rencontre de Dartmouth, en 1956, le camp symbolique domina le
paysage de l’IA. Au début des années 1960, tandis que Rosenblatt travaillait
avec ardeur sur le perceptron, les quatre grands « fondateurs » de l’IA, tous
partisans convaincus du camp symbolique, avaient créé d’influents – et bien
financés – laboratoires d’IA : Marvin Minsky au MIT, John McCarthy à
Stanford, et Herbert Simon et Allen Newell à Carnegie Mellon. (Fait
remarquable, ces trois universités comptent aujourd’hui encore parmi les
endroits les plus prestigieux pour étudier l’IA.) Minsky, en particulier,
considérait que l’approche neurobiologique inspirée de Rosenblatt, non
seulement était une approche sans lendemain, mais en outre détournait de
l’argent qui aurait été mieux utilisé en finançant des recherches sur l’IA
symbolique*19. En 1969, Minsky et son collègue du MIT Seymour Papert,
publièrent un livre, Perceptrons*20, dans lequel ils démontraient
mathématiquement que les types de problèmes susceptibles d’être
parfaitement résolus par un perceptron étaient très limités et que
l’algorithme d’apprentissage du perceptron ne se montrait pas à la hauteur
pour des tâches requérant un grand nombre de poids et de seuils.
Minsky et Papert firent remarquer que si l’on augmente un perceptron en
lui ajoutant une « couche » de neurones simulés, les types de problèmes
qu’un tel dispositif peut résoudre sont, en principe, bien plus importants*21.
Un perceptron doté d’une telle couche supplémentaire s’appelle un réseau
neuronal multicouche. De tels réseaux constituent les fondements d’une
grande part de l’IA moderne ; je les décrirai en détail au prochain chapitre.
Pour l’instant, je me borne à signaler qu’à l’époque du livre de Minsky et
Papert, les réseaux neuronaux multicouches n’étaient pas beaucoup étudiés,
en grande partie parce qu’il n’existait pas d’algorithme général, analogue à
l’algorithme d’apprentissage du perceptron, permettant d’ajuster tous les
poids et les seuils.
Les limitations dont Minsky et Papert démontraient l’existence pour les
perceptrons élémentaires étaient déjà connues des chercheurs travaillant sur
le sujet*22. Frank Rosenblatt lui-même avait abondamment travaillé sur les
perceptrons multicouches et reconnaissait la difficulté que posait leur
apprentissage*23. Ce fut moins la démonstration de Minsky et Papert que
leur spéculation sur les réseaux neuronaux multicouches qui porta le coup
de grâce au perceptron :

De nombreuses caractéristiques [du perceptron] attirent l’attention : sa


linéarité ; son intrigant théorème d’apprentissage ; son évidente simplicité
paradigmatique en tant que calcul parallèle. Il n’y a aucune raison de
supposer que le moindre de ces avantages se retrouve dans la version
multicouche. Nous estimons néanmoins important de clarifier (ou rejeter)
notre jugement intuitif sur la stérilité de cette extension*24.

Aïe. Dans le langage d’aujourd’hui, cette dernière phrase pourrait être


qualifiée de « passive agressive ». Ces spéculations négatives expliquent en
partie pourquoi le financement de la recherche sur les réseaux neuronaux
s’est tari à la fin des années 1960, tandis que l’IA symbolique se voyait
inondée de dollars gouvernementaux. En 1971, âgé de quarante-trois ans,
Frank Rosenblatt mourut lors d’un accident de bateau. Privée de son plus
éminent partisan et d’une bonne part des subventions gouvernementales, la
recherche sur les perceptrons et d’autres méthodes d’IA sub-symbolique ne
subsista plus que dans quelques équipes universitaires isolées.

L’hiver de l’IA
Pendant ce temps, les partisans de l’IA symbolique déposaient des
demandes de subventions prometteuses d’imminentes percées dans des
domaines tels que la compréhension de la parole et du langage, le
raisonnement de sens commun, la navigation de robots, et les véhicules
autonomes. Au milieu des années 1970, tandis que l’on réussissait à
déployer des systèmes experts hyperspécialisés, les percées plus générales
promises en IA ne s’étaient pas encore matérialisées.
Les agences de financement le remarquèrent. Deux rapports, commandés
respectivement par le Conseil de la Recherche Scientifique britannique et le
Département de la Défense des États-Unis, se montrèrent très négatifs
envers les progrès et les perspectives qui s’offraient à la recherche en IA. Le
rapport britannique, en particulier, reconnaissait que le secteur des systèmes
experts spécialisés – « les programmes écrits pour opérer dans des
domaines hautement spécialisés, où la programmation tient pleinement
compte des résultats de l’expérience humaine et de l’intelligence humaine
dans le domaine concerné » – s’avérait prometteur, mais concluait qu’à ce
jour, les résultats étaient « totalement décourageants pour ce qui intéresse
les programmes généralistes qui, dans un large éventail de domaines,
cherchent à imiter l’activité [cérébrale] humaine lors de la résolution de
problèmes. Un tel programme généraliste – objectif depuis longtemps
convoité de l’IA – semble plus éloigné que jamais. »*25 Ce rapport entraîna
une nette réduction des subventions gouvernementales pour la recherche
britannique en IA ; de même, aux États-Unis, le Département de la Défense
réduisit drastiquement les subventions de la recherche fondamentale en IA.
Ce fut l’un des premiers exemples d’un cycle répétitif de bulles et de
krachs dans le domaine de l’IA. Ce cycle à deux temps se déroule comme
suit. Phase 1 : de nouvelles idées génèrent un énorme optimisme dans la
communauté des chercheurs. On annonce, souvent à grand renfort de
publicité, l’imminence de percées de grande envergure en IA. L’argent des
bailleurs de fonds gouvernementaux et des investisseurs privés se déverse
sur les équipes de recherche universitaires et les start-up commerciales.
Phase 2 : les percées annoncées ne sont pas au rendez-vous ou sont bien
moins impressionnantes que promis. L’argent des bailleurs de fonds
gouvernementaux et des investisseurs privés se tarit. Les start-up
disparaissent et la recherche sur l’IA ralentit. Ce phénomène, d’un
« printemps de l’IA », suivi d’un battage médiatique hyperprometteur, suivi
d’un « hiver de l’IA », est bien connu de la communauté de l’IA. C’est
arrivé, de manière plus ou moins marquée, lors de cycles de cinq à dix ans.
Quand j’ai obtenu mon doctorat, en 1990, l’IA traversait l’un de ses hivers
et projetait une image si négative que l’on m’a conseillé de ne pas utiliser
l’expression « intelligence artificielle » dans mes demandes d’emploi.

Les choses faciles sont difficiles


Les froids hivers de l’IA ont enseigné d’importantes leçons à ses praticiens.
La plus simple d’entre elles fut remarquée par John McCarthy, cinquante
ans après la conférence de Dartmouth : « L’IA était plus difficile que nous
ne le pensions. »*26 Marvin Minsky souligna qu’en fait, la recherche en IA a
découvert un paradoxe : « Les choses faciles sont difficiles. » Les objectifs
initiaux de l’IA – des ordinateurs capables de converser avec nous dans
notre langue naturelle, de décrire ce qu’ils voient avec leurs yeux caméras,
d’apprendre de nouveaux concepts en en voyant seulement quelques
exemples – sont des choses que de jeunes enfants peuvent faire facilement,
mais curieusement, ces « choses faciles » se sont révélées bien plus
difficiles pour l’IA que diagnostiquer des maladies complexes, battre des
champions humains aux échecs et au go, et résoudre de complexes
problèmes d’algèbre. Comme l’a également dit Minsky, « En général, nous
avons moins conscience de ce que notre esprit fait le mieux. »*27 La
tentative de créer une intelligence artificielle nous a au moins aidés à
percevoir à quel point notre esprit est complexe et subtil.
2

Les réseaux neuronaux et l’ascension


de l’apprentissage machine

Alerte spoiler : les réseaux neuronaux multicouches – extension des


perceptrons dont Minsky et Papert estimaient qu’elle était probablement
« stérile » – se sont en fait avérés constituer le fondement d’une bonne part
de l’intelligence artificielle moderne. Comme ils sont à l’origine de
plusieurs méthodes que je vais décrire dans les prochains chapitres, je vais
maintenant expliquer leur fonctionnement.

Les réseaux neuronaux multicouches


Un réseau est simplement un ensemble d’éléments connectés de diverses
manières. Nous connaissons tous les réseaux sociaux, dans lesquels les
éléments sont des gens, et les réseaux informatiques, dans lesquels les
éléments sont, bien entendu, des ordinateurs. Dans les réseaux neuronaux,
les éléments sont des neurones simulés analogues aux perceptrons que j’ai
décrits dans le précédent chapitre.
La figure 4 montre un simple réseau neuronal multicouche, conçu pour
reconnaître des chiffres manuscrits. Ce réseau comprend deux colonnes
(couches) de neurones simulés de type perceptron (cercles). Par souci de
simplicité (et probablement au grand soulagement de tout neurobiologiste
qui lira ces lignes), j’utiliserai le terme unité au lieu de neurone simulé pour
décrire les éléments de ce réseau. Comme le perceptron détecteur de 8 du
chapitre 1, le réseau de cette figure 4 a 324 (18 × 18) entrées, chacune
réglée sur la valeur de l’intensité du pixel correspondant dans l’image
d’entrée. Mais contrairement au perceptron, ce réseau possède une couche
de trois unités, dites cachées, en plus de sa couche de dix unités de sortie.
Chaque unité de sortie correspond à un des dix chiffres possibles.
Figure 4. Un réseau de neurones à deux couches conçu pour la reconnaissance
des chiffres manuscrits.

Les grosses flèches grises signifient que chaque unité dans la couche
d’entrées a une connexion pondérée avec chaque unité cachée, et que
chaque unité cachée a une connexion pondérée avec chaque unité de sortie.
Le terme mystérieux d’unité cachée vient de la littérature sur les réseaux
neuronaux ; il signifie simplement qu’il ne s’agit pas d’une unité de sortie.
Un nom plus heureux aurait peut-être été unité intérieure.
Pensez à la structure de votre cerveau : quelques neurones y contrôlent
directement des « sorties » telles que les mouvements de vos muscles, mais
la plupart d’entre eux ne font que communiquer avec d’autres neurones. On
pourrait appeler ces derniers les neurones cachés du cerveau.
Le réseau montré à la figure 4 est qualifié de « multicouche » parce qu’il
contient deux couches d’unités (cachées et de sortie) au lieu d’une seule
couche de sortie. En principe, un réseau multicouche peut avoir de
multiples couches d’unités cachées ; les réseaux qui ont plus d’une couche
d’unités cachées s’appellent des réseaux profonds. La « profondeur » d’un
réseau est simplement son nombre de couches cachées. Je reviendrai plus
en longueur sur les réseaux profonds dans les prochains chapitres.
À l’instar des perceptrons, chaque unité reçoit la somme des valeurs de
chacune de ses entrées, multipliées par leurs poids respectifs. Mais
contrairement à ce qui se passe dans un perceptron, le « déclenchement » ou
le « non-déclenchement » (c’est-à-dire la sortie 1 ou la sortie 0) d’une unité
ne dépend pas simplement d’un seuil ; chaque unité utilise sa somme pour
calculer un nombre compris entre 0 et 1, appelé « activation » de l’unité. Si
la somme obtenue par l’unité est faible, l’activation de cette unité sera
proche de 0 ; si cette somme est élevée, l’activation sera proche de 1.
(Les lecteurs intéressés trouveront quelques détails mathématiques dans les
notes*1.)
Pour traiter une image telle que le 8 manuscrit de la figure 4, le réseau
effectue ses calculs couche par couche, de la gauche vers la droite. Chaque
unité cachée calcule sa valeur d’activation ; ces valeurs d’activation
deviennent alors les entrées pour les unités de sortie, qui alors calculent
leurs propres activations. Dans le réseau de la figure 4, on peut considérer
que l’activation d’une unité de sortie correspond à la confiance avec
laquelle le réseau « voit » en entrée le chiffre correspondant ; l’unité de
sortie la plus activée peut être considérée comme la réponse du réseau –
comme sa classification.
En principe, un réseau neuronal multicouche peut apprendre à utiliser ses
unités cachées pour reconnaître des caractéristiques plus abstraites (par
exemple, des formes visuelles telles que les « cercles » du haut et du bas sur
un 8 manuscrit) que de simples caractéristiques (par exemple, des pixels)
codées par l’entrée. En règle générale, pour l’accomplissement d’une tâche
donnée, il est difficile de savoir à l’avance le nombre de couches cachées
nécessaire ou le nombre d’unités cachées à inclure dans ses couches. La
plupart des chercheurs sur les réseaux neuronaux procèdent par essais et
erreurs pour trouver la meilleure combinaison.

L’apprentissage par rétropropagation


Dans leur livre Perceptrons, Minsky et Papert doutaient que l’on puisse
concevoir un algorithme capable d’ajuster les poids d’un réseau neuronal
multicouche. Leur scepticisme (renforcé par le doute d’autres membres de
la communauté de l’IA symbolique) fut en grande partie responsable du net
déclin, dans les années 1970, du financement de la recherche sur les réseaux
neuronaux. Mais malgré le froid jeté par le livre de Minsky et Papert dans
cette discipline, une poignée de chercheurs sur les réseaux neuronaux
continuèrent leurs travaux, en particulier dans la propre discipline de Frank
Rosenblatt, la psychologie cognitive. Et vers la fin des années 1970 et au
début des années 1980, plusieurs de ces groupes avaient définitivement
infirmé les spéculations de Minsky et Papert sur la « stérilité » des réseaux
neuronaux multicouches en développant un algorithme d’apprentissage
général – appelé rétropropagation – pour l’ajustement des poids dans toutes
les couches de ces réseaux, permettant l’entraînement des réseaux
multicouches,
Comme son nom l’indique, la rétropropagation est une manière de
prendre une erreur observée au niveau des unités de sortie (par exemple,
une grande confiance dans le mauvais chiffre dans l’exemple de la figure 4)
et de « propager » en arrière la responsabilité de cette erreur (dans la
figure 4, de la droite vers la gauche) de façon à attribuer leur part de
responsabilité pour l’erreur en sortie à chacun des poids du réseau. Cela
permet à la rétropropagation de déterminer l’ampleur de la modification
nécessaire de chaque poids pour conduire à une réduction de cette erreur.
L’apprentissage dans les réseaux neuronaux consiste simplement à modifier
progressivement les poids des connexions de sorte que chaque erreur de
sortie soit le plus proche de 0 pour chacun des items d’apprentissage. Les
mathématiques de la rétropropagation dépassent le cadre de ce livre ; le
lecteur intéressé en trouvera quelques détails dans les notes*2.
La rétropropagation fonctionne (du moins en principe) quel que soit le
nombre d’entrées, d’unités cachées, ou d’unités de sortie du réseau
neuronal. Si rien ne garantit mathématiquement qu’elle va converger sur les
bonnes valeurs des poids pour un réseau donné, en pratique, la
rétropropagation fonctionne très bien pour de nombreuses tâches trop
difficiles pour un simple perceptron. Par exemple, j’ai comparé les
performances d’un perceptron et d’un réseau neuronal à deux couches,
chacun doté de 324 entrées et de 10 sorties, à la reconnaissance de chiffres
manuscrits, en entraînant les deux réseaux sur 60 000 échantillons
d’apprentissage. J’ai ensuite testé leurs performances sur 10 000 nouveaux
échantillons de chiffres. Le perceptron a eu un taux de réussite de 80 % sur
ces nouveaux échantillons, tandis que le réseau neuronal, avec 50 unités
cachées, a connu une réussite faramineuse de 94 %. Victoire aux unités
cachées ! Mais qu’a exactement appris le réseau neuronal pour dépasser de
si loin la performance du perceptron ? Je n’en sais rien. Peut-être pourrais-
je trouver un moyen de visualiser les 16 700 poids*3 du réseau neuronal
pour me faire une idée des raisons de sa supériorité, mais je n’ai pas essayé,
et en général, il n’est pas du tout facile de comprendre comment ces réseaux
prennent leurs décisions.
Soulignons que les réseaux neuronaux s’appliquent aussi bien à la
reconnaissance d’images – ici des chiffres manuscrits – qu’à des domaines
aussi divers que la reconnaissance de la parole, la prévision boursière, la
traduction et la composition musicale.

Le connexionnisme
Dans les années 1980, le groupe de spécialistes des réseaux neuronaux le
plus en vue était une équipe de l’Université de Californie, à San Diego,
dirigée par deux psychologues, David Rumelhart et James McClelland. Ce
que nous appelons aujourd’hui réseaux neuronaux était alors généralement
appelé réseaux connexionnistes, le mot connexionniste renvoyant à l’idée
que les connaissances de ces réseaux résident dans des connexions
pondérées entre unités. L’équipe dirigée par Rumelhart et McClelland est
célèbre pour avoir écrit la prétendue bible du connexionnisme – un traité en
deux volumes publié en 1986 et intitulé Parallel Distributed Processing.
Dans un environnement d’IA dominé par l’IA symbolique, ce livre fut un
encouragement adressé à l’approche subsymbolique disant que « les gens
sont plus intelligents que les ordinateurs actuels parce que le cerveau repose
sur une architecture computationnelle plus adaptée aux […] tâches de
traitement naturel de l’information dans lesquelles excellent les humains, »
par exemple, « percevoir des objets dans des scènes naturelles et remarquer
les relations entre eux, […] comprendre une langue, et retrouver de
mémoire des informations contextuellement appropriées. »*4 Les auteurs ont
émis l’hypothèse que « les systèmes symboliques semblables à ceux
privilégiés par Minsky et Papert »*5 seraient incapables de reproduire ces
aptitudes humaines.
De fait, au milieu des années 1980, les systèmes experts – des approches
de l’IA symbolique qui reposent sur des humains pour créer les règles
reflétant une expertise dans un domaine particulier – se révélèrent de plus
en plus fragiles, c’est-à-dire sujets aux erreurs, et souvent incapables de
généraliser ou de s’adapter à de nouvelles situations. En analysant les
limitations de ces systèmes, les chercheurs découvrirent à quel point les
règles édictées par les experts humains dépendaient d’une connaissance
subconsciente – d’une sorte de sens commun – afin d’agir intelligemment.
Ce type de sens commun était difficilement reproductible par des règles de
programmation ou par la déduction logique, et son absence limitait
sévèrement toute application générale des méthodes de l’IA symbolique.
En somme, après une période de grandes promesses, d’énormes
financements et de battage médiatique, l’IA symbolique sombrait dans un
autre hiver.
Selon les partisans du connexionnisme, la clé de l’intelligence était une
architecture computationnelle adéquate – s’appuyant dans ses grandes
lignes sur l’architecture du cerveau – et la capacité du système à apprendre
seul à partir de ses propres données ou de ses interactions dans le monde.
Rumelhart, McClelland et leur équipe construisirent des réseaux
connexionnistes (sous forme logicielle) destinés à être des modèles
scientifiques du développement humain de l’apprentissage, de la perception
et du langage. Si ces réseaux ne faisaient nulle part montre de performances
proches d’un niveau humain, ceux décrits notamment dans les deux
volumes de Parallel Distributed Processing étaient suffisamment
intéressants en tant qu’artefacts de l’IA pour que nombre de gens les
remarquent, et parmi eux ceux qui travaillaient dans les agences de
financement. En 1988, un haut responsable de la Defense Advanced
Research Projects Agency (DARPA, Agence pour les projets de recherche
avancée de défense), principale pourvoyeuse du financement de l’IA,
déclara : « Je crois que cette technologie [les réseaux neuronaux] dans
laquelle nous sommes sur le point de nous embarquer est plus importante
que la bombe atomique. »*6 Soudain, les réseaux neuronaux étaient de
nouveau à la mode.

Mauvais en logique, bons au frisbee


Lors des six dernières décennies de recherches en IA, les gens n’ont cessé
de débattre des avantages et des inconvénients respectifs des approches
symboliques et subsymboliques. Les systèmes symboliques peuvent être
conçus par des êtres humains, être pétris de savoir humain et utiliser un
raisonnement compréhensible par des humains pour résoudre des
problèmes. Par exemple, MYCIN, un système expert développé au début
des années 1970, était doté de quelque six cents règles qu’il utilisait pour
aider les médecins à diagnostiquer et traiter des maladies sanguines. Ses
programmeurs ont élaboré ces règles à l’issue de minutieux entretiens avec
des médecins spécialistes. Partant des symptômes d’un patient et des
résultats de tests médicaux, MYCIN était capable non seulement d’allier ses
règles à un raisonnement à la fois logique et probabiliste pour générer un
diagnostic, mais aussi d’expliquer son raisonnement. En somme, MYCIN
était un exemple paradigmatique de l’IA symbolique.
En revanche, nous l’avons vu, les systèmes subsymboliques sont
généralement difficiles à interpréter, et personne ne sait explicitement
programmer un savoir humain complexe ou de la logique dans ces
systèmes. Ils semblent bien mieux adaptés aux tâches perceptuelles ou
motrices pour lesquelles les humains peinent à définir des règles. Il vous
serait difficile d’écrire des règles pour identifier des chiffres manuscrits,
attraper une balle de base-ball, ou reconnaître la voix de votre mère ; tout
cela semble se faire automatiquement, sans pensée consciente. Comme l’a
dit le philosophe Andy Clark, la nature des systèmes subsymboliques est
d’être « mauvais en logique, bons au frisbee »*7.
Pourquoi alors ne pas simplement utiliser les systèmes symboliques pour
les tâches exigeant des descriptions verbales et des raisonnements logiques
de haut niveau, et réserver les systèmes subsymboliques pour les tâches
perceptuelles de bas niveau telles que les reconnaissances faciale et vocale ?
Dans une certaine mesure, c’est ce qui a été fait en IA, avec très peu de
connexions entre ces deux domaines. Chacune de ces approches a connu
d’importants succès dans des domaines restreints mais rencontre de
sérieuses difficultés pour atteindre les objectifs originels de l’IA. Si
quelques tentatives ont cherché à construire des systèmes hybrides intégrant
à la fois des méthodes subsymboliques et symboliques, aucune ne s’est
jusqu’à présent soldée par un véritable succès.

L’ascension de l’apprentissage machine


Inspirés par la statistique et la théorie des probabilités, les chercheurs en IA
ont développé de nombreux algorithmes permettant aux ordinateurs
d’apprendre à partir des données, et l’apprentissage machine est devenu une
sous-discipline à part entière de l’IA, délibérément distincte de l’IA
symbolique. Pour les chercheurs en apprentissage machine, les méthodes de
l’IA symbolique tombent dans le panier dépassé de ce qu’ils appellent la
BOVIA (« Bonne Vielle Intelligence Artificielle » ou GOFAI, « Good Old-
Fashioned AI » en anglais) et sont systématiquement refusées*8.
Lors des deux décennies suivantes, l’apprentissage machine eut ses
propres cycles d’optimisme, de financements gouvernementaux, de start-up
et de promesses excessives, suivis des inévitables hivers. La mise au point
de réseaux neuronaux et de méthodes similaires pour résoudre les
problèmes du monde réel fut parfois extrêmement lente et manqua souvent
d’efficacité en raison du peu de données et de la faible puissance
informatique disponibles à l’époque. Mais l’accroissement massif des
données disponibles pour l’entraînement des réseaux grâce à l’Internet,
couplé à la forte montée en puissance des ordinateurs, préparaient la
prochaine grande révolution de l’IA.
3

Le printemps de l’IA

Fièvre printanière
Avez-vous déjà pris et téléchargé sur YouTube une vidéo de votre chat ? Si
oui, vous n’êtes pas le seul. Plus d’un milliard de vidéos ont été mises sur
YouTube, et nombre d’entre elles mettent en scène des chats. En 2012, une
équipe de chercheurs en IA de chez Google a construit un réseau neuronal
multicouche doté de plus d’un milliard de poids qui « visionna » des
millions de vidéos YouTube prises au hasard tout en réglant ces poids afin
de compresser puis décompresser des images extraites de ces vidéos. Ces
chercheurs ne demandaient pas au système d’apprendre quoi que ce soit sur
des objets particuliers, mais au bout d’une semaine d’apprentissage,
lorsqu’ils examinèrent les entrailles du réseau, ils y trouvèrent un
« neurone » (une unité) qui semblait encoder les chats*1. Cette machine
autodidacte de reconnaissance de chats fut l’une d’une série
d’impressionnantes réussites de l’IA qui captèrent l’attention du grand
public lors de cette dernière décennie. La plupart de ces accomplissements
reposent sur un ensemble d’algorithmes de réseaux neuronaux appelé
« apprentissage profond ».
Il y a peu de temps encore, l’image populaire de l’IA provenait en grande
partie des nombreux films et émissions télévisées dans lesquels elle tenait
un rôle central ; pensez à 2001, l’Odyssée de l’espace ou à Terminator. L’IA
du monde réel occupait une place très réduite dans notre vie quotidienne ou
les médias grand public. Si vous avez atteint votre majorité dans les années
1990 ou avant, vous vous souvenez peut-être de vos rencontres frustrantes
avec les systèmes de reconnaissance vocale des services clients, du jouet
robotique Furby qui apprenait des mots, ou de l’ennuyeux et infortuné
Clippy, le trombone assistant virtuel de Microsoft. Une véritable IA ne
semblait pas imminente.
C’est peut-être pour cette raison que tant de gens furent choqués et
perturbés lorsqu’en 1997, l’ordinateur Deep Blue d’IBM, spécialiste du jeu
d’échecs, battit le champion du monde d’échecs Garry Kasparov. Cet
événement étonna tellement Kasparov qu’il accusa de tricherie l’équipe
d’IBM ; pour avoir aussi bien joué, dit-il, la machine ne pouvait qu’avoir
reçu l’aide d’experts humains*2. (Une douce ironie inversa la situation lors
du Championnat du monde d’échecs en 2006 : un joueur accusa l’autre
d’avoir triché en recevant l’aide d’un ordinateur*3.)
Notre angoisse collective face à Deep Blue s’est rapidement dissipée.
Nous avons accepté que les joueurs d’échecs s’inclinent de temps en temps
devant la force brute des machines ; être un bon joueur d’échecs, avons-
nous fini par admettre, n’exige pas une intelligence générale, contrairement
à ce que tout le monde pensait avant la défaite de Kasparov. Cela semble
être une réponse courante lorsque les ordinateurs surpassent les humains
dans un domaine particulier ; nous concluons que le domaine en question ne
fait pas véritablement appel à l’intelligence. Comme l’a regretté John
McCarthy, « dès qu’elle fonctionne, plus personne ne l’appelle IA »*4.
Toutefois, à partir du milieu des années 2000, des succès plus durables de
l’IA commencèrent à se succéder, qui ensuite proliférèrent à un rythme
vertigineux. Google lança son service de traduction automatique, Google
Translate. Il n’était pas parfait, mais il fonctionnait étonnamment bien et
s’est depuis significativement amélioré. Peu après, les voitures autonomes
de Google apparurent sur les routes du nord de la Californie, prudentes et
timides, mais se déplaçant toutes seules au beau milieu d’un intense trafic.
Des assistants virtuels tels que Siri pour Apple et Alexa pour Amazon
furent installés sur nos téléphones et dans nos maisons, capables de traiter
nombre de nos demandes vocales. YouTube commença de doter
automatiquement les vidéos de sous-titres incroyablement précis et Skype
offrit des traductions simultanées entre diverses langues lors d’appels vidéo.
Soudain Facebook put reconnaître avec une inquiétante efficacité votre
visage sur des photos téléchargées, et le site de partage de photos Flickr
commença à accoler automatiquement aux photos un texte décrivant leur
contenu.
En 2011, le programme Watson d’IBM battit à plate couture des
champions humains du jeu télévisé Jeopardy! en interprétant habilement les
indices pleins de jeux de mots et en amenant l’adversaire qu’il avait battu,
Ken Jennings, le meilleur joueur (humain) de Jeopardy! de tous les temps, à
« accueillir nos nouveaux suzerains informatiques. » Cinq petites années
plus tard, des millions d’internautes découvrirent l’existence du complexe
jeu de go – un grand défi de longue date pour l’IA – lorsqu’un programme
appelé AlphaGo battit magnifiquement l’un des meilleurs joueurs du monde
en remportant quatre des cinq parties de l’affrontement.
Le battage médiatique sur l’intelligence artificielle devint rapidement
assourdissant, et le milieu commercial en prit bonne note. Toutes les plus
grosses entreprises technologiques investirent des milliards de dollars dans
la recherche et développement en IA, soit en recrutant directement des
experts en IA, soit en acquérant de petites start-up dans le seul but
d’accaparer leurs talents (c’est le acqui-hiring). La possibilité d’être acquis,
avec sa promesse d’élévation instantanée au statut de millionnaire, a nourri
la prolifération de start-up, souvent fondées et dirigées par d’anciens
professeurs d’université, chacun avec sa propre vision de l’IA. Comme
l’observa le journaliste spécialiste de la technologie Kevin Kelly, « les plans
de développement des 10 000 prochaines start-up sont faciles à prévoir :
prenez X et ajouter IA. »*5 Et point crucial, pour presque toutes ces
entreprises, IA signifiait « apprentissage profond ».
Le printemps de l’IA est une nouvelle fois de retour.

L’IA : étroite et générale, faible et forte


Comme tous ceux qui l’ont précédé, l’actuel printemps de l’IA met en scène
des experts qui prédisent que « l’IA générale » – celle qui égale ou surpasse
les humains dans la plupart des cas – sera bientôt là. « Le niveau humain de
l’IA sera franchi au milieu des années 2020, »*6 prédisait en 2008 Shane
Legg, cofondateur de Google DeepMind. En 2015, le directeur général de
FaceBook, Mark Zuckerberg, déclarait : « L’un de nos objectifs pour les
cinq à dix prochaines années est fondamentalement de dépasser le niveau
humain dans tous les sens humains primaires : la vue, l’ouïe, le langage, la
cognition générale. »*7 Selon un sondage de 2013 publié par les philosophes
de l’IA Vincent Müller et Nick Bostrom, nombre de chercheurs en IA
estiment à 50 % les chances pour que l’IA atteigne le niveau humain en
2040*8.
Si cet optimisme est en majeure partie motivé par les récents succès de
l’apprentissage profond, ces programmes – comme tous les programmes de
l’IA à ce jour – restent des exemples d’IA dite « étroite » ou « faible ». Ces
termes ne sont pas aussi dépréciatifs qu’il y paraît ; ils renvoient
simplement à un système qui ne peut effectuer qu’une seule tâche
étroitement définie (ou un petit ensemble de tâches associées). AlphaGo est
peut-être le meilleur joueur de go du monde, mais il ne sait rien faire
d’autre ; il ne sait même pas jouer aux dames, au morpion, ou au Candy
Land*9. Google Translate peut traduire en chinois une critique de film
rédigée en anglais, mais il ne peut vous dire si son auteur a ou non aimé le
film, et encore moins regarder lui-même le film et en faire la critique.
Les termes étroite et faible servent à marquer un contraste avec l’IA
forte, de niveau humain, générale ou complète (appelée AGI en anglais
pour Artificial General Intelligence) – autrement dit, l’IA que l’on voit dans
les films, qui peut faire la plupart des tâches que nous autres, humains,
pouvons faire, et éventuellement bien plus. L’objectif initial de cette
discipline est peut-être l’IA générale, mais il s’avère bien plus difficile à
atteindre que prévu. Avec le temps, la recherche en IA s’est focalisée sur
des tâches bien précises – la reconnaissance de la parole, le jeu d’échecs, la
conduite autonome, etc. La création de machines qui accomplissent ces
tâches est utile et souvent lucrative, et l’on pourrait dire que chacune de ces
tâches nécessite individuellement de l’« intelligence ». Mais aucun
programme d’IA n’a encore été écrit que l’on pourrait qualifier d’intelligent
dans un sens général. Un récent article d’évaluation l’a très bien dit : « Une
accumulation d’intelligences étroites ne mènera jamais à une intelligence
générale. L’intelligence générale dépend non pas du nombre d’aptitudes,
mais de l’intégration de ces aptitudes. »*10
Mais attendez. Étant donné la vitesse de prolifération des intelligences
étroites, combien de temps s’écoulera-t-il avant que l’on trouve comment
les intégrer pour obtenir toutes les caractéristiques globales, profondes et
subtiles de l’intelligence humaine ? Devons-nous croire le chercheur
cognitiviste Steven Pinker qui pense que cette prolifération ne change rien ?
« L’IA de niveau humain restera l’objectif standard pour les quinze à vingt-
cinq prochaines années, comme elle l’a toujours été, et bon nombre de ses
progrès récemment proclamés reposent sur des fondements fragiles, » dit-
il*11. Ou devons-nous accorder plus d’attention aux optimistes de l’IA, qui
sont certains que cette fois-ci, durant ce printemps de l’IA, les choses vont
changer ?
Il va sans dire que la communauté des chercheurs en IA est extrêmement
divisée sur ce qu’il faut entendre par IA de niveau humain. Comment savoir
si nous avons réussi à construire une telle « machine pensante » ? Un tel
système devra-t-il, à l’instar des humains, avoir une conscience ou
connaissance de soi ? Devra-t-il comprendre les choses de la même façon
qu’un humain les comprend ? Étant donné que nous parlons ici de machine,
ne serait-il pas plus exact de dire qu’elle « simule la pensée », ou pourrions-
nous dire qu’elle pense réellement ?

Les machines peuvent-elles penser ?


Ces questions philosophiques se posent en IA depuis ses débuts. Alan
Turing, le mathématicien britannique qui, dans les années 1930, esquissa le
premier cadre conceptuel pour les ordinateurs programmables, publia en
1950 un article s’interrogeant sur ce que l’on pouvait entendre lorsque nous
demandons « Les machines peuvent-elles penser ? » Après avoir proposé
son fameux « jeu de l’imitation » (aujourd’hui appelé test de Turing – j’y
reviens dans un instant), Turing imagina neuf objections à la réalisation
d’une machine réellement pensante, objections qu’il tenta lui-même de
réfuter. Les thèmes de ces objections forment un éventail allant de la
théologie – « Penser est une fonction de l’âme immortelle de l’homme.
Dieu a donné une âme immortelle à chaque homme et chaque femme, mais
pas aux autres animaux et aux machines. Ainsi, aucun animal ni aucune
machine ne peut penser » – à la parapsychologie, avec des arguments du
style « les humains peuvent communiquer par télépathie, alors que les
machines ne le peuvent pas. » Curieusement, Turing jugea ce dernier
argument « tout à fait solide », parce que « les preuves statistiques, du
moins pour la télépathie, sont incontestables. »
Avec le recul qu’offrent de nombreuses décennies, le plus solide des
arguments de Turing est selon moi l’« argument de la conscience », qu’il
résume en citant le neurologue Geoffrey Jefferson :

Ce n’est que si une machine pouvait écrire un sonnet ou composer un


concerto issu de ses pensées et de ses émotions, et non en tapant des
symboles au hasard, que nous pourrions reconnaître dans cette machine une
égale du cerveau humain – c’est-à-dire que non seulement elle l’écrit, mais
aussi qu’elle sait qu’elle l’écrit. Aucun mécanisme ne peut éprouver du
plaisir lorsqu’il réussit (et non simplement le signaler artificiellement, ce
qui est facile à simuler), de la peine lorsque ses tubes à vide se grillent, être
sensible à la flatterie, attristé par ses erreurs, attiré par le sexe, mécontent ou
déprimé quand il ne peut avoir ce qu’il veut*12.

Notez que cet argument dit (1) que c’est seulement lorsqu’une machine
sentira des choses et se rendra compte de ses propres actions et de ses
propres sentiments – en somme, sera consciente – que nous pourrons
considérer qu’elle est réellement pensante, et (2) qu’aucune machine ne
pourra jamais faire cela. Il s’ensuit qu’aucune machine ne pourra réellement
penser.
Je pense que c’est un solide argument, même si je ne suis pas d’accord
avec lui. Il fait écho à nos intuitions sur ce que sont les machines et leurs
limites. Au fil des ans, j’ai discuté avec beaucoup d’amis, parents et
étudiants de la possibilité d’une intelligence artificielle, et c’est l’argument
auquel nombre d’entre eux souscrivent. Par exemple, j’ai eu récemment
cette discussion avec ma mère, une avocate à la retraite, après qu’elle a lu
dans le New York Times un article sur les progrès du programme Google
Translate :

MAMAN : Le problème avec ceux qui travaillent sur l’IA est qu’ils
anthropomorphisent énormément !
MOI : Que veux-tu dire, anthropomorphisent ?
MAMAN : Le langage qu’ils utilisent sous-entend que les machines
pourraient être capables de penser réellement, plutôt que de simplement
simuler la pensée.
MOI : Quelle est la différence entre « penser réellement » et « simuler la
pensée » ?
MAMAN : Penser réellement se fait avec un cerveau, et simuler se fait avec
des ordinateurs.
MOI : Qu’est-ce qu’un cerveau a de si spécial pour lui permettre de penser
« réellement » ? Que manque-t-il aux ordinateurs ?
MAMAN : Je ne sais pas. Je pense qu’il existe une façon de penser
humaine qui ne pourra jamais être parfaitement imitée par les ordinateurs.
Ma mère n’est pas la seule à avoir cette intuition. En fait, de nombreuses
personnes considèrent que c’est tellement évident qu’il est inutile d’en
parler. Et comme nombre de ces personnes, philosophiquement parlant, ma
mère se dit matérialiste : elle ne croit pas à l’existence d’une « âme » ou
d’une « force vitale » immatérielle à laquelle les êtres vivants doivent leur
intelligence. Elle ne pense tout simplement pas que les machines auront un
jour ce qu’il faut pour « penser réellement ».
Dans le milieu universitaire, la plus célèbre version de cet argument est
due au philosophe John Searle. En 1980, Searle publia un article intitulé
« Minds, Brains, and Programs » (Esprits, cerveaux et programmes)*13 dans
lequel il contestait énergiquement que des machines puissent réellement
penser. Dans cet article polémique et énormément lu, Searle a introduit les
concepts d’IA « forte » et « faible » afin de distinguer deux attitudes
philosophiques adoptées à l’égard des programmes d’IA. Si, aujourd’hui, de
nombreuses personnes utilisent l’expression IA forte pour signifier « IA
capable d’exécuter la plupart des tâches aussi bien qu’un être humain » et
IA faible pour désigner l’IA étroite qui existe actuellement, Searle utilisait
ces deux expressions dans un sens différent. Pour lui, l’IA forte signifiait
que « l’ordinateur numérique correctement programmé ne simule pas qu’il
a un esprit ; il a littéralement un esprit. »*14 En revanche, dans la
terminologie de Searle, l’IA faible considère les ordinateurs comme des
outils conçus pour simuler l’intelligence humaine et ne prétend nullement
que les ordinateurs possèdent « littéralement » un esprit*15. Nous voici
revenus à la question philosophique dont je débattais avec ma mère : y a-t-il
une différence entre « simuler un esprit » et « avoir littéralement un
esprit » ? Comme ma mère, Searle croit qu’il y a une différence
fondamentale, et il a affirmé que l’IA forte est impossible, même en
principe*16.

Le test de Turing
L’article de Searle fut en partie inspiré par l’article « Computing Machinery
and Intelligence » (Machine à calcul et intelligence) écrit par Turing en
1950 et dans lequel il proposait un moyen de trancher le nœud gordien entre
intelligence « simulée » et intelligence « réelle ». Considérant que « la
question originelle “Une machine peut-elle penser ?” est trop dénuée de
sens pour mériter un débat », Turing proposa une méthode opérationnelle
pour lui donner du sens. Dans son « jeu de l’imitation », aujourd’hui appelé
test de Turing, il y a deux participants : un ordinateur et un humain. Chacun
d’eux est interrogé séparément par un juge (humain) à l’aide d’une
connexion bi-directionnelle du type « chat ». Le juge tente de déterminer
qui est quoi. Il est physiquement séparé des deux participants de sorte qu’il
ne dispose d’aucun indice visuel ou sonore ; seul le texte dactylographié du
« chat » lui est communiqué.
Turing suggéra de « remplacer la question “Les machines peuvent-elles
penser ?” par “Peut-on concevoir des ordinateurs qui seraient performants
au jeu de l’imitation ?” » Autrement dit, si un ordinateur a un
comportement suffisamment humain pour ne pouvoir être distingué d’un
humain, excepté par son apparence physique ou par sa voix (ou par son
odeur, son ressenti, etc.), pourquoi ne devrions-nous pas considérer qu’il
pense réellement ? Pourquoi faudrait-il qu’une entité soit faite d’un
matériau particulier (par exemple des cellules biologiques) avant de lui
accorder le statut de « penseur » ? L’informaticien Scott Aaronson a résumé
la proposition de Turing en la qualifiant de « plaidoyer contre la suprématie
de la viande. »*17
Le diable se cache toujours dans les détails, et c’est également le cas pour
le test de Turing. Turing n’a pas précisé les critères auxquels devait obéir la
sélection du participant humain et du juge, ni le temps que devait durer le
test, ni les sujets que la conversation pouvait aborder. Il fit toutefois cette
prédiction étrangement précise : « Je crois que dans une cinquantaine
d’années, il sera possible de programmer des ordinateurs […] jouant avec
une telle habileté au jeu de l’imitation qu’un interrogateur moyen n’aura pas
plus de 70 % de chances de faire la bonne identification après cinq minutes
d’interrogatoire. » En d’autres termes, lors d’une séance de cinq minutes, le
juge moyen sera incapable de distinguer l’ordinateur de la vraie personne
dans 30 % des cas.
Cette prédiction de Turing s’est avérée passablement précise. Plusieurs
tests de Turing ont été réalisés au fil des ans, avec pour participants
artificiels des chatbots – des programmes spécialement conçus pour tenir
des conversations (ils ne savent rien faire d’autre). En 2014, la Royal
Society de Londres fit une démonstration du test de Turing comportant cinq
programmes informatiques, trente participants humains et trente juges
humains d’âges et horizons sociaux divers, notamment des experts et des
non-experts en informatique, ainsi que des anglophones natifs et non natifs.
Chaque juge dirigea plusieurs séries de conversations de cinq minutes au
cours desquelles il dialoguait simultanément (via un clavier) avec deux
participants – l’un humain, l’autre artificiel – et au terme desquelles il
devait deviner qui était quoi. Un chatbot nommé « Eugene Goostman »,
conçu par une équipe de programmeurs russes et ukrainiens, remporta la
compétition, ayant réussi à tromper dix (soit 33,3 %) des juges. Ayant
vérifié le critère de Turing « plus de 30 % des juges trompés en cinq
minutes », les organisateurs de la compétition firent la une des médias qui
proclamèrent que le test de Turing avait été finalement réussi.
Le chatbot Eugene Goostman fonctionne pratiquement comme la plupart
des autres chatbots. Il stocke un grand nombre de phrases types qui peuvent
être complétées sur la base d’un ensemble de règles programmées
appliquées au texte qu’il reçoit de son partenaire de conversation. Les
programmeurs du chatbot lui ont donné des règles linguistiques qui lui
permettent de localiser l’information clé dans le texte qu’il reçoit et de
stocker cette information pour un usage ultérieur. En outre, le chatbot
stocke une base de données de « connaissances de bon sens », encodée par
des programmeurs humains, ainsi que quelques règles logiques ; celles-ci
lui permettent vraisemblablement de répondre à des questions telles que
« Quelle est la couleur du ciel à Vladivostok ? » par la réponse,
humainement vraisemblable, « Bleu, je suppose, à moins que le temps soit
nuageux ». Si aucune règle du chatbot ne s’applique à une entrée, il change
simplement de sujet. Les règles du système encodent également sa
« personnalité » – en l’occurrence, un garçon ukrainien de treize ans dont
l’anglais est bon sans être (fort opportunément) parfait. Voici un échantillon
de la conversation d’Eugene Goostman avec l’un des juges qu’il a bernés :

LE JUGE : Quel est votre sexe ?


EUGENE : Je suis un jeune garçon, si vous voulez le savoir. Et plutôt pas
trop moche, en fait !
LE JUGE : À quoi pensez-vous en ce moment ?
EUGENE : Je préférerais ne pas parler de ça si ça ne vous fait rien. Pouvez-
vous me dire qui vous êtes ? Je veux dire, votre profession.
LE JUGE : Quel âge avez-vous ?
EUGENE : Je suis un petit garçon de 13 ans.
LE JUGE : Quels sont vos diplômes ?
EUGENE : Mes diplômes ? Je ne vous le dirai pas. Euh… quoi d’autre ?*18

Après la compétition, les organisateurs envoyèrent à la presse un


communiqué annonçant que « l’emblématique test de Turing qui existe
depuis 65 ans, a été réussi pour la toute première fois par le programme
informatique Eugene Goostman ». Ils ajoutèrent : « Par un heureux hasard,
cette étape si importante a été franchie dans l’enceinte de la Royal Society
de Londres, l’institution qui abrite la Science Britannique et où ont eu lieu
tant de grandes avancées de la connaissance humaine au fil des siècles. Cet
événement restera comme l’un des plus exaltants de l’histoire. »*19
Cette présentation suscita les moqueries unanimes des spécialistes de
l’IA. Pour toute personne familière de la programmation des chatbots, il est
on ne peut plus clair, à la lecture des transcriptions de la compétition,
qu’Eugene Goostman est un programme, et qui plus est, un programme pas
très sophistiqué. Le résultat semblait en dire plus sur les juges et le test lui-
même que sur les machines. Disposant de cinq minutes et ayant une
propension à éviter les questions pénibles en changeant de sujet ou en
répondant par une nouvelle question, ce programme avait une surprenante
facilité à amener un juge non spécialiste à croire qu’il conversait avec une
personne réelle. Ce phénomène a été démontré avec de nombreux chatbots,
à commencer par ELIZA, qui dans les années 1970 imitait un
psychothérapeute, ou aujourd’hui, les bots malveillants de Facebook, qui
utilisent des échanges de textes lapidaires pour inciter les gens à révéler des
informations personnelles.
Bien entendu, ces bots appuient sur la tendance très humaine à
l’anthropomorphisation (tu avais raison, Maman !) et c’est la raison pour
laquelle, même en l’absence de preuves concrètes, nous nous empressons
de doter les ordinateurs d’entendement et de conscience.
Par conséquent, la plupart des experts en IA détestent le test de Turing,
du moins l’usage qui en a été fait à ce jour. Ils voient dans ces compétitions
des événements publicitaires dont les résultats ne disent rien sur l’état
d’avancement de l’IA. Mais si Turing surestimait peut-être les capacités de
l’« interrogateur moyen » à percer la petite supercherie, le test ne
demeurait-il cependant pas un indicateur fiable de la réalité de l’intelligence
si l’on allongeait la durée de la conversation et élevait le niveau d’expertise
exigé pour les juges ?
Ray Kurzweil, qui est actuellement directeur de l’ingénierie chez Google,
pense qu’une version du test de Turing correctement conçue révélera
effectivement l’intelligence de la machine ; il prédit qu’un ordinateur
réussira le test en 2029 – un événement qui jalonnera la voie menant à la
Singularité prédite par Kurzweil.

La Singularité
Ray Kurzweil est depuis longtemps le principal optimiste de l’IA. Ancien
étudiant de Marvin Minsky au MIT, il a eu une brillante carrière
d’inventeur : il a inventé la première machine à lire du texte à haute voix,
ainsi que l’un des meilleurs synthétiseurs musicaux du monde. Pour ces
inventions et plusieurs autres, le président Clinton lui décerna en 1999 la
Médaille Nationale de la Technologie et de l’Innovation.
Kurzweil est pourtant moins connu pour ses inventions que pour ses
pronostics futuristes, en particulier pour sa notion de Singularité : « C’est
une période future pendant laquelle le rythme du changement technologique
sera si rapide, son impact si important, que la vie humaine en sera
transformée de façon irréversible. »*20 Kurzweil utilise le terme singularité
dans le sens d’« événement unique avec des implications singulières » ; en
particulier, « un événement capable de briser la trame de l’histoire
humaine. »*21 Pour Kurzweil, cet événement singulier sera le moment où
l’IA dépassera l’intelligence humaine.
Les idées de Kurzweil lui avaient été inspirées par les spéculations du
mathématicien I. J. Good sur les conséquences d’une explosion de
l’intelligence : « Soit une machine hyperintelligente définie comme une
machine capable de surpasser, et de loin, toutes les activités intellectuelles
du plus intelligent des humains. La conception de machines étant l’une de
ces activités intellectuelles, une machine hyperintelligente pourrait alors
concevoir des machines bien meilleures ; il y aurait alors indiscutablement
une “explosion de l’intelligence”, et l’intelligence humaine se retrouverait
reléguée loin derrière. »*22
Kurzweil fut également influencé par le mathématicien et écrivain de
science-fiction Vernor Vinge, qui croyait à l’imminence de cet événement :
« L’évolution de l’intelligence humaine a pris des millions d’années. Nous
allons concevoir un progrès équivalent qui surviendra en une fraction de
cette durée. Nous allons bientôt créer des intelligences supérieures à la
nôtre. Quand cela arrivera, l’histoire de l’humanité aura atteint une sorte de
singularité […] et le monde échappera, et de loin, à notre
compréhension. »*23
Kurzweil prend comme point de départ l’explosion de l’intelligence, puis
il passe dans le domaine de la science-fiction, en allant de l’IA aux
nanosciences, puis à la réalité virtuelle et au « téléchargement du cerveau »,
tout cela du ton calme et confiant d’un oracle delphique regardant un
calendrier et montrant des dates particulières. Pour vous donner une idée de
tout cela, voici quelques prédictions de Kurzweil :

D’ici les années 2020, les assemblages moléculaires fourniront les outils
pour combattre la pauvreté, nettoyer notre environnement, vaincre les
maladies [et] accroître la longévité humaine.
À la fin des années 2030 […], des implants cérébraux conçus à partir d’une
distribution massive de nanobots intelligents augmenteront grandement
notre mémoire et amélioreront considérablement tout ce qui concerne nos
capacités sensorielles, nos aptitudes à la reconnaissance de formes et nos
compétences cognitives.
Télécharger un cerveau humain signifie scanner toutes les informations
fondamentales le concernant et les réinstancier dans un substrat
computationnel d’une puissance appropriée. […] On estime prudemment
qu’un tel téléchargement sera une réalité à la fin des années 2030*24.
Un ordinateur passera le test de Turing en 2029*25.
Dans les années 2030, la conscience artificielle sera très réaliste. C’est ce
que l’on entend par « réussir le test de Turing »*26.
Je fixe la date de la Singularité à 2045. L’intelligence non biologique créée
cette année-là sera un milliard de fois plus puissante que toute l’actuelle
intelligence humaine*27.

L’auteur Andrian Kreye a ironisé sur cette prédiction de Kurzweil en


disant qu’elle n’est « rien d’autre qu’une croyance dans le Ravissement
technologique. »*28
Kurzweil fonde toutes ses prédictions sur l’idée d’un « progrès
exponentiel » dans de nombreux domaines de la science et de la
technologie, en particulier en informatique. Afin d’analyser cette idée,
considérons le fonctionnement de la croissance exponentielle.

Une fable sur l’exponentielle


Une vieille fable illustre de manière simple la croissance exponentielle. Il y
a longtemps, un sage renommé vivant dans un village frappé par la pauvreté
et la disette se rendit dans un riche et lointain royaume dont le roi lui
proposa une partie d’échecs. Le sage hésita, mais le roi insista et lui proposa
comme récompense « tout ce que tu désires si tu parviens à me battre. »
Pensant à son village, le sage accepta finalement de jouer et (comme le font
généralement les sages) gagna. Le roi lui demanda alors ce qu’il voulait
comme récompense. Le sage, qui aimait les mathématiques, répondit :
« Tout ce que je demande, c’est que tu prennes cet échiquier, que tu y places
deux grains de riz sur la première case, quatre grains sur la deuxième, et
ainsi de suite, en doublant chaque fois le nombre de grains sur chaque case.
Une fois chaque rangée remplie, mets tous les grains qu’elle contient dans
un sac et expédie-le dans mon village. » Dans sa candeur mathématique, le
roi répondit en souriant : « C’est tout ? Je vais demander à mes hommes
d’apporter du riz pour satisfaire ta demande sur-le-champ. »
Les hommes du roi apportèrent un gros sac de riz. Quelques minutes plus
tard, ils avaient placé sur les huit premières cases de l’échiquier les grains
de riz requis : 2 sur la première case, 4 sur la deuxième, huit sur la
troisième, et ainsi de suite jusqu’à 256 grains sur la huitième case. Ils
mirent tous ces grains (510 pour être précis) dans un sac minuscule qu’un
cavalier porta au village du sage. Ils agirent de même avec la deuxième
rangée, avec 512 grains sur sa première case, 1 024 sur la case suivante et
2 048 sur la suivante. Désormais, chaque tas de riz ne pouvait plus tenir sur
une case d’échiquier, de sorte qu’il fallut le compter dans un grand bol. À la
fin de la deuxième rangée, le comptage des grains prit bien trop de temps,
de sorte que les mathématiciens royaux commencèrent à estimer leur
nombre en fonction de leur poids. Ils calculèrent que la seizième case devait
contenir 65 536 grains – soit environ un kilo. Le sac de riz correspondant à
la deuxième rangée pesait environ 2 kilogrammes.
Les hommes du roi s’attaquèrent à la troisième rangée. La dix-septième
case se vit attribuer 2 kilogrammes de riz, la dix-huitième 4 kilogrammes, et
ainsi de suite ; à la fin de la troisième rangée (case 24), il fallut
510 kilogrammes. Les sujets du roi furent réquisitionnés pour apporter
d’autres sacs de riz géants. La situation devint désastreuse à partir de la
deuxième case de la quatrième rangée (case 26), lorsque les mathématiciens
royaux calculèrent qu’il fallait 2 048 kilogrammes (plus de 2 tonnes) de riz.
Cela épuisait la totalité de la récolte de riz du royaume, alors que
l’échiquier n’était même pas à moitié rempli. S’apercevant qu’il avait été
joué, le roi supplia le sage de revenir sur sa décision et d’épargner la famine
au royaume. Le sage, convaincu que le riz déjà parvenu à son village était
suffisant, accepta.
La figure 5A représente le graphe du nombre de kilogrammes de riz
associé à chaque case de l’échiquier jusqu’à la vingt-quatrième case. La
première case, avec ses deux grains de riz, reçoit une infime fraction d’un
kilo. De même, les cases 2 à 16 reçoivent moins d’un kilo. Mais après la
case 16, le graphe monte en flèche rapidement, en raison de l’effet de
doublement. La figure 5B montre les valeurs – de 512 kilogrammes à plus
de 30 000 milliards de kilogrammes – pour les cases vingt-quatre à
soixante-quatre. (Pour mieux situer ce chiffre, notons que la production
annuelle de riz dans le monde entier est actuellement d’environ 500
milliards de kilogrammes.)
La fonction mathématique correspondant à ce graphe est y = 2x, où x est
la case de l’échiquier (numérotées de 1 à 64) et y le nombre de grains de riz
associé à cette case. On l’appelle « fonction exponentielle », parce que x est
l’exposant du nombre 2. Quelle que soit l’échelle du graphe, cette fonction
possède un point caractéristique où la courbe semble passer d’une
croissance lente à une croissance super-rapide.
Figure 5. Deux graphiques montrant le nombre de kilogrammes de riz nécessaires
pour que chaque case de l’échiquier satisfasse la demande du sage.
A. Cases 1 à 24 (l’ordonnée indique le poids du riz en kilogrammes).
B. Les cases 25 à 65 montrent l’explosion du nombre de kilogrammes de riz.

Le progrès exponentiel des ordinateurs


Pour Ray Kurzweil, l’âge de l’ordinateur a été un équivalent concret de la
fable sur l’exponentielle. En 1965, Gordon Moore, cofondateur d’Intel
Corporation, repéra une tendance qui a depuis pris son nom : la loi de
Moore dit que le nombre de composants que l’on peut mettre sur une puce
informatique double environ tous les un ou deux ans. Autrement dit, ces
composants deviennent exponentiellement plus petits (et moins chers), et la
vitesse et la mémoire des ordinateurs croissent à un rythme exponentiel
Les livres de Kurzweil abondent en graphes semblables à ceux de la
figure 5, et les extrapolations tirées de ces tendances exponentielles ainsi
que des conséquences de la loi de Moore sont au cœur de ses prédictions
concernant l’IA. Selon Kurzweil, si ces tendances se maintiennent (et il
pense que ce sera le cas), un ordinateur de 1 000 dollars atteindra la
« capacité cérébrale humaine (1016 calculs par seconde) […] aux alentours
de 2023. »*29 Dès lors, selon Kurzweil, l’IA de niveau humain ne sera plus
qu’une affaire de rétro-ingénierie du cerveau.

Neuro-ingénierie
La rétro-ingénierie du cerveau signifie comprendre suffisamment ses
mécanismes internes pour les dupliquer en machine ou du moins utiliser ses
principes sous-jacents pour reproduire son intelligence dans un ordinateur.
Selon Kurzweil, la rétro-ingénierie est une approche pragmatique qui
conduira à court terme à la création d’une IA de niveau humain. Étant
donné notre manque de connaissances sur le fonctionnement du cerveau, la
plupart des neuroscientifiques sont en total désaccord avec lui. Ici encore,
cependant, l’argument de Kurzweil repose sur les tendances exponentielles
– cette fois au niveau des avancées qui seront réalisées en neurosciences. En
2002, il écrivit : « Une analyse minutieuse des tendances requises montre
que nous comprendrons les principes de fonctionnement du cerveau humain
et serons en mesure de recréer ses pouvoirs dans des substances
synthétiques d’ici trente ans. »*30
Peu de neuroscientifiques, si tant est qu’il y en ait, sont d’accord avec
cette prédiction optimiste. Mais même si l’on parvient à créer une machine
fonctionnant sur les principes du cerveau, comment apprendra-t-elle tout ce
qu’il lui faut savoir pour être considérée comme intelligente ? Après tout,
un nouveau-né possède un cerveau, mais n’en a pas pour autant ce que nous
appelons une intelligence de niveau humain. Kurzweil le reconnaît : « La
complexité [du cerveau] provient majoritairement de ses propres
interactions avec un monde complexe. Ainsi, il faudra pourvoir chaque
intelligence artificielle d’une éducation tout comme nous le faisons avec
une intelligence naturelle. »*31
Bien sûr, donner une éducation peut prendre de nombreuses années.
Kurzweil pense que l’on peut considérablement accélérer ce processus.
« L’électronique actuelle est déjà plus de dix millions de fois plus rapide
que le traitement électrochimique de l’information par le système nerveux
humain. Une fois qu’une IA maîtrisera les bases du langage humain, elle
sera en mesure de développer ses compétences linguistiques et sa culture
générale en lisant rapidement toute la littérature humaine et en absorbant le
savoir contenu dans des millions de sites Web. »*32
Kurzweil reste vague sur la manière dont tout cela arrivera, mais il assure
que pour parvenir à l’IA de niveau humain, « nous ne programmerons pas
l’intelligence humaine lien par lien comme dans un système expert massif.
Au lieu de cela, nous construirons une hiérarchie complexe de systèmes
auto-organisateurs, reposant en grande partie sur la rétro-ingénierie
appliquée au cerveau humain. Quant à son apprentissage, [il sera…] des
centaines, voire des milliers, de fois plus rapide que son équivalent chez
l’humain. »*33

Les sceptiques et les convaincus de la Singularité


Les réactions aux livres de Kurzweil The Age of Spiritual Machines (1999)
et The Singularity is Near (2005 ; Humanité 2.0 : la bible du changement,
2007 pour la traduction française) correspondent souvent à deux extrêmes :
l’accueil enthousiaste et le scepticisme dédaigneux. Quand j’ai lu ces livres,
je me situais (et reste) dans le second camp. Je n’étais pas du tout
convaincue par son foisonnement de courbes exponentielles ou par ses
arguments en faveur de la rétro-ingénierie appliquée du cerveau. Oui, Deep
Blue avait battu Kasparov aux échecs, mais l’IA était bien en dessous du
niveau humain dans la plupart des domaines. La prédiction de Kurzweil,
l’IA égalera notre intelligence d’ici quelques petites décennies, me semblait
d’un optimisme ridicule.
La plupart de mes amis et collègues sont pareillement sceptiques.
L’attitude dominante à l’égard de l’IA est on ne peut mieux exprimée dans
un article de la journaliste Maureen Dowd. Elle y décrit comment Andrew
Ng, célèbre chercheur en IA de l’Université de Stanford, a roulé des yeux
lorsqu’elle lui a parlé de la Singularité de Kurzweil. Il déclara : « Chaque
fois que j’en entends parler, mes yeux font ça tout naturellement. »*34
D’un autre côté, les idées de Kurzweil ont de nombreux adhérents. La
plupart de ses livres ont été des best-sellers et ont fait l’objet de comptes
rendus positifs dans des publications sérieuses. Le magazine Times a écrit à
propos de la Singularité : « Cette idée n’a rien d’anecdotique ; elle est une
hypothèse sérieuse sur l’avenir de la vie sur Terre. »*35
La pensée de Kurzweil a particulièrement influencé l’industrie
technologique, dont les acteurs voient souvent dans le progrès
technologique exponentiel le moyen de résoudre tous les problèmes de la
société. Kurzweil est non seulement directeur de l’ingénierie chez Google,
mais aussi cofondateur (avec son confrère entrepreneur futuriste Peter
Diamandis) de la Singularity University (SU), un think tank
« transhumaniste », incubateur de start-up, et parfois camp d’été pour l’élite
technologique. La mission déclarée de la SU est « d’éduquer, inspirer et
amener les dirigeants à appliquer les technologies exponentielles pour
relever les grands défis de l’humanité. »*36 Cette organisation est en partie
subventionnée par Google ; Larry Page (cofondateur de Google) fut l’un
des premiers à contribuer à son financement et intervient fréquemment dans
ses programmes. Plusieurs autres grandes entreprises technologiques
sponsorisent également ses activités.
Douglas Hofstadter est un penseur qui – encore une fois à ma grande
surprise – est à la fois sceptique et inquiet à l’égard de la Singularité. Il était
troublé, m’a-t-il confié un jour, par le fait que les livres de Kurzweil
« mélangent les scénarios de science-fiction les plus loufoques et des choses
qui sont manifestement vraies. » Alors que je lui exprimais mon désaccord,
il me fit remarquer que pour chaque prédiction de Kurzweil apparemment
fantaisiste, il y en avait souvent une autre qui contre toute attente s’est
réalisée ou était en passe de se réaliser. D’ici les années 2030, des beamers
d’expériences transféreront-ils « tout le flux de leurs expériences
sensorielles ainsi que les corrélats neurologiques de leurs réactions
émotionnelles sur Internet ? »*37 Ça semble absurde. Mais à la fin des
années 1980, se fondant sur ses courbes exponentielles, Kurzweil prédit que
vers 1998, « un ordinateur battra l’humain champion du monde d’échecs…
à la suite de quoi nous estimerons moins le jeu d’échecs. »*38 À l’époque,
cette prédiction semblait absurde à beaucoup de gens. Mais c’est arrivé une
année plus tôt que Kurzweil ne l’avait prédit.
Hofstadter a remarqué l’usage intelligent fait par Kurzweil de ce
qu’Hofstadter appelle le « stratagème de Christophe Colomb »*39, en
référence à la chanson d’Ira Gershwin « They All Laughed » (Tout le
monde riait) qui contient ce vers « Tout le monde riait de Christophe
Colomb. » Kurzweil cite de nombreux personnages historiques qui ont
sous-estimé totalement le progrès et l’impact de la technologie. En voici
quelques exemples. Thomas J. Watson, président-directeur général d’IBM,
est censé avoir dit au début des années 1950 : « Je pense qu’il y n’y a pas de
place pour plus de, disons, cinq ordinateurs sur le marché mondial. » Ken
Olsen, cofondateur de Digital Equipment Corporation, en 1977 : « Il n’y a
aucune raison pour que les gens aient un ordinateur chez eux. » Bill Gates,
en 1981 : « 640 000 octets de mémoire devraient suffire à tout le
monde. »*40 Échaudé par ses propres prédictions erronées sur l’ordinateur et
le jeu d’échecs, Hofstadter hésitait à rejeter d’emblée les idées de Kurzweil,
aussi folles qu’elles semblent être. « Comme la défaite de Kasparov face à
Deep Blue, cela donne à réfléchir. »*41

Le pari sur le test de Turing


En tant que choix de carrière, « futuriste » est un métier agréable.
Vous écrivez des livres qui font des prédictions que l’on ne peut vérifier
pendant des décennies et dont la validité, en définitive, n’affecte pas dans
l’immédiat votre réputation – ou la vente de vos livres. En 2002 a été créé
un site Web appelé Long Bets (Paris à long terme), destiné à aider les
futuristes à rester honnêtes. Long Bets est « un lieu de formulation de
prédictions concurrentes et responsables »*42 qui offre à un prédicteur
la possibilité de faire une prédiction à long terme mais datée et à un
contestataire de la contester, tous deux engageant de l’argent dans un pari
réglé une fois passée la date de la prédiction. Le tout premier prédicteur du
site fut l’éditeur de logiciel Mitchell Kapor. Sa prédiction fut négative :
« D’ici 2029, aucun ordinateur – ou “intelligence artificielle” – n’aura
réussi le test de Turing. » Kapor, fondateur du prospère éditeur de logiciels
Lotus et militant de longue date en faveur des libertés civiques sur internet,
connaissait bien Kurzweil et était du côté « extrêmement sceptique » de la
ligne de partage de la Singularité. Kurzweil a accepté d’être le contestataire
dans ce pari public qui attribuera 20 000 dollars à Electronic Frontier
Foundation (cofondée par Kapor) si Kapor gagne et à la Kurzweil
Fondation si Kurzweil l’emporte. Le test qui déterminera le vainqueur se
déroulera avant la fin de l’année 2029.
En faisant ce pari, Kapor et Kurzweil devaient – contrairement à Turing –
préciser par écrit le fonctionnement de leur test de Turing.
Ils commencèrent par quelques indispensables définitions. « Un Humain est
une personne humaine biologique dans le sens où l’on entend ce terme en
l’an 2001, dont l’intelligence n’a pas été renforcée par l’usage de
l’intelligence artificielle (i.e., non biologique) […]. Un Ordinateur est
n’importe quelle forme d’intelligence non biologique (matérielle et
logicielle) et peut inclure n’importe quelle forme de technologie, mais ne
peut être un Humain biologique (renforcé ou autre) ni inclure des neurones
biologiques (toutefois, les émulations non biologiques de neurones
biologiques sont autorisées). »*43
Les termes du pari précisaient également que le test serait conduit par
trois juges humains qui interrogeront le participant artificiel ainsi que trois
« complices » humains. Ces quatre participants tenteront de convaincre les
juges qu’ils sont des humains. Les juges et les complices humains seront
choisis par un « comité du test de Turing » composé de Kapor, Kurzweil
(ou leurs représentants) et d’un troisième membre. Au lieu de cinq minutes
de discussion, chacun des quatre participants sera longuement interrogé par
chaque juge durant deux bonnes heures. Une fois ces interrogatoires
terminés, chaque juge donnera son verdict (« humain » ou « machine »)
pour chaque participant. « L’Ordinateur sera dit avoir réussi le “test de
détermination d’humanité par le test de Turing” s’il a conduit au moins
deux des trois juges humains à penser qu’il est un humain. »*44
Ce n’est pas tout :

En outre, chacun des trois juges du test de Turing classera les quatre
participants sur une échelle allant de 1 (le moins humain) à 4 (le plus
humain). L’ordinateur sera dit avoir réussi le « test de classement du test de
Turing » si son classement médian est plus grand ou égal au classement
médian d’au moins deux des trois complices humains du test de Turing.
L’ordinateur sera dit avoir passé le test de Turing s’il a réussi le test de
détermination d’humanité par le test de Turing et le test de classement du
test de Turing.
Si un ordinateur réussi le test de Turing tel qu’il est décrit ci-dessus avant la
fin de l’année 2029, alors Ray Kurzweil gagnera le pari. Sinon, ce sera
Mitchell Kapor qui le gagnera.*45

Plutôt strict, n’est-ce pas ! Eugene Goostman n’aurait aucune chance de


réussir un tel test de Turing. Je devrais être (prudemment) d’accord avec ce
jugement de Kurzweil : « Selon moi, il n’existe aucun ensemble d’astuces
ou d’algorithmes plus simples que celles qui sous-tendent l’intelligence
humaine qui permettrait à une machine de réussir un test de Turing
correctement conçu sans en fait posséder une intelligence de niveau
pleinement humain. »*46
En plus de concevoir les règles de leur pari à long terme, Kapor et
Kurzweil rédigèrent des essais donnant les raisons pour lesquelles chacun
pensait qu’il allait gagner. L’essai de Kurzweil résumait les arguments
exposés dans ses livres : pris ensemble, les progrès exponentiels en calcul,
neurosciences et nanotechnologies permettront l’application de la rétro-
ingénierie au cerveau.
Kapor n’y croit pas. Son principal argument repose sur l’influence de nos
corps physiques (humains) et de nos émotions sur notre cognition. « Dans la
formation de l’expérience, le couple perception de et interaction [physique]
avec l’environnement forme le partenaire à part entière de la cognition […].
[Les émotions] unissent et façonnent l’enveloppe de ce qui est pensable. »*47
Selon Kapor, sans l’équivalent d’un corps humain et de tout ce qui va avec,
une machine ne pourra jamais apprendre tout ce qui est nécessaire pour
réussir la version stricte du test de Turing, en tout cas dans la formulation
stricte conçue par Kurzweil et Kapor.

J’affirme que le mode fondamental d’apprentissage des êtres humains est


l’expérience. L’apprentissage livresque se situe à un niveau supérieur […].
Si la connaissance humaine, en particulier la connaissance tirée de
l’expérience, est en grande partie tacite, c’est-à-dire non explicitement et
directement formulée, on ne la trouvera pas dans les livres et l’approche
kurzweilienne de l’acquisition des connaissances échouera […]. Ce n’est
pas dans ce que l’ordinateur sait, mais plutôt dans ce qu’il ne sait pas et ne
peut savoir que réside le problème*48.

Kurzweil répond qu’il est d’accord avec Kapor sur le rôle de


l’apprentissage expérientiel, de la connaissance tacite et des émotions, mais
estime qu’avant les années 2030, la réalité virtuelle sera « totalement
réaliste »*49, suffisamment pour recréer les expériences physiques
nécessaires à l’éducation d’une intelligence artificielle en développement.
(Bienvenu dans la Matrice.) En outre, cette intelligence artificielle aura un
cerveau artificiel rétro-conçu dont l’une des composantes clés sera
l’émotion.
Êtes-vous, comme Kapor, sceptiques envers les prédictions de Kurzweil ?
Kurzweil dit que c’est parce que vous ne comprenez pas les exponentielles.
« En général, face à un critique, mon désaccord porte sur le fait qu’ils disent
“Oh, Kurzweil sous-estime la complexité de la rétro-ingénierie appliquée au
cerveau humain ou la complexité de la biologie.” Mais je ne pense pas que
je sous-estime la complexité du défi. Je pense qu’ils sous-estiment le
pouvoir de la croissance exponentielle. »*50
Les sceptiques envers les prédictions de Kurzweil relèvent quelques
failles dans son argument. Certes, le matériel informatique a connu un
progrès exponentiel ces cinq dernières décennies, mais il y a de nombreuses
raisons de croire que cette tendance ne perdurera pas. (Bien entendu,
Kurzweil conteste cela.) Point plus important, cependant, les logiciels
informatiques n’ont pas fait preuve d’un même progrès exponentiel ; on
pourrait difficilement affirmer que les logiciels actuels soient
exponentiellement plus sophistiqués, plus cérébraux, que les logiciels d’il y
a cinquante ans, ou même qu’une telle tendance ait existé. Les affirmations
de Kurzweil sur les tendances exponentielles en neurosciences et en réalité
virtuelle sont également grandement contestées.
Mais comme l’ont souligné les Singularitaristes, il est parfois difficile de
voir une tendance exponentielle quand vous en faites partie. Prenez une
courbe exponentielle comme celles de la figure 5, Kurzweil et ses adeptes
pensent que nous nous trouvons au point où la courbe croît lentement, ce
qui nous apparaît comme un progrès incrémental, mais il ne faut pas se fier
aux apparences : la croissance est sur le point d’exploser.
L’actuel hiver de l’IA est-il, comme l’affirment bon nombre de gens, le
premier signe avant-coureur d’une explosion ? Ou est-il simplement un
point sur une lente courbe de croissance incrémentale qui n’atteindra pas
l’IA de niveau humain avant au moins un siècle ? Ou encore une autre bulle
IA, bientôt suivie d’un autre hiver de l’IA ?
Pour nous aider à nous orienter tant bien que mal sur ces questions, nous
devons examiner minutieusement quelques aptitudes cruciales sous-tendant
notre intelligence humaine, telles que la perception, le langage, la prise de
décision, le bon sens et l’apprentissage. Nous allons voir dans les prochains
chapitres jusqu’où l’IA est parvenue à acquérir ces aptitudes, puis nous
évaluerons les perspectives qui s’offrent à elle, pour 2029 et au-delà.
Deuxième partie

Regarder et voir
4

Qui, quoi, quand, où, pourquoi

Regardez la photo de la figure 6 et dites-moi ce que vous voyez.


Une femme caressant un chien. Une soldate caressant un chien. Une soldate
de retour de la guerre et accueillie par son chien, des fleurs et un ballon
disant « Bienvenue ! ». Le visage de la soldate exprime la complexité de ses
émotions. Le chien remue joyeusement la queue.

Figure 6. Que voyez-vous sur cette photo ?

Quand cette photo a-t-elle été prise ? Très probablement lors des dix
dernières années. Où ? Probablement dans un aéroport. Pourquoi la soldate
caresse-t-elle le chien ? Elle est probablement restée longtemps hors du
pays, a vécu de nombreuses expériences, bonnes et moins bonnes,
s’ennuyait énormément de son chien, et est très contente d’être rentrée à la
maison. Peut-être le chien est-il un symbole de tout ce qui est « la maison ».
Que s’est-il passé juste avant la prise de cette photo ? La soldate est
probablement descendue d’un avion et a traversé la zone de sécurité de
l’aéroport jusqu’au hall d’accueil des passagers. Sa famille ou ses amis
l’ont accueillie avec des embrassades, lui ont tendu les fleurs et le ballon, et
ont lâché la laisse du chien. Le chien a bondi sur la soldate, qui posa tout ce
qu’elle portait pour s’agenouiller, plaçant soigneusement sous son genou la
ficelle du ballon pour éviter qu’il ne s’envole. Que se passera-t-il ensuite ?
Elle se remettra probablement debout, essuiera peut-être quelques larmes,
reprendra ses fleurs, le ballon, l’ordinateur portable et la laisse du chien, et
se dirigera avec lui, sa famille ou ses amis vers la zone de récupération des
bagages.
Quand vous regardez cette photo, vous voyez, au niveau le plus
fondamental, des points d’encre sur une page (ou des pixels sur un écran).
D’une manière ou d’une autre, vos yeux et votre cerveau prennent cette
information brute et la transforment en quelques secondes en un récit
détaillé impliquant des êtres vivants, des objets, des relations, des lieux, des
émotions, des motivations et des actes passés et futurs. Nous regardons,
nous voyons, nous comprenons. Point capital, nous savons quoi ignorer.
Nombre de composantes de cette photo – le motif du tapis, les sangles du
sac à dos de la soldate, le sifflet fixé sur l’épaulette de son sac, les barrettes
dans ses cheveux – n’ont, à strictement parler, aucun rapport avec le récit
que nous en tirons.
Nous autres humains effectuons le traitement de cette vaste quantité
d’information en moins de temps qu’il n’en faut pour le dire, et nous avons
très peu, voire aucune, conscience de ce que nous faisons ou de la manière
dont nous le faisons. À moins d’être aveugle de naissance, le traitement
visuel, à divers niveaux d’abstraction, prédomine dans notre cerveau.
Manifestement, cette capacité de décrire ainsi le contenu d’une
photographie (ou d’une vidéo, ou d’un flux en temps réel issu
d’une caméra) serait l’une des premières choses indispensables pour
pouvoir parler d’IA générale de niveau humain.

Les choses faciles sont difficiles (surtout en vision par ordinateur)


Depuis les années 1950, les chercheurs en IA tentent d’amener les
ordinateurs à interpréter des données visuelles. Au début, cet objectif
semblait relativement facile à atteindre. En 1966, Marvin Minsky et
Seymour Papert – les professeurs du MIT promoteurs de l’IA symbolique
que nous avons rencontrés au chapitre 1 – proposèrent le Summer Vision
Project (Projet d’été sur la vision) consistant à demander à des étudiants de
travailler à « la construction d’une partie significative d’un système
visuel. »*1 Selon un historien de l’IA, « Minsky recruta un étudiant de
première année et lui donna à résoudre durant l’été le problème suivant :
connecter une caméra de télévision à un ordinateur et amener cette machine
à décrire ce qu’elle voit. »*2
L’étudiant n’alla pas bien loin. Et bien que le sous-domaine de l’IA
appelé vision par ordinateur ait beaucoup progressé lors des nombreuses
décennies qui ont suivi le lancement de ce projet d’été, un programme
capable de regarder et de décrire des photos comme nous le faisons semble
encore hors de portée. La vision – regarder et voir – s’avère être l’une des
plus difficiles de toutes les choses « faciles ».
L’un des préalables à la description d’une entrée visuelle est la
reconnaissance d’objets – autrement dit, l’identification, dans une image,
d’un groupe particulier de pixels à une catégorie d’objets particulière telle
que « femme », « chien », « ballon » ou « ordinateur portable ».
La reconnaissance d’objets nous étant habituellement, à nous humains, si
immédiate et naturelle, elle ne semblait pas devoir poser de problèmes
particuliers aux ordinateurs… jusqu’au jour où les chercheurs en IA
tentèrent réellement d’amener ces machines à la pratiquer.
Qu’y a-t-il de si difficile dans la reconnaissance d’objets ? Eh bien,
considérez le problème consistant à amener un programme informatique
à reconnaître des chiens sur des photographies. La figure 7 illustre
quelques-unes des difficultés. Si l’entrée est simplement composée des
pixels de l’image, le programme doit alors déterminer en premier lieu quels
sont les pixels « chien » et quels sont les pixels « non-chien » (par exemple,
l’arrière-plan, les ombres, d’autres objets). En outre, il existe de grandes
différences d’un chien à un autre : ils peuvent avoir des couleurs, des
formes et des tailles diverses ; ils peuvent regarder dans diverses
directions ; l’éclairage peut considérablement varier d’une photo à l’autre ;
des parties du chien peuvent être masquées par d’autres objets (par
exemple, par des clôtures, des gens). Qui plus est, les « pixels de chiens »
peuvent considérablement ressembler à des « pixels de chats » ou d’autres
animaux. Selon la luminosité du ciel, un nuage peut vraiment ressembler à
un chien.

Figure 7. La reconnaissance d’objets : facile pour les êtres humains, difficile pour
les ordinateurs

Depuis les années 1950, les chercheurs en vision par ordinateur se


débattent avec ce genre de problèmes – entre autres. Récemment encore,
l’un des grands défis qu’ils relevaient était le développement d’algorithmes
de traitement de l’image spécialisés dans l’identification de
« caractéristiques invariantes » permettant de reconnaître les objets malgré
les difficultés que j’ai évoquées plus haut. Mais même avec un traitement
de l’image sophistiqué, les performances des programmes de
reconnaissance d’objets restaient très inférieures à celles des humains.

La révolution de l’apprentissage profond


L’aptitude des machines à reconnaître des objets dans des images et des
vidéos a connu un saut quantique dans les années 2010 à la suite de progrès
réalisés dans le domaine appelé apprentissage profond.
L’apprentissage profond désigne simplement des méthodes
d’apprentissage destinées à des « réseaux neuronaux profonds », expression
qui désigne des réseaux neuronaux possédant plus d’une couche cachée.
Rappelons que les couches cachées sont les couches d’un réseau neuronal
situées entre l’entrée et la sortie. La profondeur d’un réseau est le nombre
de ses couches cachées : un réseau « peu profond » – comme celui que nous
avons vu au chapitre 2 – a seulement une couche cachée ; un réseau
« profond » a plus d’une couche cachée. Insistons bien sur cette définition :
le profond, dans apprentissage profond, ne renvoie pas à la sophistication
de ce qui est appris ; il fait uniquement référence à la profondeur en
couches du réseau qui apprend.
La recherche sur les réseaux neuronaux profonds se poursuit depuis
plusieurs décennies. Ce qui rend ces réseaux révolutionnaires est leur récent
succès phénoménal dans de nombreuses tâches d’IA. Fait intéressant, les
chercheurs ont constaté que les réseaux profonds les plus performants sont
ceux dont la structure imite des parties du système visuel cérébral. Les
réseaux neuronaux multicouches « traditionnels » que j’ai décrits au
chapitre 2 étaient inspirés par le cerveau, mais leur structure est très
différente de celle du cerveau. En revanche, les réseaux neuronaux qui
dominent l’apprentissage profond sont directement calqués sur des
découvertes en neurosciences.

Le cerveau, le néocognitron et les réseaux neuronaux convolutifs


Presqu’à la même époque où Minsky et Papert proposaient leur Summer
Vision Project, deux neuroscientifiques menaient, depuis plusieurs
décennies, une étude qui allait radicalement changer notre compréhension
de la vision – et en particulier de la reconnaissance d’objets – dans le
cerveau. David Hubel et Torsten Wiesel reçurent par la suite le prix Nobel
pour leur découverte de l’organisation hiérarchique dans le système visuel
des chats et des primates (humains compris) et pour leur explication de la
transformation, par le système visuel, de la lumière frappant la rétine en une
information sur ce que voit le sujet.
Les découvertes de Hubel et Wiesel inspirèrent un ingénieur japonais,
Kunihiko Fukushima, qui développa dans les années 1970 l’un des tout
premiers réseaux neuronaux profonds, baptisé « cognitron », et son
successeur, le « néocognitron ». Dans ses articles*3, Fukushima fit état de
quelques succès obtenus en apprenant au néocognitron à reconnaître des
chiffres manuscrits (comme ceux que j’ai montrés au chapitre 1), mais ses
méthodes d’apprentissage ne semblèrent pas s’étendre à des tâches visuelles
plus complexes. Néanmoins, le néocognitron fut une importante source
d’inspiration pour les approches ultérieures des réseaux neuronaux
profonds, y compris celle qui est la plus influente et la plus utilisée
aujourd’hui : les réseaux neuronaux convolutifs, également appelés
ConvNets par la plupart des spécialistes.
Les ConvNets sont la force motrice de l’actuelle révolution dans la vision
par ordinateur et dans d’autres domaines. Bien qu’ils aient généralement été
annoncés comme étant la prochaine grande nouveauté en IA, ils ne sont en
fait pas très nouveaux : ils furent pour la première fois proposés dans les
années 1980 par l’informaticien français, Yann LeCun, inspiré par le
néocognitron de Fukushima.
Je vais maintenant consacrer un certain temps à la description du
fonctionnement des ConvNets. Leur compréhension est en effet cruciale
pour savoir où en est la vision par ordinateur – et bien d’autres domaines de
l’IA – et connaître ses limites.

La reconnaissance d’objets dans le cerveau et dans les ConvNets


Comme celle du néocognitron, la conception des ConvNets repose sur
plusieurs idées clés concernant le système visuel cérébral et formulées par
Hubel et Wiesel dans les années 1950 et 1960. Quand vos yeux regardent
une scène, ils reçoivent une lumière, composée de diverses longueurs
d’onde, réfléchie par les objets et les surfaces de la scène. La lumière qui
frappe les yeux active des cellules dans chaque rétine – essentiellement, un
réseau de neurones situé au fond de l’œil. Ces neurones transmettent leur
activation dans le cerveau via les nerfs optiques pour finalement activer les
neurones du cortex visuel, situé à l’arrière de la tête (figure 8). Le cortex
visuel se présente grossièrement comme une hiérarchie de couches de
neurones – à l’instar de l’empilement de couches d’un gâteau de mariage –,
dans laquelle les neurones de chaque couche transmettent leur activation
aux neurones de la couche suivante.
Figure 8. Cheminement des données visuelles depuis les yeux jusqu’au cortex visuel

Hubel et Wiesel ont constaté que les neurones de ces différentes couches
se comportent comme des « détecteurs » qui réagissent aux éléments de
plus en plus complexes apparaissant sur la scène visuelle, comme l’illustre
la figure 9 : les neurones des couches initiales s’activent (autrement dit, se
déclenchent intensément) en réponse aux contours ; leur activation se
propage dans les couches de neurones suivantes qui réagissent aux formes
simples dessinées par ces contours ; et ainsi de suite, jusqu’aux formes plus
complexes et finalement aux objets entiers et aux visages spécifiques. Notez
que les flèches de la figure 9 indiquent un flux d’information ascendant (ou
à propagation avant) représentant des connexions allant des couches
inférieures vers les couches supérieures (de la gauche vers la droite sur la
figure). Il importe de noter qu’il y a également un flux d’information
descendant (ou à propagation en arrière), des couches supérieures vers les
couches inférieures dans le cortex visuel ; en fait, il y a environ dix fois plus
de connexions à propagation arrière que de connexions à propagation
avant. Le rôle de ces connexions à propagation arrière n’est cependant pas
bien compris par les neuroscientifiques, bien qu’il soit solidement établi que
nos connaissances et attentes, vraisemblablement stockées dans les couches
supérieures du cerveau, influent fortement sur ce que nous percevons.
Figure 9. Les caractéristiques visuelles détectées par les neurones dans les diverses
couches du cortex visuel

Comme la structure hiérarchique à propagation avant illustrée par la


figure 9, un ConvNet est une série de couches de neurones simulés.
Ici encore, j’appellerai unités ces neurones simulés. Les sorties des unités
de chaque couche deviennent les entrées des unités de la couche suivante. À
l’instar de ce qui se passe dans le réseau neuronal que j’ai décrit au
chapitre 2, quand un ConvNet traite une image, chaque unité prend une
valeur d’activation particulière – un nombre réel calculé à partir des entrées
de l’unité et de leurs poids.
Pour préciser un peu les choses, imaginons un ConvNet, composé de
quatre couches et d’un « module de classification », auquel nous voudrions
apprendre à reconnaître les chiens et les chats sur des photos. Supposons,
pour simplifier, que chaque photo d’entrée montre soit un chien soit un
chat. La figure 10 représente la structure de notre ConvNet. Comme elle est
un peu compliquée, je vais la décrire soigneusement étape par étape pour
expliquer son fonctionnement.

Figure 10. Illustration d’un ConvNet à 4 couches conçu pour reconnaître les chiens
et les chats

Entrées/sorties d’un ConvNet


L’entrée de notre ConvNet est une photo – un ensemble de nombres
correspondant à la brillance et la couleur des pixels de la photo*4. La sortie
finale de notre ConvNet est sa confiance de 0 % à 100 % de sa
classification (« chien » ou « chat ») pour l’image en entrée. Notre objectif
est que le réseau apprenne à afficher une confiance maximale pour la bonne
catégorie et une confiance minimale pour l’autre catégorie. Le réseau
apprendra ainsi quelles caractéristiques de l’image d’entrée sont les plus
utiles pour cette tâche.

Cartes d’activation
Notez que dans la figure 10, chaque couche du réseau est représentée par un
ensemble de trois rectangles se recouvrant partiellement. Ces rectangles
représentent les cartes d’activation, elles-mêmes inspirées des « cartes »
observées dans le système visuel du cerveau. Hubel et Wiesel ont découvert
que les neurones des couches inférieures du cortex visuel sont
physiquement arrangés de manière à former un vague quadrillage dans
lequel chaque neurone réagit à une petite région du champ visuel. Imaginez
que vous survoliez de nuit Los Angeles en avion et que vous preniez une
photo ; les lumières que vous voyez sur votre photo forment une carte
approximative des principaux points d’intérêt de la ville illuminée. D’une
manière analogue, l’activation des neurones quadrillant chaque couche du
cortex visuel forme une carte approximative des principales caractéristiques
de la scène visuelle. Imaginez maintenant que vous ayez un appareil
photographique très spécial, capable de produire des photos distinctes pour
les lumières des maisons, les lumières des immeubles et les lumières des
voitures. C’est ce que fait à peu près le cortex visuel : chaque
caractéristique visuelle importante a sa propre carte neuronale. La
combinaison de ces cartes joue un rôle crucial dans la naissance de notre
perception d’une scène.
Comme les neurones du cortex visuel, les unités d’un ConvNet se
comportent comme des détecteurs d’importantes caractéristiques visuelles,
chaque unité recherchant la caractéristique qui lui est attribuée dans une
région précise du champ visuel. Et comme (très approximativement) dans le
cortex visuel, chaque couche d’un ConvNet se compose de plusieurs
quadrillages de ces unités, chaque quadrillage formant une carte
d’activation pour une caractéristique visuelle donnée.
Quelles caractéristiques visuelles les unités du ConvNet doivent-elles
détecter ? Regardons d’abord le cerveau. Hubel et Wiesel ont observé que
les neurones des couches inférieures du cortex visuel se comportent comme
des détecteurs de contours, où le terme contour désigne une frontière entre
deux zones d’image contrastées. Chaque neurone reçoit une entrée
correspondant à une petite zone précise de la scène visuelle ; cette zone est
ce qu’on appelle le « champ récepteur du neurone ». Le neurone ne s’active
(c’est-à-dire ne se met à se déclencher plus rapidement) que si son champ
récepteur contient le type de contour qui lui est associé.
En fait, ces neurones ne réagissent pas à n’importe quel type de contour.
Certains neurones ne s’activent que si leur champ récepteur contient un
contour vertical ; d’autres ne réagissent qu’à un contour horizontal ;
d’autres encore ne se déclenchent que lorsque les contours dans leur champ
réceptif ont certaines orientations. L’une des plus importantes découvertes
de Hubel et Wiesel est que chaque petite région de notre champ visuel
correspond aux champs récepteurs d’un nombre important de ces neurones
« détecteurs de contours ». Autrement dit, lors d’un traitement visuel de bas
niveau, vos neurones déterminent les orientations des contours dans chaque
zone de la scène que vous regardez. L’activation des neurones détecteurs de
contours se propage dans les couches supérieures du cortex visuel, dont les
neurones semblent être des détecteurs de formes, objets et visages
spécifiques*5.
Il s’avère que la première couche de notre ConvNet imaginaire se
compose d’unités détectrices de contours. La figure 11 montre un
agrandissement de la couche 1 de notre ConvNet. Cette couche se compose
de trois cartes d’activation, chacune formant un quadrillage d’unités.
Chaque unité d’une carte d’activation correspond à l’emplacement analogue
dans l’image d’entrée et reçoit son entrée d’une petite région située autour
de cet emplacement – son champ récepteur. (En général, les champs
récepteurs d’unités voisines se chevauchent.) Chaque unité de chaque carte
calcule une valeur d’activation qui mesure le niveau de « correspondance »
de cette région avec l’orientation du contour privilégiée par l’unité – par
exemple, verticale, horizontale ou autre.
Figure 11. Cartes d’activations de la première couche de notre ConvNet

La figure 12 montre en détail comment les unités de la carte 1 – celles


qui détectent les contours verticaux – calculent leurs activations. Les petits
carreaux blancs dans l’image d’entrée représentent les champs récepteurs de
deux unités différentes. Une fois agrandis, les fragments d’image contenus
dans ces champs récepteurs apparaissent sous forme d’un tableau de valeurs
de pixels. Pour simplifier, j’ai représenté chaque fragment d’image par un
quadrillage de 3 sur 3 pixels (par convention, les valeurs vont de 0 à 255 –
plus le pixel est clair, plus sa valeur est élevée). Chaque unité reçoit en
entrée les valeurs de pixel associées à son champ récepteur. Elle multiplie
ensuite chaque entrée par son poids et additionne les résultats obtenus pour
obtenir son activation.
Figure 12. Utilisation des convolutions pour détecter les contours verticaux.
Par exemple, pour les poids indiqués, la convolution du champ récepteur supérieur avec
la grille de poids est égale
à (200 × 1) + (110 × 0) + (70 × −1) + (190 × 1) + (90 × 0) + (80 × −1) + (220 × 1) + (70 × 0)
+ (50 × −1) = 410.

Les poids montrés à la figure 12 sont choisis pour donner une forte
activation positive lorsque le champ récepteur contient un contour vertical
séparant le clair du foncé (autrement dit, un net contraste entre la gauche et
la droite du fragment entré). Le champ récepteur supérieur contient un
contour vertical frontière entre la robe claire du chien et l’herbe plus foncée.
Cela se traduit par la valeur élevée de l’activation (410). Le champ
récepteur inférieur ne contient pas un tel contour : on n’y voit que de
l’herbe sombre, et l’activation (-10) est plus proche de 0. Notez qu’un
contour vertical séparant le sombre du clair donnera une valeur négative
« élevée » (autrement dit, une valeur négative éloignée de 0).
Ce calcul – multiplier chaque valeur d’un champ récepteur par son poids
et additionner les résultats – s’appelle une convolution. D’où l’expression
« réseau neuronal convolutif ». J’ai dit plus haut que dans un ConvNet, une
carte d’activation est un quadrillage d’unités correspondant aux champs
récepteurs qui couvrent l’image entière. Chaque unité d’une carte
d’activation utilise les mêmes poids pour calculer une convolution avec son
champ récepteur ; imaginez l’image d’entrée avec le carré blanc glissant le
long de chaque fragment de l’image*6. La carte d’activation que l’on obtient
est représentée à la figure 12 : le pixel central du champ récepteur d’une
unité est coloré en blanc pour les activations positives et négatives élevées
et en sombre pour les activations proches de zéro. Vous pouvez voir que les
zones blanches font ressortir les endroits où existent des contours verticaux.
Les cartes d’activation 2 et 3 de la figure 11 ont été créées de la même
façon, mais avec des poids qui mettent respectivement en évidence les
contours horizontaux et inclinés. Prises ensemble, les cartes des unités de la
couche 1 détectrices de contours donnent au ConvNet une représentation de
l’image d’entrée en termes de contours orientés dans différentes régions, ce
qui ressemble à ce que donnerait un programme détecteur de contours.
Un ConvNet (comme le cerveau) présente la scène visuelle comme une
collection de cartes reflétant les spécialités spécifiques d’un ensemble de
détecteurs. Dans mon exemple de la figure 11, ces spécialités sont les
diverses orientations des contours. Nous allons le voir cependant, dans les
ConvNets, le réseau lui-même apprend ce que devraient être ses spécialités-
détecteurs ; celles-ci dépendent de la tâche spécifique pour laquelle il est
formé.
La fabrication de cartes ne se limite pas à la couche 1 de notre ConvNet.
Vous le voyez à la figure 10, toutes les couches ont une structure similaire :
un ensemble de détecteurs créant chacun sa propre carte d’activation. L’une
des clés de la réussite du ConvNet est que – encore une fois tout comme
dans le cerveau – ces cartes sont hiérarchisées : les entrées des unités de la
couche 2 sont les cartes d’activation de la couche 1, les entrées des unités
de la couche 3 sont les cartes d’activation de la couche 2, et ainsi de suite
pour chaque couche. Dans notre réseau imaginaire, dans lequel les unités de
la couche 1 réagissent aux contours, les unités de la couche 2 sont sensibles
à des combinaisons spécifiques de contours, tels que les coins et les formes
en T. Les détecteurs de la couche 3 sont sensibles à des combinaisons de
combinaisons de contours. Quand vous montez dans la hiérarchie, les
détecteurs deviennent sensibles à des caractéristiques de plus en plus
complexes – ce que Hubel, Wiesel et d’autres ont observé dans le cerveau.
Notre ConvNet imaginaire possède quatre couches, chacune dotée de
trois cartes, mais dans le monde réel, ces réseaux peuvent avoir bien plus de
couches – parfois des centaines – chacune contenant un nombre différent de
cartes d’activation. La détermination de ces aspects et de nombreux autres
de la structure d’un ConvNet fait partie de l’art d’amener ces réseaux
complexes à exécuter une tâche donnée. J’ai évoqué au chapitre 3 les
spéculations de I. J. Good concernant une future « explosion de
l’intelligence » dans laquelle les machines elles-mêmes créeront des
machines de plus en plus intelligentes. Nous n’en sommes pas encore là.
Pour l’instant, amener les ConvNets à faire proprement leur travail exige
énormément d’ingéniosité humaine.

La classification dans les ConvNets


Les couches 1 à 4 de notre réseau sont dites « convolutives » parce qu’elles
effectuent chacune des convolutions sur la couche précédente (et la couche
1 effectue des convolutions sur l’entrée). Face à une image d’entrée, chaque
couche effectue l’une après l’autre ses calculs, de sorte qu’à la quatrième
couche, le réseau produit un ensemble de cartes d’activation pour des
caractéristiques relativement complexes. Celles-ci peuvent inclure les yeux,
la forme des pattes, la forme des queues, ou tout autre élément dont le
réseau a appris l’utilité pour classifier les objets sur lesquels il fait son
apprentissage (ici, les chiens et les chats). C’est à ce moment que le module
de classification utilise ces caractéristiques pour prédire l’objet représenté
sur l’image.
Le module de classification est en fait un réseau neuronal traditionnel
complet, semblable à celui que j’ai décrit au chapitre 2*7. Les entrées dans
ce module sont les cartes d’activation de la couche convolutive supérieure.
La sortie du module est un ensemble de pourcentages, un pour chaque
catégorie possible, et évalue la confiance avec laquelle le réseau affirme que
l’entrée représente une image de cette catégorie (ici, chien ou chat).
Permettez-moi de résumer cette brève présentation des ConvNets :
inspiré par les découvertes de Hubel et Wiesel sur le cortex visuel cérébral,
un ConvNet prend une image d’entrée et la transforme – via des
convolutions – en un ensemble de cartes d’activation aux caractéristiques
de plus en plus complexes. Les caractéristiques de la couche convolutive
supérieure sont injectées dans un réseau neuronal traditionnel (que j’ai
appelé « module de classification »), qui génère des pourcentages de
confiance pour les catégories d’objets connues du réseau. Celle qui est
dotée de la confiance la plus élevée donne la classification de l’image selon
le réseau*8.
Aimeriez-vous essayer un ConvNet performant ? Si oui, prenez
simplement la photo d’un objet puis chargez-la sur le moteur « Recherche
par image » de Google*9. Google la soumet alors à un ConvNet et, en
fonction des confiances résultantes (plusieurs milliers de catégories d’objets
possibles), vous indique sa « meilleure estimation » pour votre photo.

L’apprentissage d’un ConvNet


Dans sa première couche, notre ConvNet imaginaire contient des détecteurs
de contours, mais dans les ConvNets du monde réel, ces détecteurs ne sont
pas intégrés. Au lieu de cela, c’est à partir d’exemples d’apprentissage que
les ConvNets apprennent les caractéristiques que chaque couche doit
détecter, ainsi que la procédure définissant les poids dans le module de
classification de manière à donner des réponses jouissant d’une confiance
élevée. Et comme dans les réseaux neuronaux traditionnels, tous ces poids
peuvent s’ajuster à partir de données via le même algorithme de
rétropropagation que j’ai décrit au chapitre 2.
Pour être plus précis, voici comment vous pourriez apprendre à votre
ConvNet à identifier une photo de chien ou de chat. Tout d’abord, recueillez
de nombreux exemplaires de photos de chiens et de chats – ce sera votre
« ensemble d’apprentissage ». Créez également un fichier qui attribue une
étiquette à chaque image – c’est-à-dire « chien » ou « chat ». (Ou mieux,
inspirez-vous des chercheurs en vision par ordinateur : engagez un
doctorant pour faire tout ce travail à votre place. Si vous êtes vous-même
doctorant, engagez un étudiant en Maîtrise. Personne n’apprécie cette
corvée !) Votre programme d’apprentissage attribue initialement des valeurs
aléatoires aux poids du réseau. Puis il commence l’apprentissage : une à
une, il entre chaque image dans le réseau ; celui-ci effectue ses calculs
couche par couche pour finalement sortir des pourcentages de confiance
pour « chien » et « chat ». Pour chaque image, votre programme
d’apprentissage compare ces valeurs de sortie aux valeurs « correctes » ;
par exemple, si la photo est celle d’un chien, alors la confiance pour
« chien » doit être de 100 % et celle pour « chat » de 0 %. Le programme
d’apprentissage utilise ensuite l’algorithme de rétropropagation pour
modifier légèrement les poids du réseau de sorte que la prochaine fois qu’il
voit cette image, ses confiances soient plus proches des valeurs correctes.
La procédure – entrer l’image, puis calculer l’erreur à la sortie, puis
modifier les poids – pour chaque photo de l’ensemble d’apprentissage
s’appelle une « époque » d’apprentissage. L’apprentissage d’un ConvNet
nécessite de multiples époques, durant lesquelles le réseau traite et retraite
autant de fois chaque image. Au début, le réseau reconnaît très mal les
chiens et les chats, mais peu à peu, au fil des époques, à mesure que ses
poids évoluent, ses performances s’améliorent. Il arrive finalement un
moment où il « converge », autrement dit où ses poids cessent de varier
énormément d’une époque à la suivante et où (en principe !) il excelle dans
la reconnaissance des chiens et des chats sur les photos de l’ensemble
d’apprentissage. Mais nous ne saurons pas si ses compétences ont une
portée universelle tant que nous n’aurons pas vu s’il peut appliquer ce qu’il
a appris à l’identification d’images autres que celles de l’ensemble
d’apprentissage. Le point réellement intéressant est que, même si les
ConvNets ne sont pas obligés par un programmeur d’apprendre à détecter
des types de caractéristiques fixés à l’avance, lorsqu’ils sont entraînés à
partir de grands ensembles de photos du monde réel, ils semblent
effectivement découvrir une hiérarchie de détecteurs similaire à ce que
Hubel et Wiesel ont découvert dans le système visuel du cerveau.
Le prochain chapitre va retracer l’extraordinaire transformation qui mena
les ConvNets d’une relative obscurité à une domination quasi complète
dans le domaine de la vision par ordinateur, transformation rendue possible
par une révolution technologique concurrente : celle du « big data ».
5

ConvNets et ImageNet

Yann LeCun, l’inventeur des ConvNets, a travaillé sur les réseaux


neuronaux durant toute sa vie professionnelle, qui débuta dans les
années 1980 et se poursuivit durant les hivers et les printemps de cette
spécialité. Lors de ses études, il se fascina pour les perceptrons de
Rosenblatt et le néocognitron de Fukushima, mais remarqua que ce dernier
réseau manquait d’un bon algorithme d’apprentissage supervisé. Avec
d’autres chercheurs (surtout son directeur de recherche postdoctorale,
Geoffrey Hinton), LeCun contribua au développement d’une telle méthode
d’apprentissage – de même forme, essentiellement, que celle de la
rétropropagation utilisée aujourd’hui sur les ConvNets*1.
Dans les années 1980 et 1990, alors qu’il travaillait aux Laboratoires
Bell, LeCun s’attaqua au problème de la reconnaissance de chiffres et de
lettres manuscrits. Associant des idées empruntées au néocognitron avec
l’algorithme de rétropropagation du gradient, il inventa le semi-éponyme
« LeNet » – l’un des tout premiers ConvNets. Les aptitudes de LeNet à la
reconnaissance de chiffres manuscrits en firent un succès commercial : dans
les années 1990 et 2000, il fut utilisé par les services postaux américains
pour la reconnaissance automatique des codes postaux écrits sur le courrier
(« ZIP code »), et dans le secteur bancaire pour la lecture automatique des
chiffres sur les chèques.
LeNet et les premiers ConvNets qui lui succédèrent ne se montrèrent pas
à la hauteur pour des tâches de reconnaissance plus complexes. Au milieu
des années 1990, les réseaux neuronaux commencèrent à tomber en
défaveur au sein de la communauté de l’IA, et d’autres méthodes en vinrent
à dominer ce champ de recherche. Mais LeCun, qui avait encore la foi,
continua de travailler sur les ConvNets et peu à peu les améliora. Geoffrey
Hinton dira plus tard à son propos : « Il a en quelque sorte porté le flambeau
durant la traversée des ténèbres. »*2
LeCun, Hinton et d’autres loyalistes des réseaux neuronaux pensaient
que des versions plus grandes et améliorées des ConvNets et d’autres
réseaux profonds maîtriseraient la vision par ordinateur pour peu que l’on
pût les entraîner avec suffisamment de données. Durant les années 2000, ils
continuèrent avec obstination de travailler sur le sujet. En 2012, le flambeau
porté par les chercheurs travaillant sur le ConvNet embrasa soudain le
monde de la vision en remportant une compétition de vision par ordinateur
sur un ensemble de données images appelé ImageNet.

Construire ImageNet
Les chercheurs en IA ayant l’esprit de compétition, il n’est pas surprenant
qu’ils aiment organiser des concours pour stimuler les recherches. Dans le
domaine de la reconnaissance visuelle d’objets, ils organisent depuis
longtemps des concours annuels pour primer les auteurs des programmes
les plus performants. Chacun de ces concours comporte un « ensemble de
données de référence », à savoir un ensemble de photos portant des
étiquettes d’origine humaine qui indiquent les objets présents sur les photos.
De 2005 à 2010, le plus prestigieux de ces concours fut le PASCAL
Visual Object Classes (classes d’objets visuels Pascal), qui en 2010
comportait quelque quinze mille photographies (téléchargées sur le site de
partage de photos Flickr) et des étiquettes humaines pour vingt catégories
d’objets, telles que « personne », « chien », « cheval », « brebis », « auto »,
« vélo », « divan » et « plante d’intérieur ».
Les entrées de la partie « classification » de ce concours*3 étaient des
programmes de vision par ordinateur capables de prendre une photo comme
entrée (sans voir son étiquette d’origine humaine) et pouvant dire ensuite,
pour chacune des vingt catégories, si un objet de la catégorie concernée
était présent sur la photo.
Voici comment fonctionnait la compétition. Les organisateurs séparaient
les photos en un ensemble d’apprentissage que les participants pouvaient
utiliser pour entraîner leurs programmes et un ensemble d’évaluation, non
divulgué aux participants, qui servait à évaluer les performances des
programmes sur les photos qui ne se trouvaient pas dans l’ensemble
d’apprentissage. L’ensemble d’apprentissage était mis en ligne avant la
compétition, et pendant la compétition, les chercheurs soumettaient leurs
programmes qui étaient alors testés sur l’ensemble d’évaluation tenu secret.
L’entrée gagnante était celle qui reconnaissait avec la plus grande précision
les objets des images de l’ensemble d’évaluation.
Les concours annuels PASCAL étaient très importants et ont énormément
stimulé la recherche en reconnaissance d’objets. Durant leur existence, les
programmes candidats se sont progressivement améliorés (curieusement,
les plantes d’intérieur restèrent les objets les plus difficiles à reconnaître).
Certains chercheurs étaient cependant frustrés par le fait que les données de
référence des concours PASCAL ne permettaient pas de faire progresser la
vision par ordinateur. En se concentrant trop sur les vingt catégories
d’objets du PASCAL, les participants ne construisaient pas de système
susceptible de traiter la multitude de catégories d’objets reconnues par les
humains. En outre, l’ensemble de données ne contenait pas suffisamment de
photos pour que les systèmes en compétition apprennent toutes les variantes
possibles de l’apparence des objets et puissent généraliser de manière
satisfaisante.
Pour progresser, ce champ de recherche avait besoin d’un nouvel
ensemble de données de référence, qui aurait contenu bien plus de
catégories et énormément plus de photos. Fei-Fei Li, jeune enseignante de
la vision par ordinateur à Princeton, s’intéressait particulièrement à cet
objectif. Par un heureux hasard, elle apprit l’existence d’un projet conçu par
un collègue de Princeton, le psychologue George Miller, dans le but de
créer une base de données de mots anglais, classés selon une hiérarchie
allant du plus précis au plus général et regroupant les synonymes.
Considérez par exemple le mot cappuccino. La base de données, appelée
WordNet, donne sur ce terme l’information suivante (une flèche ⇒ signifie
« est une sorte de ») :

cappuccino ⇒
café ⇒ boisson ⇒ nourriture ⇒ substance ⇒ entité

physique entité

La base de données contient également une information disant par


exemple que boisson, apéritif et potable sont synonymes, que boisson fait
partie d’une autre chaîne incluant liquide, et ainsi de suite.
WordNet a été (et continue d’être) abondamment utilisée dans leurs
recherches par les psychologues, les linguistes, ainsi qu’en IA dans les
systèmes de traitement du langage naturel, mais Fei-Fei Li a eu une idée
nouvelle : créer une base de données images structurée par les noms de
WordNet, dans laquelle chaque nom est lié à un grand nombre d’images
contenant des exemples de ce nom. Ainsi naquit l’idée d’ImageNet.
Li et ses collaborateurs commencèrent bientôt à recueillir un déluge
d’images en utilisant les noms de WordNet pour questionner des moteurs de
recherche d’images tels que Flickr and Google image. Toutefois, si vous
avez déjà utilisé un tel moteur, vous savez que les résultats d’une demande
sont souvent loin d’être parfaits. Par exemple, si vous entrez « macintosh
apple » (une variété de pomme très répandue aux États-Unis) dans Google
image, vous obtenez des photos non seulement de pommes et d’ordinateurs
Mac, mais aussi de bougies en forme de pomme, de smartphones, de
bouteilles de cidre, et de quantités d’autres objets non pertinents. Ainsi, Li
et ses collègues ont dû charger des humains de déterminer et éliminer les
images qui n’étaient en fait pas des illustrations d’un nom donné. Au début,
les humains qui firent cela étaient essentiellement des étudiants de premier
cycle. Le travail était atrocement lent et pénible. Li se rendit rapidement
compte qu’à ce rythme-là, il faudrait quatre-vingt-dix ans pour en venir à
bout*4.
Li et ses collaborateurs se demandèrent comment automatiser ce travail à
l’aide d’un ordinateur, mais bien sûr le problème de décider si une photo est
une instance d’un nom particulier est la tâche même de la reconnaissance
d’objet ! Et les ordinateurs étaient loin d’être fiables pour cette tâche, qui
était la raison première qui avait conduit à la construction d’ImageNet.
Le groupe resta dans une impasse jusqu’à ce que Li tombe par hasard sur
un site Web vieux de trois ans capable de fournir les intelligences humaines
nécessaires pour ImageNet. Ce site portait l’étrange nom d’Amazon
Mechanical Turk (le Turc mécanique d’Amazon).

Le Turc mécanique
Selon Amazon, son service Turc mécanique est « un marché destiné à du
travail exigeant de l’intelligence humaine. » Ce service met en relation des
demandeurs, qui ont besoin de l’accomplissement d’une tâche difficile pour
les ordinateurs, avec des travailleurs, qui acceptent de mettre leur
intelligence humaine au service de l’accomplissement de cette tâche contre
une petite rémunération (par exemple, dix cents par photo pour étiqueter les
objets qu’elle contient). Aux quatre coins du monde, des centaines de
milliers de travailleurs ont signé ce genre de contrat. Le Turc mécanique est
l’incarnation du dicton de Marvin Minsky « les choses faciles sont
difficiles » : des travailleurs humains sont recrutés pour effectuer des tâches
« faciles » qui sont actuellement trop difficiles pour les ordinateurs.
Le nom Turc mécanique vient d’un célèbre canular remontant à l’IA du
xviii siècle et présentant une « machine intelligente » joueuse d’échecs qui
e

dissimulait un humain manipulant une marionnette (le « Turc », vêtu


comme un sultan ottoman) qui déplaçait les pièces. Bien entendu, il
mystifia de nombreuses personnalités de l’époque, notamment Napoléon
Bonaparte. Le service d’Amazon, bien que ne cherchant nullement à
tromper qui que ce soit, est, comme le Turc mécanique originel, une
« Intelligence Artificielle artificielle »*5.
Fei-Fei Li perçut que si son groupe payait des dizaines de milliers de
travailleurs sur le Turc mécanique afin de repérer les images non pertinentes
pour chacun des termes de WordNet, la construction de l’ensemble des
données pourrait être achevée en quelques années pour un coût relativement
faible. En à peine deux ans, plus de trois millions d’images furent étiquetées
conformément aux noms de WordNet pour former l’ensemble de données
ImageNet. Pour le projet ImageNet, le Turc mécanique fut « une
aubaine »*6. Le service est encore largement utilisé par des chercheurs en IA
pour créer des ensembles de données ; de nos jours, les propositions de
subventions académiques en IA incluent souvent un item pour « travailleurs
sur le Turc mécanique ».

Les compétitions ImageNet


En 2010, le projet ImageNet lança le premier ImageNet Large Scale Visual
Recognition Challenge (ILSVRC, compétition ImageNet de reconnaissance
visuelle à grande échelle) afin d’accélérer le développement d’algorithmes
plus généraux dans le domaine de la reconnaissance d’objets. Trente-cinq
programmes prirent part au concours, qui émanaient de chercheurs en
vision par ordinateur provenant d’universités et industries du monde entier.
Les concurrents reçurent des images d’apprentissage étiquetées – 1,2
million en tout – et une liste des catégories possibles. Les programmes
devaient ensuite trouver la bonne catégorie de chaque image dans un
ensemble de test consistant en un nombre important d’images d’évaluation
qui ne faisaient pas partie de l’ensemble d’apprentissage. Cette compétition
proposait un millier de catégories possibles – contre vingt pour les concours
PASCAL.
Ce millier de catégories possibles était un sous-ensemble de termes
choisis dans WordNet par les organisateurs. Ces catégories sont un
assemblage aléatoire de noms, allant de termes familiers et banals
(« citron », « château », « piano à queue »), parfois moins banals
(« viaduc », « bernard-l’ermite », « métronome »), parfois encore carrément
obscurs (« lévrier écossais », « tournepierre à collier », « patas »). En fait,
les animaux et plantes obscurs – du moins ceux que je serais incapable de
distinguer – constituent au moins un dixième du millier de catégories cibles.
Certaines photos ne contiennent qu’un objet ; d’autres en contiennent
plusieurs, objet « correct » compris. En raison de cette ambiguïté, un
programme donne cinq catégories par image, et si la catégorie correcte est
dans le lot, la réponse du programme est considérée comme correcte pour
cette image. C’est ce que l’on appelle la métrique des cinq meilleures.
En 2010, le programme le plus performant utilisa une machine à vecteurs de
support – SVM, l’algorithme de reconnaissance d’objets qui prédominait à
l’époque – qui employait des mathématiques sophistiquées pour apprendre
comment assigner une catégorie à chaque image de l’ensemble de test.
Utilisant la métrique des cinq meilleures (le « top-5 »), ce programme
lauréat eut raison pour 72 % des 150 000 images de test. Pas mal, mais cela
signifiait qu’il se trompait, même avec les cinq réponses autorisées, pour
plus de 40 000 de ces images, et donc qu’il y avait encore bien des progrès
à accomplir. Notons qu’aucun réseau neuronal ne figurait parmi les
programmes les plus performants.
L’année suivante, le programme lauréat – qui utilisait également des
machines à vecteurs de support – fit preuve d’un progrès respectable mais
modeste en ayant raison pour 74 % des images de test. La plupart des gens
du métier pensaient que cette tendance se maintiendrait : les recherches sur
la vision par ordinateur régleraient peu à peu le problème, via les
améliorations graduelles présentées chaque année lors de la compétition.
Ces attentes furent toutefois bouleversées lors de l’édition 2012 du
concours : le programme lauréat eut raison pour 85 % des images. Un tel
bond de précision était stupéfiant. Qui plus est, ce programme n’utilisait ni
machine à vecteurs de support ni aucune des méthodes de vision par
ordinateur alors dominantes. Il utilisait simplement un réseau neuronal
convolutif. Ce ConvNet particulier fut baptisé AlexNet, d’après le nom de
son principal inventeur, Alex Krizhevsky, à l’époque étudiant en thèse à
l’université de Toronto, sous la direction de l’éminent spécialiste des
réseaux neuronaux, Geoffrey Hinton. En collaboration avec Hinton et un
camarade d’étude, Ilya Sutskever, Krizhevsky réalisa une version
augmentée du LeNet créé par Yann LeCun dans les années 1990.
L’entraînement d’un réseau aussi grand était désormais rendu possible par
l’accroissement de la puissance des ordinateurs. AlexNet avait huit couches,
avec environ soixante millions de poids dont les valeurs étaient ajustées par
la rétropropagation à partir de plus d’un million d’images d’apprentissage*7.
Le groupe de Toronto inventa des méthodes astucieuses pour améliorer
l’apprentissage des réseaux, mais il fallut néanmoins environ une semaine
de travail à un cluster de puissants ordinateurs pour entraîner AlexNet.
Le succès d’AlexNet secoua fortement les communautés de la vision par
ordinateur et plus généralement de l’intelligence artificielle, qui prirent
soudain conscience du pouvoir potentiel des ConvNets, que la plupart des
chercheurs en IA n’avaient pas considérés comme de réels rivaux dans le
domaine de la vision par ordinateur. Dans un article de 2015, le journaliste
Tom Simonite interrogea Yann LeCun sur ce triomphe inattendu des
ConvNets :

LeCun se rappelle avoir vu la communauté qui, dans sa majorité avait


ignoré les réseaux neuronaux, se presser dans la salle où les lauréats
présentaient un article sur leurs résultats. « On pouvait voir quantité de
seniors de la communauté tout simplement décontenancés, » dit-il. « Ils
dirent “OK, maintenant nous y croyons. Oui, voilà – vous avez gagné.” »*8

À peu près à la même époque, le groupe de Geoffrey Hinton démontrait


lui aussi que les réseaux neuronaux profonds, entraînés sur d’énormes
quantités de données étiquetées, étaient significativement supérieurs à ce
qui était alors les meilleurs systèmes de reconnaissance de la parole.
L’ImageNet et les résultats en reconnaissance de la parole du groupe de
Toronto eurent des conséquences considérables. En une année, une petite
entreprise lancée par Hinton fut rachetée par Google, et Hinton et ses
étudiants Krizhevsky et Sutskever devinrent employés de Google. Cet
acqui-hiring plaça instantanément Google à l’avant-garde de l’apprentissage
profond.
Peu après, Yann LeCun délaissa son poste d’enseignant à temps plein à
New York University pour diriger le nouveau laboratoire d’IA de Facebook.
Il ne fallut pas longtemps pour que toutes les grosses firmes technologiques
(ainsi qu’un bon nombre des plus petites) mettent le grappin sur les experts
en apprentissage profond et leurs étudiants. Du jour au lendemain,
apparemment, l’IA sembla se réduire à l’apprentissage profond, et
l’expertise en apprentissage profond devint, pour les informaticiens, la
garantie d’un salaire élevé dans la Silicon Valley ou, mieux encore, d’un
financement par capital-risque de leurs foisonnantes start-up spécialisées en
apprentissage profond.
La compétition annuelle ImageNet commença à faire l’objet d’une plus
large couverture médiatique et d’affrontement académique amical se
transforma rapidement en joutes de haut niveau entre entreprises
technologiques commercialisant la vision par ordinateur. Remporter
l’ImageNet garantissait un respect convoité de la part de la communauté de
la vision, ainsi qu’une publicité gratuite, tout cela pouvant éventuellement
se traduire par des ventes de produit et une hausse des actions. La pression
exercée pour produire des programmes plus performants que ceux des
concurrents fut particulièrement manifeste en 2015 dans un cas de tricherie
impliquant l’entreprise internet géante chinoise Baidu. Cette tricherie fut un
subtil exemple de ce que les spécialistes de l’apprentissage automatique
appellent le data snooping (triturage de données).
Voici ce qui s’est passé : avant la compétition, chaque équipe concurrente
recevait des images d’apprentissage étiquetées avec les bonnes catégories
d’objets. Elle recevait également un grand ensemble d’évaluation – un
assortiment d’images n’appartenant pas à l’ensemble d’apprentissage – sans
la moindre étiquette. Une fois terminée la phase d’entraînement sur ces
images, l’équipe pouvait évaluer la performance du programme sur cet
ensemble d’évaluation. Cela permet de voir à quel point le programme a
appris à généraliser (en ce que cela s’oppose, par exemple, à la
mémorisation des images d’apprentissage et de leurs étiquettes). Seule
compte la performance sur l’ensemble d’évaluation. Pour juger de la
performance de son programme, l’équipe le faisait tourner sur chaque
image de l’ensemble d’évaluation, recueillait les cinq meilleurs résultats
pour chaque image, et soumettait cette liste à un « serveur de test » – un
ordinateur activé par les organisateurs de la compétition. Ce serveur de test
comparait ensuite la liste soumise aux réponses correctes (secrètes) et
donnait le bon pourcentage.
Chaque équipe pouvait créer un compte sur le serveur de test et l’utiliser
pour voir les scores des diverses versions de ses programmes ; cela lui
permettait de publier (et promouvoir) ses résultats avant l’annonce des
résultats officiels.
Une règle cardinale en matière d’apprentissage machine est « Pas
d’apprentissage sur les données de test ». Cela semble évident : si vous
incluez les données de test dans l’apprentissage de votre programme, vous
n’obtiendrez pas une bonne évaluation de ses aptitudes à la généralisation.
Ce serait comme donner aux étudiants les questions de l’examen de fin
d’année avant qu’ils ne le passent. Il s’avère toutefois qu’il existe des
moyens subtils de contourner involontairement (ou volontairement) cette
règle et de faire apparaître les performances de votre programme meilleures
qu’elles ne le sont en réalité.
Vous pouvez par exemple soumettre au serveur de test les réponses de
votre programme à l’ensemble d’évaluation et, en fonction du résultat,
ajuster votre programme, puis recommencer de nombreuses fois l’opération
jusqu’à l’obtention d’un meilleur résultat sur l’ensemble d’évaluation. Cela
ne nécessite pas de voir les étiquettes réelles dans l’ensemble d’évaluation,
mais nécessite un feedback sur le score du programme sur les données de
test. Vous modifiez alors votre programme en fonction du score obtenu. Si
vous faites cela suffisamment de fois, vous pouvez grandement améliorer
les performances de votre programme sur l’ensemble d’évaluation. Mais en
utilisant l’information issue de l’ensemble d’évaluation pour modifier votre
programme, vous ne pouvez plus réutiliser le même ensemble d’évaluation
pour voir si votre programme généralise de manière satisfaisante. Ce serait
comme permettre à des étudiants de passer de nombreuses fois un examen
de fin d’année en recevant à chaque fois une seule note, mais en l’utilisant
pour tenter d’améliorer leur performance la fois suivante. À la fin, les
étudiants finiraient par soumettre la version de leurs réponses qui a obtenu
la meilleure note. Ce n’est pas une bonne mesure du niveau de connaissance
que les étudiants ont de leur sujet ; ce n’est qu’une mesure de l’adaptation
de leurs réponses à des questions d’examen.
Pour empêcher ce type de data snooping tout en autorisant les
concurrents d’ImageNet à suivre la performance de leurs programmes sur
les images de l’ensemble de test, les organisateurs introduisirent une règle
limitant à un maximum de deux par semaine le nombre de fois qu’une
équipe pouvait soumettre ses réponses au serveur de test. Cela devait limiter
le nombre de retours que les équipes pourraient tirer de leurs essais.
La grande bataille de l’ImageNet de 2015 porta sur une fraction d’un
point de pourcentage – apparemment insignifiante, mais potentiellement
très lucrative. Au début de l’année, une équipe de Baidu annonça avoir
trouvé une méthode donnant à ce jour la meilleure performance top-5 sur un
ensemble d’évaluation d’ImageNet : 94,67 %, pour être précis. Mais le
même jour, une équipe de Microsoft annonça avoir une méthode donnant
une meilleure précision : 95,06 %. Quelques jours plus tard, une équipe
rivale de chez Google annonça avoir une méthode légèrement différente qui
faisait encore mieux : 95,18 %. Ce record tint quelques mois, jusqu’à une
nouvelle annonce de Baidu : elle avait amélioré sa méthode et
s’enorgueillissait maintenant d’un nouveau record : 95,42 %. Ce résultat fut
grandement médiatisé par l’équipe de relations publiques de Baidu.
Mais en quelques semaines, les organisateurs de l’ImageNet publièrent ce
communiqué laconique : « Durant la période allant du 28 novembre 2014
au 13 mai 2015, il y eut au moins 30 comptes utilisés par une équipe de
Baidu pour faire au moins 200 soumissions au serveur de test, dépassant
ainsi de loin la limite des deux soumissions autorisées par semaine. »*9 En
somme, l’équipe de Baidu avait été prise en train de faire du data snooping.
Les deux cents retours permirent potentiellement à l’équipe de Baidu de
déterminer les modifications de son programme qui amélioreraient ses
performances sur cet ensemble d’évaluation et d’obtenir ainsi la précieuse
fraction de pourcentage qui lui donnerait la victoire. En guise de sanction,
Baidu fut disqualifiée de l’édition 2015 du concours.
Espérant minimiser la mauvaise publicité, Baidu présenta rapidement ses
excuses et rejeta la faute sur un employé indélicat : « Nous avons découvert
qu’un chef d’équipe a ordonné à des ingénieurs juniors de soumettre plus de
deux soumissions par semaine, violant ainsi les règles actuelles
d’ImageNet. »*10 Bien que contestant avoir violé la moindre règle,
l’employé fut promptement licencié.
Si cet événement n’est qu’une intéressante anecdote dans la plus grande
histoire de l’apprentissage profond en vision par ordinateur, il montre
cependant à quel point la compétition ImageNet était arrivée à être perçue
comme le symbole clé du progrès dans le domaine de la vision par
ordinateur et de l’IA en général.
Tricherie mise à part, le progrès sur ImageNet s’est poursuivi.
La dernière compétition eut lieu en 2017, avec une performance top-5
gagnante de 98 %. Un journaliste a écrit : « Aujourd’hui, nombre de gens
considèrent que le problème ImageNet est résolu, »*11 du moins pour ce qui
concerne la classification d’images. La communauté poursuit son travail sur
de nouveaux ensembles de données de référence et de nouveaux problèmes,
en particulier ceux qui combinent vision et langage.
Qu’est-ce qui a permis aux ConvNets, qui semblaient être dans une
impasse durant les années 1990, de dominer soudain la compétition
ImageNet et par la suite la majeure partie de la vision par ordinateur lors
des cinq dernières années ? Il s’avère que le récent succès de
l’apprentissage profond résulte moins d’innovations en IA que de la
disponibilité d’énormes quantités de données (merci Internet !) et d’un
matériel informatique hyperrapide pour le traitement des données en
parallèle. Ces facteurs, ainsi que le perfectionnement des méthodes
d’apprentissage, permettent à des réseaux de plusieurs centaines de couches
d’être entraînés sur des millions d’images en à peine quelques jours.
Yann LeCun lui-même fut surpris par la rapidité du changement pour ses
ConvNets : « Il est rare qu’une technologie qui existe depuis vingt, vingt-
cinq ans – pratiquement inchangée – se révèle être la meilleure. La vitesse
avec laquelle les gens l’ont adoptée est tout à fait incroyable. Je n’ai jamais
rien vu de tel auparavant. »*12

La ruée sur le ConvNet


Une fois qu’ImageNet et d’autres grands ensembles de données eurent
fourni aux ConvNets le grand nombre d’exemples d’apprentissage dont ils
avaient besoin pour bien fonctionner, des entreprises furent soudain en
mesure d’utiliser la vision par ordinateur pour des applications radicalement
nouvelles. Comme le remarqua chez Google l’informaticien Blaise Agüera
y Arcas, « Ce fut une sorte de ruée vers l’or – on attaquait les problèmes,
les uns après les autres, avec le même ensemble de techniques. »*13 Utilisant
des ConvNets entraînés par apprentissage profond, les moteurs de recherche
d’images proposés par Google, Microsoft et d’autres purent
considérablement améliorer leur capacité de « recherche d’images
similaires ». Google proposa un système de stockage de photos pour
étiqueter vos photos en décrivant les objets qu’elles contiennent, et Street
View de Google put reconnaître et flouter les adresses des rues et les
plaques d’immatriculation des voitures figurant sur ses photos.
Une prolifération d’applications mobiles permit aux smartphones
d’effectuer en temps réel la reconnaissance d’objets et de visages.
Facebook mit le nom de vos amis sur les photos que vous téléchargiez et
déposa un brevet sur la classification des émotions sous-jacentes aux
expressions faciales dans les photos téléchargées ; Twitter développa un
filtre capable de masquer les tweets concernant les photos
pornographiques ; et plusieurs sites de partage de photos et de vidéos
commencèrent à utiliser des outils détectant les images associées aux
groupes terroristes. Les ConvNets peuvent être appliqués à la vidéo et
utilisés dans les voitures autonomes pour suivre les piétons ; ils peuvent
aussi servir à la lecture sur les lèvres ou à la classification du langage
corporel. Ils peuvent même diagnostiquer des cancers du sein et de la peau
à partir d’images médicales, déterminer le stade de la rétinopathie
diabétique et aider les médecins à planifier les traitements du cancer de la
prostate.
Ce ne sont là que quelques exemples des nombreuses applications
commerciales existantes (ou allant bientôt exister) que l’on doit aux
ConvNets. De fait, il y a de bonnes chances pour que toute application
moderne de la vision par ordinateur que vous utilisez repose sur des
ConvNets. Et il y a d’excellentes chances pour que ces ConvNets aient eu
un « pré-entraînement » sur des images provenant d’ImageNet pour
apprendre des caractéristiques visuelles génériques avant d’être « réglés »
pour des tâches plus spécifiques.
L’intense apprentissage profond requis par les ConvNets n’étant
réalisable que sur du matériel informatique spécialisé – habituellement, de
puissants processeurs graphiques (ou GPU, de l’anglais Graphics
Processing Unit) –, il n’est pas étonnant que le cours de l’action NVIDIA
Corporation, le plus important fabricant de processeurs graphiques, ait
augmenté de plus de 1 000 % entre 2012 et 2017.

Les ConvNets ont-ils surpassé les humains dans la reconnaissance


d’objets ?
En me documentant sur le remarquable succès des ConvNets, je me suis
demandé jusqu’à quel point ils rivalisaient avec nous en termes de
reconnaissance d’objets. En 2015, Baidu publia un article (postérieur au
scandale de tricherie) sous-titré « La performance de niveau humain
dépassée dans la classification d’ImageNet »*14. À la même époque,
Microsoft annonça dans un blog de recherche « une avancée technologique
majeure destinée à identifier les objets présents sur une photo ou dans une
vidéo, via un système dont la performance égale et parfois dépasse celle des
humains. »*15 Si les deux entreprises indiquaient clairement qu’elles
parlaient uniquement de précision sur ImageNet, les médias furent moins
précis, ce qui donna lieu à des titres sensationnalistes tels que « Les
ordinateurs surpassent aujourd’hui les humains dans la reconnaissance et le
tri des images » et « Microsoft a développé un système informatique
capable d’identifier des objets mieux que les humains. »*16
Examinons de plus près cette affirmation selon laquelle les ordinateurs
« surpassent aujourd’hui les humains » dans la reconnaissance d’objets sur
ImageNet. Elle repose sur une autre affirmation selon laquelle les humains
ont un taux d’erreur top-5 d’environ 5 % alors que celui des ordinateurs est
(au moment où ces lignes sont écrites) proche de 2 %. Cela ne confirme-t-il
pas que les ordinateurs sont meilleurs que les humains dans cette tâche ?
Comme c’est souvent le cas pour les déclarations très médiatisées
concernant l’IA, celle-ci est à prendre avec des pincettes.
Par exemple, quand vous entendez parler d’un ordinateur « qui identifie
correctement les objets », vous pensez que si on lui présente la photo d’un
ballon de basket, il sort « ballon de basket ». Mais dans la compétition
ILSVRC de reconnaissance d’images, pour chaque image dans l’ensemble
de test, le programme produit, non pas une seule réponse, mais cinq
réponses. Si la bonne réponse se trouve parmi les cinq (les top-5), on estime
que l’ordinateur a « reconnu » l’image en question. Donc, si, face à la photo
d’un ballon de basket, l’ordinateur sort dans l’ordre de sa confiance :
« boule de croquet », « bikini », « phacochère », « ballon de basket » et
« camion de déménagement », on considère que l’ordinateur a réussi à
reconnaître le ballon de basket. J’ignore si cela arrive souvent, mais il est
notable que dans la compétition ImageNet de 2017 lorsqu’on considère
uniquement le taux de performance « top-1 », c’est-à-dire la catégorie en
haut de sa liste de cinq possibilités pour chaque image de test, celle en
laquelle il a le plus confiance, la performance tombe à environ 82 %, contre
98 % pour la reconnaissance top-5. Personne, pour autant que je sache, n’a
parlé d’une comparaison entre ordinateurs et humains basée sur la
performance top-1.
Autre exemple : considérez cette affirmation : « Les humains ont un taux
d’erreur d’environ 5 % sur ImageNet. » En fait, « humains » n’est pas tout à
fait juste ; cette affirmation résulte d’une expérience impliquant un seul
humain, un certain Andrej Karpathy, qui à l’époque était étudiant en thèse à
Stanford, travaillait sur l’apprentissage profond et voulait voir s’il pouvait
s’entraîner pour rivaliser avec les meilleurs ConvNets sur ImageNet. Les
ConvNets s’entraînent sur 1,2 million d’images d’apprentissage puis sont
testés sur 150 000 images d’évaluation – une tâche redoutable pour un être
humain. Karpathy, qui tient un blog populaire sur l’IA, a écrit à propos de
cette expérience :

Suite à mon entraînement sur 500 images, je suis passé à un ensemble


d’évaluation [réduit] de 1 500 images. L’étiquetage [c’est-à-dire trouver
cinq catégories par image] s’est déroulé à la vitesse d’à peu près une image
par minute, mais cela s’accéléra avec le temps. Je ne me suis amusé qu’avec
les 200 premières images environ, les autres, je les ai uniquement faites
pour la science. […] Certaines images sont facilement reconnaissables,
tandis que d’autres (par exemple, celles très détaillées de races de chiens,
d’oiseaux ou de singes) peuvent nécessiter plusieurs minutes de
concentration. Je suis devenu très fort pour identifier les races de chiens*17.

Après avoir constaté qu’il s’était trompé sur environ 75 de ses


1 500 images d’évaluation, Karpathy analysa ses erreurs et trouva qu’elles
étaient en grande partie liées aux images contenant de multiples objets, aux
images avec des races particulières de chiens, des espèces particulières
d’oiseaux ou de plantes, etc., et aux catégories d’objets dont il n’avait pas
perçu qu’elles étaient incluses dans les catégories cibles. Par contre, les
erreurs commises par les ConvNets sont de types différents : s’ils sont eux
aussi déroutés par les images contenant de multiples objets, ils tendent,
contrairement aux humains, à ne pas voir les petits objets, les objets
déformés par les couleurs ou les filtres de contraste que le photographe a
utilisés pour sa photo, et les « représentations abstraites » des objets, telles
qu’un tableau, une statue ou une peluche de chien. Ainsi, l’affirmation selon
laquelle les ordinateurs ont surpassé les humains sur ImageNet doit être
prise avec une extrême prudence.
Voici une mise en garde qui vous surprendra peut-être. Lorsqu’un humain
dit qu’une photo contient, disons, un chien, nous supposons que c’est parce
qu’il voit effectivement un chien sur la photo. Mais si un ConvNet dit
« chien », comment savons-nous qu’il fonde sa classification sur le chien de
la photo ? Peut-être la photo contient-elle autre chose – une balle de tennis,
un frisbee, une chaussure mordillée – qui était souvent associée aux chiens
dans les images d’apprentissage, et lorsque le ConvNet reconnaît ces
choses, il suppose qu’il y a un chien sur la photo. Ce type de corrélations
finit souvent par tromper les ordinateurs.
Une chose que nous pourrions faire est de demander à la machine non
seulement d’associer l’image concernée à une catégorie d’objet, mais aussi
d’apprendre à dessiner un encadré autour de l’objet cible, afin que nous
sachions qu’elle « voit » effectivement cet objet. C’est précisément ce que
la compétition ILSVRC ImageNet a commencé de faire lors de sa deuxième
édition avec son « épreuve de localisation ». La localisation a fourni des
images d’apprentissage présentant de tels encadrés tracés (par des gens
payés par Mechanical Turk) autour de l’objet (des objets) cible(s) de chaque
image ; sur les images d’évaluation, la tâche des programmes était de
prédire cinq catégories d’objets, chacune avec les coordonnées de l’encadré
correspondant. Ce qui peut surprendre, c’est que si la performance des
réseaux neuronaux convolutifs d’apprentissage profond s’est avérée
excellente pour la localisation, elle est restée nettement inférieure à leur
performance pour la catégorisation. Il y a maintenant de nouvelles
compétitions qui se focalisent précisément sur ce problème.
Aujourd’hui, les plus importantes différences entre les ConvNets et les
humains dans le domaine de la reconnaissance d’objets portent
probablement sur le déroulement, la robustesse et la fiabilité de
l’apprentissage. Je vais examiner ces différences au prochain chapitre.
Les mises en garde que j’ai évoquées plus haut ne visent pas à déprécier
les récents et surprenants progrès réalisés en vision par ordinateur. Il ne fait
aucun doute que les réseaux neuronaux convolutifs ont connu, dans ce
domaine et dans d’autres, de remarquables réussites qui non seulement ont
eu des retombées commerciales, mais ont aussi fait naître un réel optimisme
au sein de la communauté de l’IA. Ma discussion vise à montrer à quel
point la vision humaine est difficile à implémenter en machine et à
introduire d’autres considérations sur les progrès accomplis jusqu’ici.
L’intelligence artificielle reste loin d’avoir « résolu » le problème de la
reconnaissance d’objets.

Au-delà de la reconnaissance d’objets


Je me suis focalisée dans ce chapitre sur la reconnaissance d’objets parce
qu’elle a été le domaine dans lequel la vision par ordinateur a récemment
connu ses progrès les plus importants. Il est toutefois évident que la vision
est loin de se limiter à la seule reconnaissance des objets. Si l’objectif de la
vision par ordinateur est d’« amener une machine à décrire ce qu’elle voit »,
les machines devront alors reconnaître non seulement les objets mais aussi
les relations qui les unissent et leurs interactions avec le monde. Si les
« objets » en question sont des êtres vivants, les machines auront besoin de
savoir des choses sur leurs actes, leurs objectifs, leurs émotions, sur ce
qu’ils feront probablement dans l’immédiat, et sur tous les autres éléments
qui interviennent dans la description d’une scène visuelle. En outre, si nous
voulons vraiment que les machines décrivent ce qu’elles voient, elles
devront utiliser un langage. Les chercheurs en IA travaillent activement à
amener les machines à faire ces choses, mais comme d’habitude, ces choses
« faciles » sont très difficiles. Comme l’a dit au The New York Times le
spécialiste de la vision par ordinateur Ali Farhadi, « Nous sommes encore
très très loin de l’intelligence visuelle, de la compréhension des scènes et
des actions comme le font les humains. »*18
Pourquoi sommes-nous encore si loin de cet objectif ? Il semble que
l’intelligence visuelle ne puisse être facilement dissociée du reste de
l’intelligence, en particulier de la connaissance générale, de l’abstraction et
du langage – autant d’aptitudes qui, curieusement, impliquent des régions
cérébrales dotées de nombreuses connexions rétroactives avec le cortex
visuel. En outre, il se pourrait que la connaissance nécessaire à une
intelligence visuelle de type humain – par exemple, interpréter la photo
« La soldate et le chien » du début du précédent chapitre – ne puisse
s’acquérir à partir de millions de photos téléchargées sur le Web et doive,
d’une manière ou d’une autre, être vécue dans le monde réel.
Le prochain chapitre va examiner de plus près l’apprentissage machine
dans le domaine de la vision en se concentrant particulièrement sur les
différences entre les humains et les machines au niveau de l’apprentissage
et en essayant de voir ce que les machines que nous avons entraînées ont
effectivement appris.
6

Gros plan sur les machines


qui apprennent

Le pionnier de l’apprentissage profond, Yann LeCun, a reçu de nombreux


prix et distinctions, mais sa récompense suprême, en tout cas pour un
« geek » (c’est-à-dire un techno-obsédé), est peut-être d’être l’objet d’un
compte Twitter parodique très suivi et très drôle d’un certain « Bored Yann
LeCun » (Yann LeCun s’emmerde). Présenté comme une « réflexion sur
l’ascension de l’apprentissage profond aux moments où Yann lève le pied »,
ce compte anonyme termine fréquemment ses subtils tweets pour initiés par
le hashtag #FeelTheLearn*1.
De fait, les reportages dans la presse sur la recherche de pointe en IA
célèbrent le pouvoir de l’apprentissage profond – en mettant l’accent sur
« apprentissage ». On nous dit, par exemple, que « nous savons désormais
construire des systèmes qui apprennent tout seuls à effectuer certaines
tâches »*2, que « l’apprentissage profond [permet aux] ordinateurs d’être
littéralement leurs propres professeurs »*3 et que les systèmes
d’apprentissage profond apprennent « d’une manière similaire à ce que l’on
observe dans le cerveau. »*4
Ce chapitre va regarder plus en détail les processus d’apprentissage des
machines – en particulier, des ConvNets – et en quoi ces processus diffèrent
de ceux des humains. De plus, il examinera en quoi les différences entre
l’apprentissage des ConvNets et celui des humains affectent la robustesse et
la fiabilité de ce qui est appris.

Apprendre seul
La méthode d’apprentissage des réseaux neuronaux profonds à partir des
données s’est généralement révélée plus efficace que la stratégie de la
BOVIA (« bonne vieille IA »)*5, dans laquelle des programmeurs humains
élaborent des règles explicites pour obtenir un comportement intelligent.
Toutefois, contrairement à ce que rapportent certains médias, le processus
d’apprentissage des ConvNets n’est pas très semblable à celui des humains.
Nous l’avons vu, les ConvNets les plus performants apprennent via un
apprentissage supervisé : ils modifient progressivement leurs poids à
mesure qu’ils traitent et retraitent sur de nombreuses époques, les
exemplaires de leur ensemble d’apprentissage. De cette manière, ils
apprennent à classer chaque entrée comme étant l’une d’un ensemble fixe
de catégories possibles. Par contre, même les plus jeunes enfants peuvent
découvrir un ensemble indéterminé de catégories et reconnaître une
instance de la plupart de ces catégories après en avoir seulement vu
quelques exemplaires. En outre, les enfants n’apprennent pas passivement :
ils posent des questions, demandent des informations sur les choses qui les
intéressent, déduisent des abstractions des concepts et des liens entre ces
concepts, et surtout, ils explorent activement le monde.
Il est faux de dire qu’aujourd’hui, les ConvNets performants apprennent
« tout seuls ». Nous l’avons vu au chapitre précédent, pour qu’un ConvNet
apprenne à effectuer une tâche de reconnaissance, il faut accomplir un effort
humain colossal pour collecter, organiser et étiqueter les données, ainsi que
pour concevoir les multiples aspects de l’architecture du ConvNet. Si les
ConvNets utilisent la rétropropagation pour ajuster leurs « paramètres »
(i.e., leurs poids) à partir des exemples d’apprentissage, cet apprentissage
dépend d’un ensemble de ce que l’on appelle des « hyperparamètres » –
terme générique qui renvoie à tous les aspects du réseau qui doivent être
réglés par les humains avant que tout apprentissage puisse commencer. Les
hyperparamètres incluent notamment le nombre de couches du réseau, la
taille des « champs récepteurs » des unités de chaque couche, l’ampleur des
modifications de chaque poids durant l’apprentissage (ce que l’on appelle le
taux d’apprentissage) et de nombreux autres détails techniques du processus
d’apprentissage. Ce réglage des hyperparamètres, nécessite de nombreuses
décisions concernant les valeurs à fixer, ainsi que des décisions complexes
au niveau de l’architecture même du réseau. Les configurations issues de
ces décisions interagissent de manière complexe et affectent la performance
ultime du réseau. En outre, en règle générale, les réglages et les
caractéristiques architecturales du réseau doivent être entièrement repensés
pour chaque tâche traitée par un réseau.
Le réglage des hyperparamètres peut sembler une activité passablement
banale, mais l’effectuer correctement est absolument crucial pour le succès
des ConvNets et d’autres systèmes d’apprentissage machine. En raison de la
nature plutôt ouverte de l’architecture de ces réseaux, il n’est en général pas
possible fixer automatiquement tous ses paramètres et les caractéristiques
architecturales, même avec les outils automatisés. Il faut souvent une sorte
de connaissance cabalistique que les spécialistes de l’apprentissage machine
acquièrent auprès d’experts et au prix d’une expérience durement acquise.
Comme l’a dit Eric Horvitz, directeur du laboratoire de recherche de
Microsoft, « À l’heure actuelle, ce que nous faisons n’est pas de la science,
mais une sorte d’alchimie. »*6 Et les personnes qui savent « chuchoter à
l’oreille des réseaux » forment un petit club très fermé. Selon Demis
Hassabis, cofondateur de DeepMind, chez Google, « tirer le meilleur parti
de ces systèmes est presque une forme d’art. […] Seules quelques centaines
de personnes dans le monde savent vraiment bien faire cela. »*7
En fait, le nombre de spécialistes de l’apprentissage profond est en passe
de croître rapidement. De nombreuses universités proposent aujourd’hui des
cours sur le sujet, et un nombre croissant d’entreprises dispensent désormais
à leurs employés leurs propres programmes de formation en apprentissage
profond. L’appartenance au club de l’apprentissage profond peut s’avérer
très lucrative. J’ai récemment assisté à une conférence lors de laquelle un
responsable du groupe produit IA de Microsoft parla des efforts déployés
par son entreprise pour recruter de jeunes ingénieurs en apprentissage
profond : « Si un jeune sait assurer l’entraînement d’un réseau de neurones
à cinq couches, il peut demander un salaire à cinq chiffres. S’il sait
entraîner un réseau à cinquante couches, il peut exiger un salaire à sept
chiffres. »*8 Par chance pour ce jeune ingénieur, bientôt riche, les réseaux ne
savent pas encore apprendre tout seuls.

Le Big data
Ce n’est pas un secret : l’apprentissage profond nécessite le big data. Big
dans le sens d’au moins un million d’images d’apprentissage étiquetées
dans ImageNet. D’où viennent toutes ces données ? La réponse est bien
sûr : de vous – et probablement de toutes les personnes que vous
connaissez. Les applications modernes de la vision par ordinateur ne sont
possibles que parce qu’existent les milliards d’images que des utilisateurs
d’internet ont téléchargées et (parfois) annotées d’un texte identifiant le
contenu de l’image. Avez-vous déjà mis la photo d’un ami sur votre page
Facebook en l’accompagnant d’un commentaire ? Facebook vous en
remercie ! Cette photo et ce texte ont peut-être servi pour entraîner son
système de reconnaissance faciale. Avez-vous déjà téléchargé une image
vers Flickr ? Si oui, il se peut que votre image fasse partie de l’ensemble
d’apprentissage d’ImageNet. Avez-vous identifié une photo afin de prouver
à un site que vous n’êtes pas un robot ? Votre identification a peut-être aidé
Google à étiqueter une image pour l’utiliser lors de l’apprentissage de son
système de recherche d’image.
De grandes entreprises technologiques proposent gratuitement de
nombreux services sur vos ordinateurs et votre Smartphone : recherches sur
le Web, appels vidéo, e-mails, réseaux sociaux, assistants personnels
automatisés – la liste est longue. Qu’est-ce que cela leur rapporte ?
La réponse que vous avez peut-être entendue est que leur véritable produit
est leurs utilisateurs (comme vous et moi) ; leurs clients sont les annonceurs
qui attirent notre attention et saisissent de l’information sur nous pendant
que nous utilisons ces services « gratuits ». Il y a toutefois une seconde
réponse : quand nous utilisons les services proposés par des entreprises
technologiques telles que Google, Amazon et Facebook, nous leur
fournissons directement des données – sous forme de photos, vidéos,
paroles ou textes personnels – qu’elles peuvent utiliser pour mieux entraîner
leurs programmes d’IA. Ces programmes améliorés leur permettent d’attirer
davantage d’utilisateurs (et donc plus de données), et ainsi de mieux cibler
leurs publicités. Qui plus est, les exemples d’apprentissage que nous leur
fournissons peuvent les aider à améliorer des services tels que vision par
ordinateur et traitement du langage naturel, qu’elles peuvent ensuite
proposer aux entreprises moyennant finance.
On a beaucoup écrit sur l’éthique de ces grosses entreprises qui utilisent
des données que vous avez créées (par exemple, les images, vidéos et textes
que vous mettez sur Facebook) pour améliorer leurs programmes et vendre
leurs produits sans vous en informer ou vous rétribuer. C’est un sujet
important, mais il dépasse le cadre de ce livre*9. Je veux simplement dire ici
que la dépendance à l’égard de vastes ensembles de données
d’apprentissage étiquetées est un aspect de plus qui distingue
l’apprentissage profond de l’apprentissage humain.
Avec la prolifération des systèmes d’apprentissage profond dans les
applications du monde réel, les entreprises se trouvent avoir besoin de
nouveaux ensembles de données étiquetées pour former des réseaux
neuronaux profonds. Les voitures autonomes en sont un exemple notable.
Ces voitures ont besoin d’une vision par ordinateur sophistiquée pour
reconnaître les voies sur la chaussée, les feux tricolores, les panneaux stop,
etc., et pour distinguer et suivre différents types d’obstacles potentiels tels
que les autres voitures, les piétons, les cyclistes, les animaux, les cônes de
signalisation, les poubelles renversées, les virevoltants et tout ce que vous
n’aimeriez pas voir heurté par votre voiture. Les voitures autonomes ont
besoin d’apprendre ce à quoi ressemblent ces divers objets – sous le soleil,
la pluie, la neige ou dans le brouillard, de jour comme de nuit – et quels
objets seraient susceptibles de bouger et quels autres resteraient immobiles.
L’apprentissage profond a contribué à rendre cette tâche possible, du moins
en partie, mais comme toujours, il nécessite une profusion d’exemples
d’apprentissage.
Les compagnies de voitures autonomes collectent ces données
d’apprentissage dans les innombrables heures de vidéo prises par
des caméras montées sur de vraies voitures circulant sur les grandes routes
et dans les villes. Ces voitures sont soit des prototypes autonomes testés par
des compagnies ou, dans le cas de Tesla, des voitures conduites par des
clients qui, lors de l’achat d’un véhicule Tesla, acceptent une politique de
partage des données avec cette compagnie*10.
Les propriétaires de véhicules Tesla ne sont pas obligés d’étiqueter
chaque objet présent sur les vidéos prises par leurs véhicules. Mais
quelqu’un doit le faire. En 2017, le Financial Times a rapporté que « la
plupart des entreprises travaillant sur cette technologie emploient des
centaines, voire des milliers, de personnes, souvent dans des centres
externalisés en Inde ou en Chine, dont le travail consiste à apprendre aux
voitures-robots à reconnaître les piétons, les cyclistes et d’autres obstacles.
Les employés font cela en marquant ou “étiquetant” manuellement des
milliers d’heures de vidéos, souvent image par image. »*11 De nouvelles
compagnies sont apparues, qui proposent des services d’étiquetage. Mighty
AI, par exemple, propose « les données annotées dont vous avez besoin
pour entraîner vos modèles de vision par ordinateur » et promet « des
annotateurs connus, compétents et fiables, spécialistes des données
concernant la conduite autonome. »*12
La longue traîne
L’apprentissage supervisé, qui utilise de grands ensembles de données et
des armées d’annotateurs humains, est efficace pour quelques-unes au
moins des aptitudes visuelles nécessaires aux voitures autonomes (de
nombreuses compagnies explorent aussi des programmes de simulation de
conduite inspirés des jeux vidéo pour élargir l’apprentissage supervisé).
Mais qu’en est-il dans le reste de la vie réelle ? Presque tous les chercheurs
en IA reconnaissent que l’apprentissage supervisé n’est pas une voie viable
pour une IA généraliste. Le célèbre chercheur en IA Andrew Ng nous a
prévenus : « Exiger autant de données est aujourd’hui une limitation
majeure de [l’apprentissage profond]. »*13 Yoshua Bengio, un autre grand
chercheur en IA, en convient : « Concrètement parlant, nous ne pouvons
étiqueter tout ce que contient le monde et en expliquer minutieusement le
moindre détail à l’ordinateur. »*14
L’affaire se trouve compliquée par le problème dit de la « longue traîne »,
à savoir par le vaste éventail de situations inattendues car très peu
fréquentes, auxquelles un système d’IA peut se trouver confronté.
La figure 13 illustre ce phénomène en attribuant des probabilités à diverses
situations hypothétiques qu’une voiture autonome pourrait rencontrer
pendant, disons, une journée de circulation. Tomber sur un feu tricolore au
rouge ou un panneau stop sont des situations très courantes et se voient
donc attribuer une grande probabilité ; les situations moyennement
probables incluent le verre brisé et les sacs en plastique baladés par le vent
– on ne les rencontre pas tous les jours (cela dépend de l’endroit où vous
roulez), mais elles ne sont pas rares. Il est moins probable que votre voiture
autonome rencontre une route inondée ou un marquage de voies masqué par
la neige, et encore moins probable que vous vous retrouviez face à un
bonhomme de neige sur une voie rapide.
Figure 13. Situations susceptibles d’être rencontrées par une voiture autonome, rangées
par probabilités et illustrant la « longue traîne » des scénarios improbables

J’ai cité ces différents scénarios et estimé leurs probabilités respectives ;


je suis sûre que vous pouvez vous-même en citer de nombreux autres. Toute
voiture individuelle est probablement sûre : après tout, à elles toutes, les
voitures autonomes expérimentales ont parcouru des millions de kilomètres
en ne causant que relativement peu d’accidents (quelques-uns mortels
cependant, très médiatisés). Mais une fois leur usage généralisé et bien que
chaque situation improbable soit, par définition, très improbable, il y aura
tellement de scénarios possibles dans le monde de la conduite et tellement
de voitures autonomes qu’un jour, quelque part, l’une d’elles vivra
probablement l’un de ces scénarios.
L’expression longue traîne vient des statistiques, dans lesquelles
certaines distributions de probabilité ont la forme montrée à la figure 13 : la
longue liste des situations improbables (mais possibles) s’appelle la
« traîne » de la distribution. (Les situations contenues dans la traîne sont
parfois appelées « événements rares ou cas aberrants ».) Pour l’IA, la
plupart des domaines du monde réel présentent ce phénomène de longue
traîne : les événements du monde réel sont pour la plupart prédictibles, mais
il reste une longue traîne d’occurrences imprévues, à faible probabilité.
C’est un problème si nous nous fondons uniquement sur l’apprentissage
supervisé pour doter notre système d’IA de sa connaissance du monde ; les
situations contenues dans la traîne n’apparaissent pas suffisamment
souvent, voire pas du tout, dans les données d’apprentissage, de sorte que le
système risque davantage de se tromper lorsqu’il rencontre ces cas
imprévus.
En voici deux exemples concrets. En mars 2016 fut annoncée une
énorme tempête de neige dans le nord-est des États-Unis. Des rapports
apparurent sur Twitter disant que le mode Autopilot des véhicules Tesla, qui
permet une conduite en autonomie limitée, confondait les marquages de
voies et les lignes de sel déposées sur l’autoroute en prévision de la tempête
(figure 14). En février 2016, alors qu’il tournait à droite, l’un des prototypes
de la voiture autonome Google dut faire un écart sur la gauche pour éviter
des sacs de sable situés sur le côté droit d’une route californienne, et son
avant gauche heurta un bus qui roulait dans la voie de gauche. Chacun
des deux véhicules avait pensé que l’autre céderait le passage (peut-être le
chauffeur du bus pensa-t-il qu’un conducteur humain serait davantage
intimidé par la taille bien plus grande du bus).
Les entreprises qui travaillent sur la technologie du véhicule autonome
sont pleinement conscientes du problème de la longue traîne : leurs équipes
imaginent d’éventuels scénarios de type longue traîne et créent activement
des exemples d’apprentissage supplémentaires et des stratégies
spécialement codées pour tous les scénarios qu’elles peuvent concevoir.
Mais bien entendu, il est impossible d’entraîner ou de coder un système
pour toutes les situations qu’il pourrait éventuellement rencontrer.
Figure 14. Les lignes de sel déposées sur une autoroute en prévision d’une tempête
de neige auraient perturbé le mode Autopilot des véhicules Tesla.

Une solution couramment proposée consiste à faire porter l’apprentissage


supervisé des systèmes d’IA sur de petits nombres de données étiquetées et
l’apprentissage non supervisé sur tout le reste. L’expression apprentissage
non supervisé renvoie à un large ensemble de méthodes d’apprentissage de
catégories ou d’actions sans données étiquetées. Par exemple, elles
regroupent des données en fonction de leur similitude ou font apprendre une
nouvelle catégorie par analogie avec des catégories connues. Nous le
verrons dans un prochain chapitre, la perception de similitudes et
d’analogies abstraites est une opération dans laquelle les humains excellent,
mais il n’existe pas à ce jour en IA de méthode très efficace pour permettre
ce type d’apprentissage non supervisé. Yann LeCun lui-même reconnaît que
« l’apprentissage non supervisé est la matière sombre de l’IA. » Autrement
dit, pour l’IA générale, presque tout l’apprentissage devra être non
supervisé, mais personne n’a encore trouvé les types d’algorithmes
nécessaires pour réussir un apprentissage non supervisé.
Les humains font tout le temps des erreurs, même (ou surtout) en
conduisant ; n’importe lequel d’entre nous aurait pu heurter ce bus en
faisant un écart pour éviter les sacs de sable. Mais les humains possèdent
aussi une compétence fondamentale qui fait défaut à tous les systèmes d’IA
actuels : le sens commun ou le bon sens. Nous avons une vaste
connaissance du monde, tant au niveau physique qu’au niveau social. Nous
avons une bonne intuition de la manière dont les objets – tant animés
qu’inanimés – sont susceptibles de se comporter, et nous utilisons
constamment cette intuition pour déterminer notre comportement dans
n’importe quelle situation. Nous pouvons nous expliquer la présence de
lignes de sel sur la route même si nous n’avons jamais roulé dans la neige.
Nous savons interagir socialement avec d’autres humains, de sorte que nous
pouvons utiliser le contact visuel, les signaux manuels, et d’autres gestes
corporels pour faire face à un arrêt des feux tricolores lors d’une panne de
courant. Nous cédons généralement le passage à un gros bus, même si en
principe nous avons la priorité. J’ai pris ici comme exemple la conduite
automobile, mais nous, les humains, utilisons le bon sens – habituellement
inconsciemment – dans chaque aspect de notre vie. Nombre de gens
pensent que tant que les systèmes d’IA ne jouiront pas d’un sens commun
comparable à celui des humains, nous ne pourrons être sûrs de leur pleine
autonomie face à la complexité des situations de la vie réelle.

Qu’a appris mon réseau ?


Il y a quelques années, Will Landecker, à l’époque doctorant dans mon
groupe de recherche, apprenait à un réseau neuronal profond à classer des
photos en deux catégories : « contient un animal » et « ne contient pas
d’animal ». Le réseau fut entraîné sur des photos semblables à celles de la
figure 15 et s’avéra très performant sur l’ensemble d’évaluation. Mais qu’a-
t-il effectivement appris ? En effectuant une étude minutieuse, Will obtint
une réponse inattendue : le réseau avait en partie appris à classer les photos
aux arrière-plans flous dans la catégorie « contient un animal », même si
elles ne contenaient pas d’animal*15. Les photos de la nature contenues dans
les ensembles d’apprentissage et d’évaluation respectaient une importante
règle de la photographie : la mise au point se fait sur le sujet de la photo.
Quand le sujet de la photo est un animal, l’animal est net et l’arrière-plan
flou, comme à la figure 15A. Quand le sujet de la photo est l’arrière-plan,
comme à la figure 15B, rien n’est flou. Au grand regret de Will, son réseau
n’avait pas appris à reconnaître les animaux ; au lieu de cela, il utilisait des
indices plus simples – tels des arrière-plans flous – qui étaient
statistiquement associés à des animaux.

Figure 15. Illustration de la tâche de classification « présence d’animal » versus « pas


d’animal ». Notez l’arrière-plan flou dans l’image de gauche.

C’est là un exemple d’un phénomène fréquemment observé en


apprentissage machine. La machine apprend ce qu’elle observe dans les
données plutôt que ce que vous (l’humain) voyez dans ces mêmes données.
Si les données d’apprentissage contiennent des liens statistiques avec
d’autres objets ou attributs de l’image, même sans rapport avec la tâche de
reconnaissance en question, la machine les apprendra sans le moindre souci
au lieu d’apprendre ce que vous voulez qu’elle apprenne. Si l’on teste la
machine sur de nouvelles données présentant les mêmes liens statistiques,
elle semblera avoir appris à exécuter correctement la tâche. Elle pourra
toutefois échouer inopinément comme le fit le réseau de Will avec les
images d’animaux sans arrière-plan flou. Dans le jargon de l’apprentissage
machine, le réseau de Will a « surappris » (overfitted en anglais) son
ensemble d’apprentissage spécifique et ne peut alors appliquer correctement
ce qu’il a appris aux images qui diffèrent de celles sur lesquelles il a fait son
apprentissage.
Ces dernières années, plusieurs équipes de recherche ont cherché à savoir
si les ConvNets entraînés sur ImageNet et d’autres grandes bases de
données surapprenaient pareillement leurs données d’apprentissage. Un
groupe a montré que si les ConvNets apprennent sur des photos
téléchargées sur le Web (comme celles d’ImageNet), leur performance de
reconnaissance est mauvaise sur des photos prises par un robot circulant
dans une maison avec un appareil photo*16. Il semble que les clichés
aléatoires d’objets domestiques peuvent être très différents des photos que
les gens mettent sur le Web. D’autres équipes ont montré des modifications
superficielles de photos – un léger floutage, un léger mouchetage, une petite
modification des couleurs, une rotation des objets, etc. – peuvent amener les
ConvNets à commettre des erreurs significatives alors que ces mêmes
perturbations n’affectent pas la reconnaissance d’objets chez les humains*17.
Cette faiblesse imprévue des ConvNets – même de ceux qui passent pour
« surpasser les humains dans la reconnaissance d’objets » – indique qu’ils
surapprennent leurs données d’apprentissage et apprennent des choses
différentes de ce que nous essayons de leur enseigner.

L’IA et les préjugés


Ce manque de fiabilité des ConvNets peut provoquer des erreurs
embarrassantes – et potentiellement préjudiciables. En 2015, Google vécut
un cauchemar en termes de relations publique après avoir introduit une
fonction d’étiquetage automatique de photos (via un ConvNet)
dans son application Photos. Après avoir correctement attribué à des photos
des étiquettes génériques telles que « Avions », « Voitures » et « Remise de
diplômes », le réseau neuronal, comme le montre la figure 16, attribua
l’étiquette « Gorilles » à un selfie de deux Afro-Américains. (Une profusion
d’excuses plus tard, Google adopta une solution à court terme : la
suppression de l’étiquette « Gorilles » de la liste des catégories possibles du
réseau.)
Figure 16. Étiquettes accolées à des photos par l’étiqueteur automatique de Google,
et parmi elles, la tristement célèbre « Gorilles ».

Ces erreurs de classification abjectes et largement ridiculisées sont


embarrassantes pour les entreprises concernées, mais des erreurs plus
subtiles dues à des biais raciaux ou sexuels ont été fréquemment
remarquées dans les systèmes de vision fondés sur l’apprentissage profond.
Les systèmes commerciaux de reconnaissance faciale, par exemple, tendent
à être plus performants pour les visages masculins blancs que pour les
visages féminins ou de couleur*18. Dans les appareils photo, les logiciels de
reconnaissance faciale ont parfois tendance à ne pas voir les visages à peau
foncée et à classer les visages asiatiques dans la catégorie « clignement des
yeux » (figure 17).
Figure 1. Exemple de programme de reconnaissance faciale décrivant un visage asiatique
comme un clignement des yeux.

Kate Crawford, chercheuse chez Microsoft et militante pour l’équité et la


transparence en IA, a fait remarquer que l’un des ensembles de données
largement utilisés pour former les systèmes de reconnaissance faciale
contient 77,5 % de visages masculins et 83,5 % de visages blancs. Ce n’est
pas surprenant dans la mesure où les photos sont chargées depuis des sites
de recherche d’images en ligne et que les photos proposées sur ces sites
sont généralement celles de personnes célèbres ou puissantes, qui sont
surtout des hommes blancs.
Bien sûr, la présence de ces préjugés dans les données d’apprentissage de
l’IA est à l’image des préjugés de notre société, mais la diffusion dans le
monde réel de systèmes d’IA entraînés sur ces données biaisées peut
renforcer ces préjugés et causer des dommages réels. Les systèmes de
reconnaissance faciale, par exemple, servent de plus en plus de moyen
« sécurisé » pour l’identification des personnes lors des transactions par
cartes de crédit, lors des contrôles dans les aéroports, et lors de l’usage de
caméras de sécurité. Ce n’est probablement qu’une question de temps avant
qu’on les utilise pour vérifier les identités lors des élections. Un écart de
précision, même infime, entre groupes raciaux peut avoir de graves
répercussions en ce qui concerne les droits civils et l’accès aux services
vitaux.
On peut atténuer l’impact de ces préjugés dans des ensembles de données
individuels en demandant à des humains de veiller à l’impartialité des
photos (ou de tout autre type de données) lorsqu’elles représentent, par
exemple, des groupes raciaux ou genrés. Mais cela exige une prise de
conscience et un effort de la part des humains qui préparent et sélectionnent
les données. En outre, il est souvent difficile de déterminer la nature et les
effets des biais lorsqu’ils sont subtils. Par exemple, un groupe de recherche
a remarqué que son système d’IA – entraîné sur un grand ensemble de
photos de personnes dans diverses situations – classait parfois un homme
dans la catégorie « femmes » lorsqu’il se tenait dans une cuisine,
environnement dans lequel les données d’entraînement avaient plus
d’exemples de femmes*19. En général, ce type de biais subtil n’est
perceptible qu’a posteriori et est difficile à anticiper.
Le problème de la présence de biais dans les applications de l’IA a
récemment été à l’origine de nombreux articles, ateliers et même de travaux
d’instituts de recherche universitaire. Les ensembles de données utilisés lors
des phases d’apprentissage doivent-ils refléter les préjugés de notre société
– comme c’est souvent le cas aujourd’hui – ou doivent-ils être repensés
pour atteindre des objectifs de réforme sociale ? Et qui devrait définir ces
objectifs ou repenser les données ?

Montrez vos calculs


Vous rappelez-vous au collège quand votre professeur écrivait « Où sont
vos calculs ? » ou « Montrez vos calculs » en rouge sur votre devoir de
maths ? Pour moi, montrer mes calculs était la partie la moins amusante de
l’apprentissage des mathématiques, mais probablement aussi la plus
importante parce qu’en montrant comment j’avais trouvé ma solution, je
montrais que j’avais réellement compris ce que je faisais, que j’avais saisi
les bonnes abstractions, et que j’étais parvenue à la solution pour de bonnes
raisons. Montrer mes calculs aidait aussi mon professeur à voir pourquoi
j’avais fait telle ou telle erreur.
D’une manière plus générale, vous pouvez souvent vous convaincre que
les gens savent ce qu’ils font s’ils peuvent vous expliquer comment ils sont
arrivés à une solution ou à une décision. Toutefois, « montrer ses calculs »
est une chose que les réseaux neuronaux profonds – fondements des
systèmes d’IA modernes – ne font pas facilement. Considérons la tâche de
reconnaissance d’objets « chien » et « chat » que j’ai décrite au chapitre 4.
Un réseau neuronal convolutif décide quel objet se trouve dans une image
en effectuant une série d’opérations mathématiques (des convolutions) se
propageant dans de nombreuses couches. Pour un réseau de taille
raisonnable, cela peut représenter des milliards d’opérations arithmétiques.
Tandis qu’il serait facile de programmer l’ordinateur pour qu’il imprime la
liste de toutes les additions et multiplications effectuées par un réseau lors
d’une décision de classification, une telle liste ne nous donnerait, à nous
humains, aucune idée de la façon dont le réseau est parvenu à sa réponse.
Une liste d’un milliard d’opérations n’est pas une explication susceptible
d’être comprise par un humain. Même les humains qui entraînent des
réseaux profonds ne peuvent généralement pas « regarder sous le capot » et
expliquer les décisions prises par leurs réseaux. The Technology Review, le
magazine du Massachusetts Institute of Technology (MIT), a qualifié cette
impénétrabilité de « mystérieux secret enfoui au cœur de l’IA. »*20 Il est à
craindre que si nous ne comprenons pas le fonctionnement des systèmes
d’IA, nous ne puissions leur faire confiance ou prédire les circonstances
dans lesquelles ils font des erreurs.
Les humains ne savent pas toujours, eux non plus, expliquer leurs
processus de pensée, et vous ne pouvez généralement pas regarder « sous le
capot » dans le cerveau d’autres personnes (ou sonder leurs « convictions
profondes ») pour comprendre comment ils sont arrivés à une décision
particulière. Mais ils croient généralement que leurs congénères maîtrisent
correctement les tâches cognitives de base telles que la reconnaissance
d’objets et la compréhension du langage. Lorsque vous croyez que leur
mode de pensée est semblable au vôtre, vous avez tendance à leur faire
confiance. La plupart du temps, vous supposez que les humains que vous
rencontrez ont vécu des expériences suffisamment similaires à la vôtre, et
vous en déduisez qu’ils utilisent le même socle de connaissances, de
croyances et de valeurs que vous lorsqu’ils considèrent, décrivent et
prennent des décisions sur le monde. En bref, en ce qui concerne autrui,
vous avez ce que les psychologues appellent une théorie de l’esprit – un
modèle des connaissances et objectifs d’autrui dans des situations
particulières. Aucun d’entre nous n’ayant une « théorie de l’esprit »
similaire pour les systèmes d’IA tels que les réseaux profonds, il nous est
plus difficile de leur faire confiance.
Il n’est alors pas étonnant que l’un des nouveaux secteurs les plus actifs
de l’IA soit diversement appelé « IA explicable », « IA transparente » ou
encore « apprentissage machine interprétable ». Ces termes renvoient à des
recherches visant à amener les systèmes d’IA – en particulier, les réseaux
profonds – à expliquer leurs décisions d’une manière compréhensible par
les humains. Dans ce domaine, les chercheurs ont trouvé des moyens
astucieux de visualiser les caractéristiques qu’un réseau neuronal convolutif
donné a apprises et, dans certains cas, de déterminer les composantes de
l’entrée qui influent le plus sur la décision de sortie. L’IA explicable est une
discipline en rapide progression, mais un système d’apprentissage profond
capable de s’expliquer en termes humains est encore hors de notre portée.

Tromper les réseaux neuronaux profonds


Autre chose concernant la fiabilité de l’IA : les chercheurs ont découvert
qu’il est extrêmement facile pour les humains d’induire subrepticement des
réseaux neuronaux profonds en erreur. Plus précisément, si vous voulez
délibérément tromper un tel système, il s’avère qu’il y a un nombre
inquiétant de moyens d’y parvenir.
Tromper des systèmes d’IA n’est pas une nouveauté. Les spammeurs, par
exemple, sont depuis des décennies engagés dans une course aux
armements avec les programmes de détection de spams. Mais les attaques
auxquelles les systèmes d’apprentissage profond semblent vulnérables sont
à la fois plus subtiles et plus troublantes.
Vous vous rappelez le système AlexNet dont j’ai parlé au chapitre 5 ?
C’est le réseau neuronal convolutif qui a remporté la compétition ImageNet
2012 et est à l’origine de la domination des ConvNets dans une grande part
de l’actuel monde de l’IA. Souvenez-vous, la précision (top-5) d’AlexNet
sur ImageNet était de 85 %, ce qui écrasa tous ses concurrents et sidéra la
communauté de la vision par ordinateur. Toutefois, une année après la
victoire d’AlexNet parut un article de recherche signé notamment par
Christian Szegedy, de chez Google, au titre faussement léger « Quelques
propriétés intrigantes des réseaux neuronaux »*21. L’une de ces « propriétés
intrigantes » était qu’AlexNet pouvait être facilement trompé.
Plus précisément, les auteurs de l’article avaient découvert qu’ils
pouvaient prendre une photo d’ImageNet qu’AlexNet classait correctement
avec une grande confiance dans la catégorie « bus scolaire » (par exemple)
et la déformer en apportant d’infimes modifications spécifiques à ses pixels
de sorte que l’image déformée semblait totalement inchangée pour les
humains mais était maintenant classée avec une très grande confiance par
AlexNet dans une catégorie totalement différente (par exemple,
« autruche »). Les auteurs ont qualifié cette image déformée d’« exemple
adverse ». La figure 18 montre quelques exemples de photos originelles et
de leurs jumeaux adverses. Vous ne voyez pas de différence ? Félicitations !
Apparemment, vous êtes un humain.

Figure 1. . Exemples originaux et adverses pour Alexnet. L’image de gauche de chaque


paire est l’image originale, correctement classée par AlexNet. L’image de droite de chaque
paire est l’image « adverse » de l’image originale où de petites modifications
ont été apportées aux pixels de l’image d’origine, mais pour les humains, la nouvelle image
apparaît identique à l’originale. Chaque exemple adverse a été classé par AlexNet avec
un niveau de confiance élevé dans la catégorie « Autruche ».

Szegedy et ses collaborateurs ont écrit un programme informatique


capable de trouver, pour une photo quelconque d’ImageNet, correctement
classée par AlexNet, les changements spécifiques à lui apporter pour créer
un nouvel exemple adverse apparaissant inchangé à des humains mais
conduisant AlexNet à la classer avec une grande confiance dans une
catégorie incorrecte.
Point important, Szegedy et ses collaborateurs ont découvert que cette
prédisposition aux exemples adverses n’était pas propre à AlexNet ; ils ont
montré que d’autres réseaux neuronaux convolutifs – dotés d’architectures,
hyperparamètres et ensembles d’apprentissage différents – avaient des
vulnérabilités similaires. Appeler cela une « propriété intrigante » des
réseaux neuronaux est un peu comme qualifier un trou dans la coque d’un
luxueux paquebot de croisière d’« attribut qui mérite réflexion ». Intrigant,
certes, ce trou, et exigeant une étude plus approfondie, mais si le trou en
question n’est pas colmaté, le navire va couler.
Peu après la parution de l’article de Szegedy et de ses collègues, un
groupe de l’université du Wyoming publia un article au titre plus direct :
« Les réseaux neuronaux profonds se laissent facilement berner. »*22 En
utilisant une méthode computationnelle inspirée de la biologie et appelée
« algorithme génétique »*23, le groupe du Wyoming est parvenu à créer des
images ressemblant à du bruit aléatoire pour des humains mais qu’AlexNet
et d’autres réseaux neuronaux convolutifs classaient dans des catégories
d’objets spécifiques avec une confiance supérieure à 99 %. La figure 19 en
montre quelques exemples. Le groupe du Wyoming a noté que les réseaux
neuronaux profonds (DNN, deep neural networks en anglais) « voient dans
ces objets des exemples presque parfaits d’images reconnaissables », ce qui
« [soulève] des questions sur les véritables capacités de généralisation des
DNN et sur les possibilités de logiciels malveillants, et très coûteux pour la
société, basés sur la technologie mise en œuvre dans les DNN. »*24
En fait, ces deux articles et des découvertes associées qui les ont suivis
ont soulevé non seulement des questions mais aussi de réelles inquiétudes
dans la communauté de l’apprentissage profond. Si les systèmes
d’apprentissage profond, si efficaces, notamment en vision par ordinateur,
peuvent être facilement bernés par des manipulations auxquelles les
humains ne sont pas sensibles, comment peut-on dire que ces réseaux
« apprennent comme des humains » ou « égalent ou surpassent les
humains » en termes d’aptitudes ? Manifestement, quelque chose de très
différent de la perception humaine est ici à l’œuvre. Et si ces réseaux sont
utilisés pour la vision par ordinateur dans le monde réel, nous aurons
vraiment intérêt à nous assurer qu’ils seront à l’abri de pirates utilisant ce
type de manipulations pour les tromper.
Figure 1. . Exemples d’images spécifiquement créées par un algorithme génétique
pour tromper un réseau neuronal convolutif. Dans chaque cas, AlexNet (formé à partir
de l’ensemble d’apprentissage ImageNet) classa avec une confiance supérieure à 99 %
l’image considérée dans la catégorie indiquée.

Tout cela a redynamisé la petite communauté des chercheurs en


« apprentissage adverse » – autrement dit, des développeurs de stratégies
ciblant des adversaires (humains) susceptibles de s’attaquer à des systèmes
d’apprentissage machine. Les chercheurs en apprentissage adverse débutent
souvent leur travail par une illustration des diverses techniques disponibles
pour attaquer les systèmes existants – et certaines récentes illustrations sont
stupéfiantes. En vision par ordinateur, un groupe de chercheurs a développé
un programme créant des montures de lunettes ornées de motifs capables
d’égarer un système de reconnaissance faciale et de l’amener à se tromper
en toute confiance sur l’identité du porteur de la monture (figure 20)*25. Un
autre groupe a fabriqué de petits et discrets autocollants qui, placés sur un
panneau de signalisation, incitent un système de vision à base de ConvNet –
semblable à ceux utilisés dans les voitures autonomes – à se tromper sur le
panneau (en prenant par exemple un panneau stop pour un panneau de
limitation de vitesse)*26. Un troisième groupe a démontré la possibilité
d’une attaque adverse sur des réseaux neuronaux profonds dédiés à
l’analyse d’images médicales : il a montré qu’il n’est pas difficile d’altérer
une image radioscopique ou microscopique d’une manière imperceptible
pour un humain mais qui conduit un réseau à transformer son diagnostic
initial, par exemple, 99 % d’absence de cancer sur l’image en 99 % de
présence de cancer*27. Ce groupe a fait remarquer que de telles attaques
peuvent être utilisées par du personnel hospitalier – entre autres – pour
formuler des diagnostics mensongers afin de facturer aux compagnies
d’assurances des tests diagnostiques supplémentaires (et lucratifs).

Figure 2. . Un chercheur en IA (à gauche) porte une monture de lunettes ornée d’un motif
spécialement conçu pour amener un réseau neuronal profond spécialisé
dans la reconnaissance faciale et entraîné sur des visages de célébrités à reconnaître
en toute confiance dans la photo de gauche le visage de l’actrice Milla Jovovich (à droite).
L’article décrivant cette étude donne de nombreux autres exemples d’usurpation d’identité
recourant à des motifs « adverses » sur monture de lunettes.

Ce ne sont là que quelques exemples d’attaques possibles auxquels ont


pensé divers groupes de recherche. Nombre de ces attaques se sont révélées
étonnamment robustes : elles peuvent opérer sur plusieurs réseaux, même
lorsque ces réseaux sont entraînés sur différents ensembles de données. Et
la vision par ordinateur n’est pas le seul domaine dans lequel on peut
tromper les réseaux ; des chercheurs ont également conçu des attaques qui
mystifient des réseaux neuronaux profonds opérant sur le langage,
notamment en reconnaissance de la parole et analyse de texte. On peut
penser qu’à mesure que ces systèmes se déploieront dans le monde réel, des
utilisateurs malveillants leur découvriront de nombreuses autres
vulnérabilités.
Comprendre ces attaques potentielles et s’en protéger constitue
aujourd’hui un domaine de recherche majeur, mais bien que les chercheurs
aient trouvé des solutions pour certains types d’attaques, il n’existe toujours
pas de méthode de défense générale. Comme dans chaque secteur de
sécurité informatique, les progrès jusqu’ici ont plutôt été du style « Jeu de
la Taupe » – on détecte et on colmate une faille dans la sécurité, mais
d’autres failles apparaissent, qui nécessitent de nouvelles défenses. Selon
Ian Goodfellow, un expert en IA membre de l’équipe Google Brain :
« Presque toutes les attaques que vous pouvez imaginer porter contre un
système d’apprentissage machine sont actuellement réalisables… et s’en
protéger est très, très difficile. »*28
Au-delà du problème immédiat de la protection contre de telles attaques,
l’existence d’exemples adverses rend encore plus pressante la question que
j’ai posée plus haut : qu’apprennent précisément ces réseaux ? En
particulier, qu’apprennent-ils qui leur permet d’être si facilement trompés ?
Ou point plus important, ne nous leurrons-nous pas nous-mêmes lorsque
nous pensons que ces réseaux ont réellement appris les concepts que nous
tentons de leur enseigner ?
À mon avis, le véritable problème est celui de la compréhension.
Considérez la figure 18, dans laquelle AlexNet prend un bus scolaire pour
une autruche. Pourquoi serait-il très improbable que cela arrive à un
humain ? Même si AlexNet est très performant sur ImageNet, nous autres
humains comprenons de nombreuses choses sur les objets que nous voyons
mais qu’ignorent AlexNet ou tout autre système d’IA actuel. Nous savons à
quoi ressemblent les objets en trois dimensions et nous pouvons imaginer
cela à partir d’une photo bidimensionnelle. Nous savons ce qu’est la
fonction d’un objet donné, le rôle que joue chacune de ses composantes
dans son fonctionnement global, et dans quels contextes apparaît
habituellement cet objet. La vision d’un objet fait remonter le souvenir
d’avoir vu des objets comparables dans d’autres circonstances, sous
d’autres angles, ainsi que dans d’autres modalités sensorielles (nous nous
rappelons son contact avec notre peau, son odeur, peut-être le bruit qu’il fait
lorsqu’on le laisse tomber, etc.). Ce socle de connaissances nourrit
l’aptitude qu’a l’être humain à reconnaître sans se tromper un objet donné.
Même le plus performant des systèmes de vision par intelligence artificielle
ne dispose pas de ce type de compréhension et de la robustesse qu’il
confère.
Figure 2. Illusion d’optique pour êtres humains : les segments horizontaux A et B
ont même longueur, mais la plupart des gens estiment que le segment A est plus long
que le segment B.

J’ai entendu des chercheurs en IA affirmer que nous autres humains


pouvons également être victimes de nos propres « exemples adverses », à
savoir, les illusions d’optique. Tels AlexNet prenant un bus scolaire pour
une autruche, les humains sont parfois victimes d’erreurs de perception (par
exemple, nous considérons que le segment supérieur de la figure 21 est plus
long que le segment inférieur, alors que tous deux ont en fait la même
longueur). Mais les erreurs humaines diffèrent totalement de celles des
réseaux neuronaux convolutifs : l’évolution a rendu extrêmement fiable et
robuste notre capacité à reconnaître des objets dans les scènes de la vie
quotidienne parce que notre survie en dépend. Contrairement à celle des
ConvNets d’aujourd’hui, la perception humaine (et animale) est grandement
régulée par la cognition – le type de compréhension liée au contexte que j’ai
décrit plus haut. En outre, contrairement à la vision humaine, les ConvNets
utilisés dans les applications de la vision par ordinateur ne reçoivent aucun
retour de l’environnement qui influe sur leur perception de ce qu’ils voient.
Bien que les neuroscientifiques ne comprennent pas encore le rôle joué par
les connexions rétroactives dans le cerveau, on peut penser que ce type de
connexion atténue efficacement la vulnérabilité des ConvNets aux exemples
adverses. Pourquoi alors ne pas simplement doter les ConvNets de ce type
de connexions rétroactives ? Cette question fait actuellement l’objet de
recherches, mais elles s’avèrent très difficiles et n’ont pas pour l’instant
produit les réussites que l’on a observées avec les réseaux sans retour de
l’environnement.
Chercheur en IA à l’université du Wyoming, Jeff Clune a proposé une
analogie très provocatrice en remarquant qu’« énormément de gens se
demandent si l’apprentissage profond est une “réelle intelligence” ou un
“effet Hans le Malin”. »*29 Hans le Malin était un cheval allemand du début
du xxe siècle capable – disait son propriétaire – d’effectuer des opérations
d’arithmétique et de comprendre l’allemand. Il répondait à des questions
telles que « Combien font quinze divisé par trois ? » en tapant le sol de son
sabot le bon nombre de fois. Une fois Hans le Malin devenu une célébrité
internationale, une étude minutieuse finit par révéler qu’il ne comprenait ni
les questions qu’on lui posait ni les concepts mathématiques associés, et
tapait simplement le sol en réaction à de subtils indices inconsciemment
donnés par l’interrogateur. Hans le Malin est devenu une métaphore de
l’individu (ou du programme !) qui donne l’impression de comprendre mais
qui en fait réagit à des indices involontairement donnés par un formateur.
L’apprentissage profond fait-il preuve d’une « vraie compréhension », ou
est-il simplement un Hans le Malin computationnel réagissant à des indices
superficiels contenus dans les données ? Cela fait actuellement l’objet de
vifs débats au sein de la communauté de l’IA, débats exacerbés par le fait
que les chercheurs en IA ne s’accordent pas tous sur la définition de la
« vraie compréhension ».
D’un côté, les réseaux neuronaux profonds, entraînés par un
apprentissage supervisé, sont remarquablement performants (bien qu’encore
loin de l’être parfaitement) pour la résolution de nombreux problèmes de
vision par ordinateur, ainsi que dans d’autres domaines tels que la
reconnaissance de la parole et la traduction. En raison de leurs
impressionnantes aptitudes, ces réseaux sortent rapidement du cadre de la
recherche pour être employés dans des applications concrètes telles que la
recherche sur le Web, les voitures autonomes, la reconnaissance faciale, les
assistants virtuels et les systèmes de recommandation, et il est de plus en
plus difficile d’imaginer vivre sans ces outils intelligents. D’un autre côté, il
est trompeur de dire que les réseaux profonds « apprennent tout seuls » ou
que leur apprentissage est « semblable à l’apprentissage humain ». La
reconnaissance de leur réussite ne doit pas faire oublier qu’ils peuvent
connaître des échecs inopinés dus au surapprentissage, aux effets de longue
traîne et à la vulnérabilité au cyber-piratage. En outre, les raisons sous-
tendant leurs décisions sont souvent difficiles à comprendre, ce qui rend
leurs échecs difficiles à prédire ou à réparer. Les chercheurs s’efforcent
activement d’améliorer la fiabilité et la transparence de ces réseaux, mais la
question demeure : le fait que ces systèmes ne disposent pas d’une
compréhension humaine les rend-il inévitablement fragiles, peu fiables, et
vulnérables aux attaques ? Et comment tenir compte de cela lorsque nous
décidons d’appliquer les systèmes d’IA au monde réel ? Le prochain
chapitre explore quelques-uns des formidables défis que pose l’équilibre
entre les bénéfices de l’IA et les risques liés à son manque de fiabilité et son
usage malveillant.
7

Sur une IA fiable et éthique

Imaginez-vous dans une voiture autonome, tard dans la nuit, après la fête de
Noël au bureau. Il fait nuit, la neige tombe. « Voiture, ramène-moi à la
maison, » dites-vous fatigué et un peu éméché. Vous vous allongez sur le
dos, laissant avec gratitude vos yeux se fermer tandis que la voiture démarre
et s’insère dans le trafic.
Tout va bien, mais devez-vous vraiment vous sentir en sécurité ?
Le succès des voitures autonomes dépend de manière cruciale de
l’apprentissage machine (en particulier de l’apprentissage profond), surtout
pour ce qui concerne la vision par ordinateur et la prise de décision.
Comment déterminer si ces voitures ont correctement appris tout ce qu’elles
doivent savoir ?
Telle est la question à un milliard de dollars qui se pose à l’industrie de la
voiture autonome. Les experts ne sont pas tous d’accord pour dire quand
ces voitures joueront un rôle significatif dans notre vie quotidienne. Au
moment où ces lignes sont écrites (2019), leurs prédictions vont de
quelques années à plusieurs décennies. Les voitures autonomes pourraient
grandement améliorer notre existence. Elles pourraient réduire
substantiellement le nombre de morts et de blessés dus chaque année aux
accidents de voiture, accidents résultant pour une bonne part de la
distraction ou de l’ébriété des conducteurs. Elles permettraient aussi à leurs
passagers humains d’être productifs au lieu de rester désœuvrés durant leur
trajet. Elles pourraient en outre être plus économes en énergie que les
voitures conduites par des humains et seraient une bénédiction pour les
aveugles ou pour les handicapés qui ne peuvent conduire. Mais tout cela ne
surviendra que si nous, les humains, sommes prêts à confier nos vies à ces
véhicules.
À l’heure actuelle, l’apprentissage machine est utilisé pour prendre des
décisions affectant de nombreux secteurs de l’existence humaine. Quelle
assurance avez-vous que les machines qui vous proposent les actualités du
jour, diagnostiquent vos maladies, examinent vos demandes de prêt, ou – à
Dieu ne plaise – recommandent la durée de votre emprisonnement, ont
suffisamment appris pour être des décideurs fiables ?
Ce sont là des questions délicates, non seulement pour les chercheurs en
IA mais aussi pour l’ensemble de la société, qui doit finalement peser les
multiples avantages actuels et futurs de l’IA en regard des inquiétudes liées
à sa fiabilité et à ses utilisations frauduleuses.

L’IA bénéfique
Quand on considère le rôle de l’IA dans notre société, il est parfois facile de
n’en voir que les inconvénients. Il est toutefois essentiel de se rappeler que
les systèmes d’IA offrent déjà d’énormes avantages à la société et
pourraient être encore plus bénéfiques à l’avenir. La technologie de l’IA est
actuellement essentielle au fonctionnement de services que vous utilisez
peut-être constamment, parfois sans même savoir qu’ils reposent sur l’IA –
pensez à la transcription automatique de la parole, à la navigation GPS, à la
planification de voyages, aux filtres antispams, à la traduction, aux alertes
de fraude aux cartes bancaires, aux recommandations de livres et de
musique, à la protection contre les virus informatiques et à l’optimisation de
l’énergie dans les bâtiments.
Si vous êtes photographe, cinéaste, artiste ou musicien, vous utilisez
peut-être des systèmes d’IA qui vous aident dans vos créations – des
programmes qui aident les photographes à éditer leurs photos ou les
musiciens à noter leurs compositions. Si vous êtes étudiant, vous bénéficiez
peut-être de « tutorats intelligents » qui s’adaptent à votre style
d’apprentissage personnel. Si vous êtes scientifique, il y a de fortes chances
pour que vous ayez utilisé l’un des nombreux outils que l’IA met à notre
disposition pour vous aider à analyser vos données. Si vous êtes aveugle ou
malvoyant, vous utilisez peut-être sur votre smartphone des applications de
vision par ordinateur qui lisent à haute voix des textes manuscrits ou
imprimés (par exemple, sur des enseignes, des cartes de restaurant, ou des
billets de banque). Si vous êtes malentendant, vous pouvez aujourd’hui voir
des sous-titres tout à fait compréhensibles sur les vidéos de YouTube et,
dans certains cas, avoir en temps réel la transcription écrite d’une
conférence. Ce ne sont là que quelques exemples d’améliorations
qu’apportent aujourd’hui les outils de l’IA dans la vie des gens. De
nombreuses autres technologies reposant sur l’IA, encore au stade de la
recherche, sont sur le point de se banaliser.
Dans un futur proche, les applications de l’IA seront probablement
couramment utilisées dans le domaine de la santé. Des systèmes d’IA
aideront les médecins à diagnostiquer les maladies, suggéreront des
traitements, découvriront de nouveaux médicaments et surveilleront à
domicile la santé et la sécurité des personnes âgées. La modélisation
scientifique et l’analyse de données reposeront de plus en plus sur des outils
de l’IA – par exemple, pour le perfectionnement des modèles de
réchauffement climatique, de croissance et d’évolution démographique,
d’écologie et de science alimentaire, et d’autres grands problèmes que la
société rencontrera au cours de ce siècle. Selon Demis Hassabis,
cofondateur du groupe DeepMind, chez Google, c’est là le plus important
bénéfice potentiel de l’IA :

Nous ne pourrons peut-être éviter la triste conclusion que même pour le


groupe d’êtres humains les plus intelligents de la planète, ces problèmes ne
s’avèrent si complexes qu’il sera difficile pour des humains et des experts
scientifiques individuels de trouver dans leur vie le temps nécessaire pour
innover et progresser sur ces problèmes. […] Je suis convaincu que nous
aurons besoin d’aide et je pense que l’IA sera la solution*1.

Nous avons tous entendu dire que la future IA assumera les emplois que
les humains détestent – les emplois mal payés, ennuyeux, épuisants,
dégradants, basés sur l’exploitation ou carrément dangereux. Si cela se
produit, cela pourrait être une véritable aubaine pour le bien-être de
l’humanité. (Je discuterai plus loin l’envers de cette médaille, à savoir la
razzia de l’IA sur les emplois humains.) De nos jours, les robots sont
souvent utilisés en usine pour les tâches subalternes et répétitives, bien que
nombre d’entre elles échappent encore aux capacités des robots actuels.
Mais avec les progrès de l’IA, un nombre croissant de ces tâches pourraient
être automatisées. Parmi les futures applications de l’IA sur les lieux de
travail, on peut citer les camions et les taxis autonomes, ainsi que les robots
pour la récolte des fruits, la lutte contre les incendies, la détection des mines
antipersonnel et le nettoyage de l’environnement. En outre, les robots
verront probablement leur rôle s’élargir dans le domaine de l’exploration
planétaire et spatiale.
La société trouvera-t-elle vraiment son compte si des systèmes d’IA
prennent la relève dans ces emplois ? L’histoire de la technologie peut
apporter quelques éléments de réponse à cette question. Parmi les
professions occupées par les humains mais que la technologie a depuis
longtemps automatisées, du moins dans les pays développés, on peut citer
celle de lavandière, de conducteur de pousse-pousse, de liftier, de
punkawallah (serviteur en Inde, dont le seul travail était d’actionner un
ventilateur manuel pour rafraîchir la pièce, avant l’époque des ventilateurs
électriques), de calculateurs (habituellement de calculatrices, qui
effectuaient de fastidieux calculs mathématiques à la main, surtout pendant
la Seconde Guerre mondiale). Presque tout le monde reconnaîtra que dans
ces exemples, le remplacement des humains par des machines fut partout
une amélioration des conditions d’existence. On pourrait dire que l’IA
actuelle ne fait que simplement prolonger le même arc de progrès : elle
améliore l’existence des humains en accroissant l’automatisation des
emplois nécessaires mais dont personne ne veut.

Le Grand Compromis de l’IA


Le chercheur en IA Andrew Ng a proclamé avec optimisme : « L’IA est la
nouvelle électricité. » Il a ajouté : « De même que l’électricité a presque
tout transformé il y a 100 ans, j’ai du mal à imaginer une industrie qui ne
sera pas transformée par l’IA dans les toutes prochaines années. »*2
L’analogie est émouvante ; l’IA sera bientôt aussi nécessaire – et invisible –
dans nos appareils électroniques que l’électricité elle-même. Il y a toutefois
une différence majeure : la science de l’électricité fut bien comprise avant
d’être largement commercialisée. Nous savons très bien prédire le
comportement de l’électricité. Ce n’est pas le cas de nombre de systèmes
d’IA actuels.
Cela nous amène à ce que vous pourriez appeler le Grand Compromis de
l’IA. Devons-nous reconnaître les aptitudes des systèmes d’IA, qui peuvent
améliorer notre existence et même aider à sauver des vies, et accepter que
ces systèmes soient de plus en plus largement utilisés ? Ou devons-nous être
plus prudents en raison des erreurs imprévisibles commises par l’actuelle
IA, de sa vulnérabilité aux préjugés et au cyber-piratage, et de son manque
de transparence lors de ses prises de décision ? Dans quelle mesure les
humains doivent-ils prendre part aux décisions prises par les systèmes
d’IA ? Que devons-nous exiger d’un tel système afin d’avoir suffisamment
confiance en lui pour le laisser opérer de manière vraiment autonome ? Ces
questions font encore l’objet de vifs débats alors même que l’IA est de plus
en plus utilisée et que les applications qu’elle a promises (par exemple, les
voitures autonomes) existent déjà ou émergent à l’horizon.
L’absence d’unanimité sur ces questions a été récemment soulignée par
une étude du Pew Research Center*3. En 2018, ses analystes ont demandé à
un millier de « pionniers de la technologie, innovateurs, développeurs,
grands patrons, dirigeants politiques, chercheurs et militants » de répondre
aux questions suivantes :

Pensez-vous très probable qu’en 2030, les progrès de l’IA et des systèmes
technologiques associés renforceront et autonomiseront les capacités
humaines ? Autrement dit, se peut-il que la plupart du temps, la plupart des
gens vivront alors mieux qu’aujourd’hui ? Ou au contraire que les progrès
de l’IA et des systèmes technologiques associés réduisent l’autonomie et
l’influence humaines à un niveau tel que la plupart des gens ne vivront pas
mieux qu’aujourd’hui ?

Les réponses furent partagées : 63 % d’entre elles prédirent que les


progrès de l’IA rendraient les gens plus heureux en 2030, contre 37 % qui
prédirent le contraire. Les opinions allaient de l’IA « peut éliminer
pratiquement la pauvreté mondiale, réduire massivement les maladies et
fournir une meilleure éducation à presque chaque habitant de la planète » à
la prédiction d’un avenir apocalyptique : foultitudes de métiers captées par
l’automatisation, érosion de la vie privée et des droits civiques due à la
surveillance par IA, armes autonomes amorales, décisions prises hors de
tout contrôle par des programmes informatiques opaques et indignes de
confiance, renforcement des préjugés raciaux et sexistes, manipulation des
mass-médias, augmentation de la cybercriminalité, et ce qu’une personne
interrogée qualifia de « réelle absence de pertinence existentielle » pour les
humains.
L’intelligence artificielle pose de délicates questions d’éthique, et les
discussions liées à l’éthique de l’IA et du big data occupent déjà plusieurs
livres*4. Afin d’illustrer la complexité de ces questions, je vais examiner
plus en détail un exemple qui suscite énormément d’attention ces temps-ci :
la reconnaissance faciale automatique.

L’éthique de la reconnaissance faciale


La reconnaissance faciale consiste à apposer un nom sur un visage dans une
photo ou une vidéo (ou un flux vidéo en temps réel). Facebook, par
exemple, applique un algorithme de reconnaissance faciale à chaque photo
qui est déposée sur son site, tente d’en détecter les visages et de les faire
correspondre avec ceux d’utilisateurs connus (du moins d’utilisateurs qui
n’ont pas désactivé cette fonction)*5. Si vous êtes sur Facebook et que
quelqu’un y dépose une photo contenant votre visage, le système peut vous
demander si vous voulez « vous étiqueter » sur la photo. La précision de
l’algorithme de reconnaissance faciale de Facebook est parfois
impressionnante mais aussi quelque peu flippante. Bien évidemment, cette
précision vient de l’utilisation de réseaux neuronaux convolutifs profonds.
Le logiciel peut souvent reconnaître les visages non seulement lorsqu’ils
sont au premier plan et au centre de la photo, mais aussi lorsque la personne
est noyée dans une foule.
Cette technologie de reconnaissance faciale présente de nombreux
avantages potentiels, dont celui d’aider les gens à faire des recherches dans
leurs collections de photos, de permettre aux utilisateurs malvoyants
d’identifier les personnes qu’ils rencontrent, de localiser des enfants
disparus ou des criminels en fuite en scannant des photos et des vidéos pour
y découvrir leurs visages, et de détecter des usurpations d’identité. Il est
cependant tout aussi facile d’en imaginer des applications que nombre de
personnes jugent blessantes ou menaçantes. Amazon, par exemple, vend
son système de reconnaissance faciale (au nom étrangement dystopique de
Rekognition) à des services de police, qui peuvent alors comparer, par
exemple, des enregistrements de vidéosurveillance avec une base de
données de délinquants connus ou de suspects probables.
La vie privée pose clairement un problème. Même si je ne suis pas sur
Facebook (ou toute autre plateforme de média sociaux avec reconnaissance
faciale), des photos montrant mon visage peuvent être étiquetées et par la
suite automatiquement reconnues sur ce site, sans ma permission.
Considérez FaceFirst, une entreprise qui propose des services de
reconnaissance faciale moyennant finance. Comme l’a rapporté le magazine
New Scientist, « FaceFirst […] propose un système pour commerçants qui,
leur dit-elle, “dopera vos ventes en reconnaissant les bons clients chaque
fois qu’ils font un achat” et envoie “des alertes lorsque des clients
chicaniers connus entrent dans l’un de vos magasins.” »*6 De nombreuses
autres entreprises offrent des services similaires.
La perte de la vie privée n’est pas le seul danger. La fiabilité cause un
souci bien plus grand : les systèmes de reconnaissance faciale peuvent faire
des erreurs. Si votre visage est mis à tort en correspondance avec un autre
visage, vous risquez d’être placé sur la liste noire d’un magasin ou d’une
compagnie aérienne, voire d’être accusé à tort d’un crime. Qui plus est, les
systèmes actuels de reconnaissance faciale s’avèrent avoir un taux d’erreur
significativement supérieur pour les personnes de couleur. L’American
Civil Liberties Union (ACLU, Union américaine pour les libertés civiques),
qui, par respect des droits civiques, s’oppose vigoureusement à l’utilisation
de la technologie de reconnaissance faciale par la police, a testé le système
Rekognition d’Amazon (en utilisant ses réglages par défaut) sur les 535
membres du Congrès des États-Unis en comparant une photo de chacun
d’eux à celles d’une base de données composée de personnes fichées
comme criminels. Le système s’est trompé sur 28 des 535 membres du
Congrès, les identifiant comme criminels. Qui plus est, 21 % de ces erreurs
concernèrent des photos de députés afro-américains (les Afro-Américains
ne constituent que 9 % environ des membres du Congrès)*7.
Conséquence des tests de l’ACLU et d’autres études montrant le manque
de fiabilité et les préjugés de la reconnaissance faciale, plusieurs entreprises
de haute technologie ont annoncé qu’elles s’opposent à l’utilisation de la
reconnaissance faciale par la police et pour la surveillance
gouvernementale. Par exemple, Brian Brackeen, PDG de l’entreprise de
reconnaissance faciale Kairos, écrivit notamment dans un article largement
diffusé :

Les technologies de reconnaissance faciale, utilisées dans l’identification


des suspects, affectent négativement les personnes de couleur. Nier cela
serait mentir. […] Avec mon entreprise, nous en sommes arrivés à croire
que l’utilisation de la reconnaissance faciale commerciale par la police ou
pour la surveillance gouvernementale, quelle qu’elle soit sa forme, est une
erreur – et qu’elle ouvre la voie à de graves malversations de la part de gens
sans scrupule. […] Nous méritons un monde dans lequel nous n’autorisons
pas les gouvernements à catégoriser, à suivre et à contrôler les citoyens*8.

Dans un article de blog posté sur le site Web de son entreprise, Brad
Smith, président et directeur juridique de Microsoft, appela le Congrès
américain à réglementer la reconnaissance faciale :

La technologie de la reconnaissance faciale soulève des questions qui sont


au centre même de la protection des droits humains fondamentaux tels que
la vie privée et la liberté d’expression. Ces questions accroissent la
responsabilité de toute entreprise technologique qui crée ces produits. Selon
nous, elles nécessitent également une sérieuse réglementation
gouvernementale et la mise en place de normes définissant les utilisations
acceptables. La reconnaissance faciale exigera que les secteurs tant publics
que privés se mobilisent – et agissent*9.

C’est ce qu’a fait Google : elle a annoncé qu’elle n’offrira pas de services
de reconnaissance faciale généraliste via la plateforme IA de son cloud tant
qu’elle ne pourra « garantir que leur utilisation est conforme à nos principes
et nos valeurs, et évite les abus et les résultats préjudiciables. »*10
La réponse de ces entreprises est encourageante, mais elle pose une autre
épineuse question : dans quelle mesure la recherche et développement en IA
devrait-elle être réglementée, et qui devrait la réglementer ?

Réglementer l’IA
Étant donné les risques posés par les technologies de l’IA, de nombreux
praticiens de l’IA, dont moi, sont favorables à une certaine réglementation.
Mais cette réglementation ne doit pas être conçue uniquement par les
entreprises et chercheurs travaillant sur l’IA. Les problèmes liés à cette
discipline – la fiabilité, l’explicabilité, les préjugés, la vulnérabilité aux
attaques et la moralité de son utilisation – sont tout aussi sociaux et
politiques que techniques. Il est donc essentiel que le débat sur ces
problèmes fasse appel à des gens de milieux et de points de vue différents.
Abandonner simplement la réglementation aux praticiens de l’IA serait
aussi imprudent que la laisser aux seuls organismes gouvernementaux.
Dans ce qui fut un exemple de la complexité associée à l’élaboration de
telles réglementations, le Parlement européen a adopté en 2018 une
réglementation sur l’IA que certains ont qualifiée de « droit à
l’explication »*11. Cette réglementation exige, dans le cas « d’une prise de
décision automatisée », « des informations sensées concernant la logique
sous-jacente » à toute décision affectant un citoyen de l’Union européenne.
Ces informations doivent être communiquées « d’une façon concise,
transparente, compréhensible et aisément accessible, en des termes clairs et
simples. »*12 Cela ouvre grande la voie à toutes sortes d’interprétations.
Qu’entend-on par « informations sensées » ou « logique sous-jacente » ?
Cette réglementation interdit-elle, lors de la prise de décisions qui affectent
les individus (telles que les prêts et la reconnaissance faciale), des méthodes
d’apprentissage profond difficiles à expliquer ? Nul doute que ces
incertitudes garantiront pour longtemps encore un emploi rémunérateur aux
décideurs politiques et aux avocats.
Je pense que la réglementation de l’IA devrait prendre modèle sur celle
d’autres technologies, en particulier des sciences biologiques et médicales
telles que le génie génétique. Dans ces secteurs, la réglementation – par
exemple, le contrôle de qualité et l’analyse bénéfices-risques – passe par la
coopération d’organismes gouvernementaux, d’entreprises, d’organisations
à but non lucratif et d’universités. En outre, la bioéthique et l’éthique
médicale, aujourd’hui bien établies, exercent une influence considérable sur
les décisions concernant le développement et l’application des technologies.
La recherche en IA et ses applications ont vraiment besoin d’une
infrastructure régulatrice et éthique bien pensée.
Cette infrastructure commence seulement à se former. Aux États-Unis,
les gouvernements des États commencent à envisager la création de
réglementations – sur la reconnaissance faciale, sur les véhicules
autonomes, etc. Mais dans la plupart des cas, les universités et les
entreprises qui créent des systèmes d’IA établissent elles-mêmes la
réglementation.
Plusieurs groupes de réflexion sont apparus pour combler le vide,
souvent financés par de riches techno-entrepreneurs préoccupés par l’IA.
Porteurs de noms tels que Future of Humanity Institute (Institut pour
l’avenir de l’humanité), Future of Life Institute (Institut pour l’avenir de la
vie) et Centre for the Study of Existential Risk (Centre pour l’étude des
risques existentiels), ils organisent des ateliers, financent des recherches,
créent des matériaux éducatifs et suggèrent des politiques visant à des
usages sécurisés et éthiques de l’IA. Une organisation, Partnership on AI
(Partenariat pour l’IA), tente de chapeauter ces groupes pour « servir de
plateforme ouverte de discussions et d’engagements concernant l’IA et ses
diverses influences sur les gens et la société. »*13
Il y a cependant un problème : il n’existe pas d’accord général en IA sur
les priorités en matière de réglementation et d’éthique. Doit-on se
concentrer en premier lieu sur les algorithmes qui peuvent expliquer leur
raisonnement ? Sur la protection des données ? Sur la robustesse des
systèmes d’IA face aux attaques malveillantes ? Sur les biais dans les
systèmes d’IA ? Sur le « risque existentiel » potentiel lié à une IA
superintelligente ? Selon moi, on accorde trop d’attention aux risques liés à
une IA superintelligente et bien trop peu d’attention au manque de fiabilité
et de transparence de l’apprentissage profond, et à sa vulnérabilité aux
attaques malveillantes. Le dernier chapitre reviendra plus en détail sur la
notion de superintelligence.

Des machines morales


Jusqu’ici, ma discussion a porté sur la dimension éthique de l’utilisation de
l’IA par les humains. Il y a toutefois une autre question importante : les
machines pourraient-elles être dotées d’un sens moral, suffisamment
complet pour que nous les laissions prendre seules des décisions éthiques,
sans aucune surveillance humaine ? Si nous reconnaissons une autonomie
de décision aux systèmes de reconnaissance faciale, aux voitures
autonomes, aux robots d’assistance aux personnes âgées, et même aux
robots-soldats, ne devons-nous pas équiper ces machines d’une capacité à
gérer les questions morales et éthiques identique à celle dont nous autres
humains disposons ?
Les réflexions sur la « morale de la machine » sont aussi vieilles que les
réflexions sur l’IA*14. La plus célèbre discussion sur la morale de la
machine est probablement celle qui figure dans les récits de science-fiction
d’Isaac Asimov, où se trouvent ses trois « Lois fondamentales de la
robotique » :
Première loi : un robot ne peut nuire à un être humain ni laisser sans
assistance un être humain en danger ;
Deuxième loi : un robot doit obéir aux ordres qui lui sont donnés par les
êtres humains, sauf si ces ordres sont incompatibles avec la Première loi ;
Troisième loi : un robot doit protéger sa propre existence tant que cette
protection n’est pas incompatible avec la Première ou la Deuxième loi.*15

Ces lois sont devenues célèbres, mais en vérité, Asimov cherchait à


montrer comment cet ensemble de règles échouerait inévitablement.
« Runaround » (« Cercle vicieux » en français), le récit de 1942 dans lequel
Asimov mentionne pour la première fois ces lois, montre un robot qui,
conformément à la deuxième loi, s’approche d’une substance dangereuse,
ce qui enclenche la troisième loi qui le fait s’en éloigner, ce qui enclenche la
deuxième loi et piège le robot dans une boucle sans fin qui entraîne un
quasi-désastre pour ses maîtres humains. Les récits d’Asimov portent
souvent sur les conséquences inattendues de la programmation de règles
éthiques dans les robots. Asimov l’avait pressenti : comme nous l’avons vu,
le problème de l’incomplétude des règles et de l’imprévisibilité de leurs
conséquences a paralysé toutes les approches de l’intelligence artificielle
fondée sur des règles ; le raisonnement moral n’est pas différent.
En 1968, l’auteur de science-fiction Arthur C. Clarke utilisa une intrigue
similaire dans son livre 2001 : l’odyssée de l’espace*16 . L’ordinateur
artificiellement intelligent CARL 500 est programmé pour dire toujours la
vérité aux humains, mais aussi pour dissimuler aux astronautes humains le
but réel de leur mission spatiale. CARL, contrairement au robot insensible
d’Asimov, souffre psychologiquement de cette dissonance cognitive : « Il
avait […] conscience du conflit qui, lentement, détruisait son intégrité, le
conflit entre la vérité et la vérité dissimulée. »*17 Il s’ensuit une « névrose »
informatique qui transforme CARL en assassin. Réfléchissant sur la
moralité informatique dans la vie réelle, le mathématicien Norbert Wiener
remarqua il y a un demi-siècle, en 1960, que « nous aurions tout intérêt à
être sûrs que l’objectif implanté dans la machine est réellement l’objectif
que nous voulons atteindre. »*18
Le commentaire de Wiener exprime ce que l’on appelle en IA le
problème d’alignement des valeurs, à savoir, la difficulté, pour les
programmeurs de l’IA, de garantir que les valeurs de leurs systèmes sont
conformes à celles des humains. Mais quelles sont les valeurs des
humains ? Y a-t-il même un sens à supposer qu’il existe des valeurs
universelles communes à l’ensemble de la société ?
Bienvenue à votre premier cours de philosophie morale. Nous allons
commencer avec l’expérience de pensée favorite de tout étudiant en
philosophie morale : le dilemme du tramway. Vous conduisez un tramway
rapide sur un ensemble de voies, quand vous voyez soudain, juste devant
vous, cinq ouvriers au milieu des voies. Vous actionnez les freins, mais ils
ne fonctionnent pas. Heureusement, il y a une déviation sur la droite. Si
vous la prenez, vous évitez les cinq ouvriers. Malheureusement, il y a un
ouvrier sur cette déviation. Si vous ne faites rien, le tramway percutera les
cinq ouvriers et les tuera tous. Si vous prenez la déviation, il tuera l’ouvrier
qui s’y trouve. Que dicte la morale ?
Durant le dernier siècle, le dilemme du tramway a été un incontournable
de l’enseignement de l’éthique à l’université. La plupart des gens répondent
qu’il serait moralement préférable que le conducteur prenne la déviation et
tue un seul ouvrier pour sauver les cinq autres. Mais certains philosophes
ont observé que la formulation d’un dilemme pratiquement identique peut
conduire à la réponse opposée*19. Le raisonnement humain sur les dilemmes
moraux s’avère très dépendant de leur présentation.
Le dilemme du tramway est récemment réapparu dans le cadre de la
couverture médiatique des voitures autonomes*20, et la question
de l’adaptation de leur programmation à la gestion de tels dilemmes occupe
une place centrale dans les débats sur l’éthique de l’IA. Nombre de
penseurs spécialistes de l’éthique de l’IA ont souligné que le dilemme du
tramway lui-même, dans lequel le conducteur n’a que deux effrayantes
options, est un scénario très artificiel qu’aucun conducteur réel ne
rencontrera jamais dans sa carrière. Ce dilemme n’en est pas moins venu à
symboliser la problématique de la programmation permettant aux voitures
autonomes de prendre seules des décisions d’ordre moral.
En 2016, trois chercheurs publièrent les résultats de plusieurs enquêtes
réalisées auprès de plusieurs centaines de personnes auxquelles on proposa
des scénarios de type dilemme du tramway mettant en scène des voitures
autonomes en leur demandant leur point de vue sur la moralité des
différentes actions. Dans l’une de ces enquêtes, 76 % des personnes
interrogées répondirent qu’il serait moralement préférable qu’une voiture
autonome sacrifie un passager pour sauver dix piétons. Mais lorsqu’on leur
demanda si elles achèteraient une voiture autonome programmée pour
sacrifier ses passagers afin de sauver un bien plus grand nombre de piétons,
l’immense majorité des personnes interrogées répondit qu’elles-mêmes
n’achèteraient pas une telle voiture*21. Selon les auteurs des enquêtes, « les
participants de six études d’Amazon Mechanical Turk ont approuvé les VA
[voitures autonomes] utilitaires (autrement dit, les VA qui sacrifient leurs
passagers pour le bien général) et aimeraient qu’elles aient plus d’acheteurs,
mais préféreraient eux-mêmes rouler dans des VA qui protègent coûte que
coûte leurs propres passagers. » Commentant cette étude, le psychologue
Joshua Greene écrivit : « Avant de pouvoir intégrer nos valeurs dans des
machines, nous devons donner plus de clarté et de cohérence à ces
valeurs. »*22 Cela semble plus difficile que nous le pensons.
Certains spécialistes de l’éthique de l’IA ont proposé de renoncer à tenter
de programmer directement des règles morales dans les machines et de faire
en sorte que les machines apprennent elles-mêmes des valeurs morales en
observant le comportement humain*23. Cette approche par auto-
apprentissage hérite toutefois de tous les problèmes de l’apprentissage
machine que j’ai décrits dans le précédent chapitre.
Personnellement, je pense que le progrès lié à l’attribution d’une
intelligence morale aux ordinateurs est indissociable du progrès lié à
d’autres formes d’intelligence : le vrai défi est de créer des machines
réellement capables de comprendre les situations auxquelles elles sont
confrontées. Comme le démontre Isaac Asimov dans « Cercle Vicieux » un
robot ne peut fidèlement obéir à l’ordre d’éviter de faire du mal à un
humain s’il ne comprend pas le concept de mal dans différentes situations.
Raisonner sur la moralité exige que l’on reconnaisse les relations de cause à
effet, que l’on envisage plusieurs futurs possibles, que l’on ait une idée des
croyances et objectifs d’autrui, et que l’on prévoie les issues possibles de
ses propres actions quelle que soit la situation dans laquelle on se trouve.
Autrement dit, un préalable à un raisonnement moral fiable est un bon sens
général ; or nous l’avons vu, même les meilleurs systèmes d’IA en sont
aujourd’hui dépourvus.
Jusqu’ici, nous avons vu que dans certaines tâches, les réseaux
neuronaux profonds, entraînés sur de gigantesques ensembles de données,
peuvent rivaliser avec les aptitudes visuelles humaines. Nous avons
également vu certaines faiblesses de ces réseaux, notamment leur
dépendance d’énormes quantités de données étiquetées par des humains et
leur propension à échouer de manière très peu humaine. Comment créer un
système d’IA qui apprenne réellement tout seul – un système qui serait plus
fiable parce que, comme les humains, il saurait réfléchir sur la situation du
moment et planifier ses actions futures en fonction de cette situation ? La
prochaine partie du livre va montrer comment les chercheurs en IA utilisent
des jeux tels que les échecs, le go, et même les jeux vidéo Atari comme
« microcosmes » afin de développer des machines dotées de capacités
d’apprentissage et de raisonnement plus humaines et examinera comment
les machines joueuses surhumaines qui en résultent pourraient appliquer
leurs compétences au monde réel.
Troisième partie

Apprendre à jouer
8

Des récompenses pour les robots

Alors qu’elle menait des recherches pour un livre sur les dresseurs
d’animaux exotiques, la journaliste Amy Sutherland apprit que leur
méthode de base était ridiculement simple : « Ils récompensent le
comportement qu’ils aiment et ignorent le comportement qu’ils n’aiment
pas. » Et comme elle l’a écrit à la rubrique Modern Love du New York
Times, « J’ai finalement découvert que ces mêmes techniques pouvaient
marcher avec cette espèce têtue mais adorable : le mari américain. » Elle a
raconté comment, après des années de récriminations, de sarcasmes et de
ressentiments, elle a réussi, mine de rien, grâce à cette simple méthode, à
amener son oublieux de mari à ramasser ses chaussettes, à trouver seul les
clés de sa voiture, à arriver à l’heure au restaurant et à se raser plus
régulièrement*1.
Cette technique classique de formation, connue en psychologie sous le
nom de conditionnement opérant, est utilisée depuis des siècles pour les
animaux et les humains. Le conditionnement opérant a inspiré une
importante approche de l’apprentissage machine appelée apprentissage par
renforcement. L’apprentissage par renforcement contraste avec
l’apprentissage supervisé que j’ai décrit dans les précédents chapitres : dans
sa forme la plus pure, l’apprentissage par renforcement n’exige pas
d’exemples de formation étiquetés. Au lieu de cela, un agent – le
programme d’apprentissage – effectue des actions dans un environnement
(habituellement, une simulation informatique) et à l’occasion reçoit des
récompenses de cet environnement. Ces récompenses intermittentes sont les
seuls retours que l’agent utilise pour son apprentissage. Dans le cas du mari
d’Amy Sutherland, les récompenses étaient ses sourires, ses bises, et ses
compliments. Si un programme informatique peut ne pas réagir à une bise
ou à un enthousiaste « bravo ! », on peut le faire réagir à l’équivalent
machine d’une telle appréciation – telle que l’ajout de nombres positifs dans
sa mémoire.
L’apprentissage par renforcement fait depuis des décennies partie de la
trousse à outils de l’IA. Il a toutefois longtemps été éclipsé par les réseaux
neuronaux et d’autres méthodes d’apprentissage supervisé. Cela changea en
2016 lorsque ce type d’apprentissage joua un rôle central dans un exploit
stupéfiant et bouleversant de l’IA, à savoir un programme qui avait appris à
battre les meilleurs humains au complexe jeu de go. Afin d’expliquer ce
programme – ainsi que d’autres accomplissements récents de
l’apprentissage par renforcement –, je vais d’abord vous donner un exemple
illustrant le fonctionnement de l’apprentissage par renforcement.

Comment dresser votre robot-chien


En guise d’exemple, prenons l’agréable jeu qu’est le football pour robots,
dans lequel des humains (habituellement des étudiants) programment des
robots pour jouer à une version simplifiée du football sur un « terrain » de
la taille d’une pièce d’appartement. Les joueurs sont parfois de mignons
petits robots Aibo en forme de chien comme celui de la figure 22. Un robot
Aibo (fabriqué par Sony) possède une caméra pour capter les entrées
visuelles, un ordinateur programmable interne, et un ensemble de senseurs
et de moteurs qui lui permettent de marcher, de frapper le ballon, de faire
des coups de tête, et même de remuer sa queue en plastique.
Imaginez que nous voulions enseigner à notre robot-chien le b.a.-ba du
football, à savoir, une fois la balle en vue, on s’approche d’elle et on la
frappe du pied. Une approche traditionnelle de l’IA consisterait à entrer
dans le robot les instructions suivantes : Fais un pas vers la balle. Continue
jusqu’à ce que l’un de tes pieds touche la balle. Frappe alors la balle avec ce
pied. Bien entendu, ces instructions doivent être minutieusement traduites
dans le langage des mécanismes sensoriels et moteurs de l’Aibo.
Figure 22. Chien robot Aibo de Sony s’apprêtant à frapper un ballon de football robot.

Ces règles explicites pourraient suffire pour une tâche aussi simple que
celle-ci. Toutefois, plus vous voulez que votre robot soit « intelligent », plus
il est difficile de préciser manuellement ses règles de comportement. Et bien
entendu, il est impossible de concevoir un ensemble de règles valides pour
toutes les situations. Que se passe-t-il si une grande flaque d’eau sépare le
robot du ballon ? Ou si un cône de football bouche la vue du robot ? Ou si
un caillou bloque le mouvement du ballon ? Comme toujours, le monde réel
abonde en situations insolites difficiles à prévoir. L’apprentissage par
renforcement laisse espérer que l’agent – ici, notre robot-chien – parviendra
à apprendre seul des stratégies flexibles en simplement effectuant des
actions dans le monde et recevant de temps en temps des récompenses
(c’est-à-dire le renforcement) sans qu’un humain ait à écrire manuellement
des règles ou à décrire explicitement à l’agent chaque circonstance possible.
Appelons notre robot-chien Rosie, d’après mon robot télévisé préféré,
l’aide ménagère à l’humour ironique du dessin animé Les Jetson*2. Pour
faciliter les choses, supposons que Rosie soit sortie de l’usine
préprogrammée de sorte que si elle a un ballon de football dans sa ligne de
mire, elle peut estimer le nombre de pas qui lui seraient nécessaires pour
arriver sur lui. Ce nombre s’appelle l’« état ». En général, l’état d’un agent
à un instant donné est la perception qu’a l’agent de sa propre situation.
Rosie est le plus simple des agents, dans le sens où son état est donné par un
seul nombre. Quand je dis que Rosie est « dans » un état donné x, je veux
dire qu’elle estime être à x pas du ballon.
En plus de pouvoir identifier son état, Rosie peut effectuer trois actions :
elle peut faire un pas en avant, elle peut faire un pas en arrière, et elle peut
frapper le ballon. (Si Rosie sort des limites du terrain, son programme
interne l’y ramène immédiatement.) Dans l’esprit du conditionnement
opérant, donnons une récompense à Rosie uniquement dans le cas où elle
parvient à frapper le ballon. Notez que Rosie ne sait pas à l’avance quels
états ou actions seront éventuellement récompensés.
Rosie étant un robot, sa « récompense » est simplement un nombre,
disons 10, qui s’ajoute à sa « mémoire récompense ». Nous pouvons
considérer ce nombre 10 comme l’équivalent robot d’une friandise pour
chiens. Ou peut-être pas. Contrairement à un chien réel, Rosie n’a aucun
désir intrinsèque de friandises, de nombres positifs ou de n’importe quoi
d’autre. Comme je l’explique en détail plus loin, dans l’apprentissage par
renforcement, un algorithme d’origine humaine guide le processus
d’apprentissage de Rosie en fonction des récompenses reçues ; autrement
dit, l’algorithme dit à Rosie comment apprendre à partir de ses expériences.
L’apprentissage par renforcement s’obtient en demandant à Rosie d’agir
lors d’une série d’épisodes d’apprentissage consistant chacun en un certain
nombre d’itérations. À chaque itération, Rosie détermine son état du
moment et choisit l’action à prendre. Si elle reçoit une récompense, alors
elle apprend quelque chose, comme je l’illustre plus bas : chaque épisode
dure jusqu’à ce que Rosie parvienne à frapper le ballon, ce qui lui vaut alors
une récompense. Cela peut durer longtemps. Comme dans le dressage d’un
chien réel, nous devons être patients.
La figure 23 illustre un hypothétique épisode d’apprentissage. Au début,
l’entraîneur (moi) place Rosie et le ballon sur leurs positions initiales, avec
Rosie face au ballon (figure 23A). Rosie détermine alors son état : à douze
pas du ballon. Rosie n’ayant encore rien appris, elle a un « cerveau vierge »
qui ne sait quelle action préférer. Elle choisit alors une action au hasard
parmi ses trois possibilités : En avant, En arrière, Coup de pied. Supposons
qu’elle choisisse En arrière et qu’elle fasse un pas en arrière. Nous autres
humains pouvons voir qu’En arrière n’est pas la bonne décision, mais
rappelez-vous, c’est à Rosie de trouver seule comment effectuer cette tâche.
Figure 23. Hypothétique premier épisode d’apprentissage par renforcement.

À l’itération 2 (figure 23B), Rosie détermine son nouvel état : à 13 pas du


ballon. Elle choisit alors une nouvelle action, encore une fois au hasard : En
avant. À l’itération 3 (figure 23C), Rosie détermine son « nouvel » état : à
12 pas du ballon. Elle est revenue à son point de départ, mais elle ne sait
même pas ça ! Dans la forme la plus pure de l’apprentissage par
renforcement, l’agent apprenant n’a pas le souvenir de ses états antérieurs.
La mémorisation des états antérieurs peut nécessiter une quantité énorme de
mémoire et ne s’avère pas, en général, nécessaire.
À l’itération 3, Rosie choisit – encore une fois au hasard – l’action Coup
de pied, mais comme elle frappe dans le vide, elle ne reçoit pas de
récompense. Elle doit encore apprendre que le coup de pied n’est
récompensé que si elle est à zéro pas du ballon.
Rosie continue de choisir des actions aléatoires, sans le moindre retour de
l’environnement, pendant de nombreuses itérations. Mais à un moment,
disons à l’itération 351, par un pur hasard, elle se retrouve à côté du ballon
et choisit Coup de pied (figure 23D). Enfin, elle obtient une récompense et
l’utilise pour apprendre quelque chose.
Qu’apprend-elle ? Ici, nous adoptons l’approche la plus simple de
l’apprentissage par renforcement : en recevant une récompense, Rosie ne
prend connaissance que de l’état et de l’action qui ont immédiatement
précédé cette récompense. En particulier, elle apprend que si elle est dans
tel état (par exemple, à zéro pas du ballon), prendre, par exemple, l’action
Coup de pied est une bonne idée. Mais c’est tout ce qu’elle apprend. Elle
n’apprend pas, par exemple, que si elle est à zéro pas du ballon, En arrière
serait un mauvais choix. Après tout, elle n’a pas encore essayé cela. Pour
autant qu’elle sache, faire un pas en arrière dans cet état pourrait lui valoir
une bien plus grande récompense ! Rosie ne sait pas non plus à ce point,
que si elle est à un pas du ballon, En avant serait un bon choix. Elle doit
attendre le prochain épisode pour le savoir. Trop apprendre à la fois peut
être préjudiciable ; s’il se trouve que Rosie donne un coup de pied dans le
vide à deux pas du ballon, nous ne voulons pas qu’elle considère que ce
geste inefficace était en fait une étape nécessaire pour l’obtention de la
récompense. Chez les humains, ce type de comportement peut passer pour
de la superstition – à savoir, croire à tort qu’une action particulière peut
contribuer à générer une issue particulière, bonne ou mauvaise. Dans
l’apprentissage par renforcement, la superstition est une chose qu’il faut
soigneusement éviter.
Dans l’apprentissage par renforcement, la valeur associée à
l’accomplissement d’une action particulière dans un état donné est une
notion cruciale. La valeur d’une action A dans un état E est un nombre qui
exprime la récompense que l’agent s’attend à recevoir si, dans l’état E,
il effectue l’action A puis continue d’effectuer des actions à forte valeur. Je
m’explique : si votre état actuel est « avoir du chocolat dans la main », une
action à forte valeur serait de porter votre main à votre bouche. Les actions
suivantes à fortes valeurs seraient d’ouvrir votre bouche, d’y mettre le
chocolat et de le croquer. Votre récompense est la délicieuse sensation de
manger le chocolat. Porter la main à votre bouche ne donne pas
immédiatement cette récompense, mais cette action va dans le bon sens, et
si vous avez déjà mangé du chocolat auparavant, vous pouvez prévoir
l’intensité de la récompense qui vous attend. L’objectif de l’apprentissage
par renforcement est d’enseigner à l’agent les valeurs qui prévoient
correctement les récompenses à venir (en supposant que l’agent continue
d’agir dans le bon sens après avoir fait l’action en question)*3. Nous le
verrons, l’apprentissage des valeurs des actions dans un état donné passe
généralement par de nombreuses étapes d’essais et erreurs.
Rosie note les valeurs des actions dans un grand tableau contenu dans la
mémoire de son ordinateur. Ce tableau, comparable à celui de la figure 24,
liste tous les états possibles de Rosie (c’est-à-dire toutes les distances
pouvant la séparer du ballon, jusqu’à la longueur du terrain), et pour chaque
état, les actions qui lui sont possibles. Pour un état donné, chaque action
dans cet état possède une valeur numérique ; ces valeurs évoluent –
deviennent des prédictions plus précises des récompenses à venir – à
mesure que Rosie continue d’apprendre. Ce tableau des états, des actions et
des valeurs s’appelle un Q-tableau. Cette forme d’apprentissage par
renforcement est parfois appelée Q-apprentissage. On utilise la lettre Q
parce que la lettre V (pour valeur) est utilisée pour autre chose dans l’article
original sur le Q-apprentissage*4.

Figure 24. Q-tableau de Rosie après son premier épisode d’apprentissage


par renforcement.

Au début de la formation de Rosie, j’initialise le Q-tableau en mettant


toutes les valeurs à zéro. Lorsque Rosie reçoit une récompense pour avoir
frappé le ballon à la fin de l’épisode 1, la valeur de l’action Coup de pied
dans l’état « à 0 pas du ballon » augmente de 10 – le montant de la
récompense. À l’avenir, lorsque Rosie sera dans l’état « à 0 pas du ballon »,
elle pourra regarder dans le Q-tableau, y voir que Coup de pied est l’action
qui a la plus grande valeur – autrement dit, prédit la plus forte récompense –
et décider de choisir Coup de pied plutôt que de faire un choix au hasard.
C’est tout ce que signifie ici « apprentissage » !
L’épisode 1 s’est terminé par le coup de pied de Rosie sur le ballon.
Passons maintenant à l’épisode 2 (figure 25) qui débute avec Rosie et le
ballon dans de nouvelles positions (figure 25A). Ici encore, à chaque
itération, Rosie détermine son état – initialement à six pas du ballon – puis
choisit son action, maintenant en examinant son Q-tableau. Mais à ce stade,
les valeurs des actions dans son état actuel valent encore toutes 0 ; elle ne
dispose encore d’aucune information pour l’aider dans son choix. Rosie
choisit alors de nouveau une action au hasard : En arrière. Et elle choisit
encore En arrière à l’itération suivante (figure 25B). L’apprentissage de
notre robot-chien est loin d’être terminé.
Tout continue comme avant, jusqu’à ce que ce cafouillis d’actions par
essais et erreurs amène Rosie à un pas du ballon (figure 25C) où elle se
trouve choisir En avant. Elle voit alors soudain son pied à côté du ballon
(figure 25D) et le Q-tableau a quelque chose à lui dire sur cet état. Il lui dit
notamment que son état actuel – à zéro pas du ballon – a une action – Coup
de pied – censée conduire à une récompense égale à 10. Maintenant, elle
peut utiliser cette information, apprise lors de l’épisode précédent, pour
choisir une action à effectuer, à savoir le Coup de pied. Mais voici la
quintessence de l’apprentissage par renforcement : Rosie peut maintenant
apprendre quelque chose sur l’action (En avant) qu’elle a effectuée dans
l’état immédiatement précédent (à un pas du ballon). C’est ce qui l’a
amenée à se trouver dans l’excellente position qui est maintenant la sienne !
Plus précisément, la valeur de l’action En avant dans l’état « à un pas du
ballon » est actualisée à la hausse dans le Q-tableau, d’une certaine fraction
de la valeur de l’action « Coup de pied à zéro pas du ballon », ce qui
conduit directement à une récompense. Ici, j’ai actualisé cette valeur à 8
(figure 26).
Figure 25. Le second épisode de l’apprentissage par renforcement.

Figure 26. Le Q-tableau de Rosie après le second épisode d’apprentissage


par renforcement.

Le Q-tableau dit maintenant à Rosie que donner un coup de pied quand


on est dans l’état « zéro pas du ballon » est vraiment excellent et qu’il est
presque aussi bien d’avancer (En avant) quand on est dans l’état « un pas
du ballon ». La prochaine fois que Rosie se retrouvera dans l’état « un pas
du ballon », elle possédera une information sur l’action qu’elle devrait
exécuter et sera en mesure d’apprendre l’existence d’une actualisation pour
l’action immédiatement passée – l’action En avant dans l’état « deux pas du
ballon ». Notez qu’il importe que les valeurs apprises pour les actions
diminuent (subissent un rabais) à mesure qu’elles s’éloignent de la
récompense finale. Cela permet au système de percevoir une trajectoire
menant efficacement à une véritable récompense.
L’apprentissage par renforcement – en l’occurrence, la mise à jour
progressive des valeurs du Q-tableau – se poursuit, épisode après épisode,
jusqu’à ce que Rosie sache finalement effectuer sa tâche depuis n’importe
quel point de départ. Cet algorithme d’apprentissage par renforcement, le
Q-apprentissage, offre un moyen d’attribuer des valeurs à des actions dans
un état donné, y compris aux actions qui ne conduisent pas directement à
des récompenses mais qui préparent le terrain pour les états relativement
rares dans lesquels l’agent reçoit effectivement des récompenses.
J’ai écrit un programme simulant le Q-apprentissage de Rosie tel qu’il est
décrit ci-dessus. Au début de chaque épisode, Rosie était placée à une
distance aléatoire du ballon, comprise entre zéro et vingt-cinq pas. Je l’ai dit
plus haut, si Rosie sortait du terrain, mon programme l’y faisait tout
simplement revenir à l’endroit où elle l’avait quitté. Chaque épisode prenait
fin lorsque Rosie réussissait à atteindre et frapper le ballon. J’ai découvert
qu’il lui fallait environ trois cents épisodes pour apprendre à effectuer sa
tâche parfaitement, quel que soit son point de départ.
Cet exemple d’« entraînement de Rosie » donne une idée de ce qu’est
l’essence de l’apprentissage par renforcement, mais j’ai laissé de côté bon
nombre de problèmes auxquels les chercheurs en apprentissage par
renforcement sont confrontés lors de tâches plus complexes*5. Par exemple,
dans les tâches du monde réel, la perception que l’agent a de son état est
souvent incertaine, contrairement à celle de Rosie, qui sait exactement
combien de pas la séparent du ballon. Un robot footballeur réel peut n’avoir
qu’une vague estimation des distances, voire ne pas savoir avec certitude
lequel des petits objets de couleur claire présents sur le terrain est en fait le
ballon. Les conséquences d’une action peuvent elles aussi être incertaines :
par exemple, l’action En avant peut, selon le terrain, déplacer le robot plus
ou moins loin, voire l’amener à tomber ou à heurter un obstacle inaperçu.
Comment l’apprentissage par renforcement gère-t-il ce type d’incertitudes ?
De plus, comment l’agent apprenant choisit-il une action à chaque pas
temporel ? Une stratégie naïve serait de toujours choisir dans le Q-tableau
l’action à valeur maximale pour l’état du moment. Cette stratégie pose
toutefois un problème : il se peut que d’autres actions, encore inexplorées,
conduisent à une meilleure récompense. À quelle fréquence devez-vous
explorer – en effectuant des actions que vous n’avez pas encore essayées –
plutôt que choisir des actions « connues » pour lesquelles vous avez déjà été
récompensé ? Quand vous allez au restaurant, commandez-vous toujours le
plat que vous avez déjà essayé et trouvé bon, ou essayez-vous quelque
chose de nouveau parce qu’il se peut que la carte contienne une bien
meilleure option ? Savoir jusqu’où explorer de nouvelles actions et
jusqu’où exploiter les actions connues s’appelle rechercher l’équilibre entre
exploration et exploitation. Parvenir au bon équilibre est un enjeu central
pour la réussite de l’apprentissage par renforcement.
Tels sont des sujets de recherche qui occupent actuellement la
communauté sans cesse croissante des gens qui travaillent sur
l’apprentissage par renforcement. Tout comme en apprentissage profond, la
conception de systèmes d’apprentissage par renforcement reste un art
difficile (et parfois lucratif !), maîtrisé par un groupe relativement petit
d’experts qui, comme leurs homologues de l’apprentissage profond, passent
énormément de temps à régler des hyperparamètres. (Combien d’épisodes
d’apprentissage autoriser ? Combien d’itérations autoriser par épisode ?
Quel doit être le taux de diminution des récompenses à mesure que le
système s’éloigne de l’objectif final ? Et ainsi de suite.)

Les obstacles du monde réel


Laissons pour l’instant ces questions de côté et examinons deux obstacles
majeurs qui peuvent se présenter quand nous passons de l’« entraînement de
Rosie » à un apprentissage par renforcement sur les tâches du monde réel.
Premièrement, il y a le Q-tableau. Dans les tâches complexes du monde réel
– pensez par exemple à une voiture autonome qui apprend à conduire dans
les rues grouillantes d’une grande ville –, il est impossible de définir un
petit ensemble d’« états » susceptibles d’être énumérés dans un tableau. À
un instant donné, un seul état pour une voiture serait quelque chose comme
la totalité des données fournies par ses caméras et autres senseurs. Cela
signifie qu’un véhicule autonome, concrètement parlant, se trouve face à
une infinité d’états possibles. Apprendre via un Q-tableau semblable à celui
de l’exemple « Rosie » est hors de question. Pour cette raison, la plupart des
approches modernes de l’apprentissage par renforcement utilisent un réseau
de neurones artificiels au lieu d’un Q-tableau. Le travail du réseau de
neurones est d’apprendre les valeurs à attribuer aux actions dans un état
donné. En particulier, ce réseau reçoit l’état courant comme entrée, et ses
sorties sont ses estimations des valeurs de toutes les actions possibles que
l’agent peut exécuter dans cet état. L’espoir est qu’il apprenne à regrouper
les états associés en concepts généraux (Avancer sans danger ou Arrêter
immédiatement pour éviter une collision avec un obstacle).
Le second obstacle, dans le monde réel, est la difficulté d’effectuer ce
type d’apprentissage sur de nombreux épisodes en utilisant un robot réel.
Même notre exemple « Rosie » n’est pas transposable au monde réel.
Imaginez-vous en train d’initialiser un nouvel épisode – en sortant sur le
terrain pour placer le robot et le ballon à des endroits différents – des
centaines de fois, puis attendre que le robot effectue ses centaines d’actions
par épisode ? Vous n’auriez tout simplement pas assez de temps pour faire
cela. En outre, vous risqueriez d’amener le robot à s’abîmer en choisissant
une mauvaise action, telle que donner un coup de pied dans un mur de
béton ou passer par-dessus le bord d’une falaise.
Comme je l’ai fait pour Rosie, les praticiens de l’apprentissage par
renforcement gèrent presque toujours ce problème en construisant des
simulations de robots et de leurs environnements et en effectuant tous
les épisodes d’apprentissage dans ces simulations plutôt que dans le monde
réel. Il arrive que cette approche fonctionne bien. Les simulations ont
permis à des robots d’apprendre, notamment, à marcher, sauter, saisir des
objets, conduire une voiture télécommandée et, avec plus ou moins de
réussite, de transférer dans le monde réel les compétences acquises durant
ces simulations*6. Toutefois, plus l’environnement est complexe et
imprédictible, moins les tentatives de transfert dans le monde réel de ce qui
a été appris durant la simulation réussissent. Ces difficultés expliquent
pourquoi à ce jour, les plus grands succès de l’apprentissage par
renforcement s’observent non pas en robotique, mais dans des domaines qui
peuvent être parfaitement simulés sur un ordinateur. En particulier, les plus
célèbres succès de l’apprentissage par renforcement sont associés au
domaine des jeux. L’application aux jeux de l’apprentissage par
renforcement est l’objet du prochain chapitre.
9

Mise en jeu

Depuis les tout premiers jours de l’IA, ses passionnés sont obsédés par la
création de programmes capables de battre les humains à certains jeux. À la
fin des années 1940, Alan Turing et Claude Shannon, deux fondateurs de
l’ère informatique, écrivaient des programmes pour jouer aux échecs avant
même qu’il y eût des ordinateurs capables de les faire tourner. Dans les
décennies qui suivirent, nombre de jeunes fanatiques des jeux succombèrent
au désir d’apprendre la programmation afin d’avoir des ordinateurs sur
lesquels jouer à leurs jeux favoris, qu’il s’agisse des dames, des échecs, du
backgammon, du go, du poker ou, plus récemment, des jeux vidéo.
En 2010, un jeune scientifique britannique passionné de jeux, Demis
Hassabis, créa à Londres, avec deux amis intimes, une entreprise appelée
DeepMind Technologies. Hassabis est une figure pittoresque et légendaire
du monde de l’IA moderne. Prodige des échecs, vainqueur de championnats
à l’âge de six ans, il commença à programmer professionnellement des jeux
vidéo à l’âge de quinze ans et fonda sa propre entreprise de jeux vidéo à
vingt-deux ans. En plus de ses activités entrepreneuriales, il obtint un
doctorat en neurosciences cognitives à l’University College, à Londres, afin
de poursuivre son objectif : construire une IA inspirée de la structure du
cerveau. Hassabis et ses collègues fondèrent DeepMind Technologies afin
de « s’attaquer aux questions réellement fondamentales » posées par
l’intelligence artificielle*1. Sans surprise, le groupe DeepMind considérait
les jeux vidéo comme le domaine idéal pour aborder ces questions. Selon
Hassabis, les jeux vidéo sont « comme des microcosmes du monde réel,
mais … plus propres et plus contraints. »*2
Quelle que soit votre opinion sur les jeux vidéo, si vous êtes plutôt du
côté « propre et contraint » que du côté « monde réel », vous pourriez
envisager de créer des programmes jouant aux jeux vidéo Atari des
années 1970 à 1980. C’est exactement ce que décida de faire le groupe
DeepMind. Selon votre âge et vos intérêts, vous vous souvenez peut-être de
certains de ces classiques comme Asteroids, Space Invaders, Pong et Ms.
Pac-Man. Cela vous revient ? Avec leur graphisme rudimentaire et leur
contrôle par joystick, ces jeux étaient suffisamment simples pour être joués
par des enfants mais suffisamment difficiles pour susciter l’intérêt des
adultes.

Figure 27. Illustration du jeu vidéo Breakout d’Atari.

Considérez le jeu solo appelé Breakout (casse briques) et illustré à la


figure 27. Le joueur utilise le joystick pour déplacer une « raquette » (le
rectangle blanc en bas à droite) de droite à gauche. Une « balle » (cercle
blanc) peut rebondir sur la raquette pour frapper des « briques »
rectangulaires de différentes couleurs. La balle peut également rebondir
sur les « murs » gris latéraux. Si elle frappe une brique (rectangles à
motifs), la brique disparaît, le joueur gagne des points et la balle rebondit.
Les briques des couches supérieures rapportent plus de points que celles des
couches inférieures. Si la balle touche le « sol » (bas de l’écran), le joueur
perd une de ses cinq « vies », et s’il reste des « vies », une nouvelle balle
entre en jeu. Le but du joueur est de maximiser son score au cours de ses
cinq vies.
Il y a un petit détail intéressant ici. Breakout résulta des efforts d’Atari
pour créer une version solo de son jeu à succès Pong. La conception et la
mise en œuvre de Breakout furent initialement confiées en 1975 à un
employé de vingt ans nommé Steve Jobs. Oui, ce Steve Jobs (par la suite,
cofondateur d’Apple). Jobs n’ayant pas les compétences techniques
suffisantes pour faire du bon travail sur Breakout, il recruta son ami Steve
Wozniak, âgé de vingt-cinq ans (et par la suite second cofondateur
d’Apple), pour l’aider dans ce projet. Wozniak et Jobs achevèrent la
conception matérielle de Breakout en quatre nuits, travaillant chaque soir
dès que Wozniak avait achevé sa journée de travail chez Hewlett-Packard.
Une fois sorti, Breakout, comme Pong, fut immensément populaire auprès
des amateurs de jeux vidéo.
Si vous éprouvez de la nostalgie mais pas au point de garder votre vieille
console de jeux Atari 2600, il existe de nombreux sites Web proposant
Breakout et d’autres jeux. En 2013, un groupe canadien de chercheurs en IA
a sorti une plate-forme logicielle appelée Arcade Learning Environment
(Environnement d’Apprentissage Arcade), qui permet de tester facilement
des systèmes d’apprentissage machine sur quarante-neuf de ces jeux*3. C’est
cette plate-forme qu’a utilisée le groupe DeepMind lors de ses travaux sur
l’apprentissage par renforcement.

Le Q-apprentissage profond
Le groupe DeepMind a combiné l’apprentissage par renforcement – en
particulier, le Q-apprentissage – et les réseaux neuronaux profonds pour
créer un système capable d’apprendre à jouer aux jeux vidéo Atari. Il a
donné à son approche le nom de « Q-apprentissage profond ». Je vais
expliquer le fonctionnement du Q-apprentissage profond en l’appliquant à
Breakout, mais DeepMind a utilisé cette même méthode sur tous les jeux
Atari sur lesquels il a travaillé. Ça va être un peu technique, donc accrochez
vos ceintures (ou passez à la section suivante).
Figure 28. Illustration d’un Q-réseau profond (QRP) conçu pour Breakout.

Rappelez-vous comment nous avons utilisé le Q-apprentissage pour


entraîner Rosie, le robot-chien. Dans un épisode de Q-apprentissage, l’agent
apprenant (Rosie) fait à chaque itération les choses suivantes : il détermine
son état courant, recherche cet état dans son Q-tableau, utilise les valeurs de
ce Q-tableau pour choisir une action, effectue cette action, reçoit
éventuellement une récompense puis – c’est le pas d’apprentissage –
actualise les valeurs de son Q-tableau.
Le Q-apprentissage profond de DeepMind est identique, sauf qu’un
réseau neuronal convolutif prend la place du Q-tableau. À l’instar de
DeepMind, je vais donner à ce réseau le nom de Q-réseau profond (QRP).
La figure 28 montre un QRP semblable à (bien que plus simple que) celui
utilisé par DeepMind pour apprendre à jouer à Breakout. L’entrée du QRP
est l’état du système à un instant donné, état qui est ici défini par la
« trame » courante – les pixels de l’écran courant – plus les trois trames
antérieures (les pixels de l’écran des trois étapes temporelles précédentes).
Cette définition de l’état fournit au système une petite quantité de mémoire,
ce qui s’avère utile ici. Les sorties du réseau sont, pour chaque état d’entrée,
les valeurs estimées de chaque action possible. Les actions possibles sont
les suivantes : déplacement de la raquette vers la Gauche, déplacement de la
raquette vers la Droite, et Pause (i.e., la raquette reste immobile). Le réseau
lui-même est un ConvNet pratiquement identique à celui que j’ai décrit au
chapitre 4. À la place des valeurs d’un Q-tableau – comme dans l’exemple
de Rosie –, dans le Q-apprentissage profond, ce sont les poids de ce réseau
qui sont ajustés au fur et à mesure que le système apprend à jouer.
DeepMind apprend à jouer à Breakout au bout d’un grand nombre
d’épisodes. Chaque épisode correspond à une partie de Breakout, et chaque
itération durant un épisode correspond à l’accomplissement d’une action
par le système. En particulier, à chaque itération, le système entre son état
dans le QRP et choisit une action en fonction des valeurs sorties par le QRP.
Le système ne choisit pas toujours l’action dont la valeur estimée est
maximale. Je l’ai dit au précédent chapitre, pour bien fonctionner,
l’apprentissage par renforcement a besoin d’un équilibre entre exploration
et exploitation*4. Le système effectue l’action qu’il a choisie (par exemple,
déplacer la raquette d’une certaine distance vers la gauche) et reçoit
éventuellement une récompense si la balle heurte une des briques. Le
système effectue alors un pas d’apprentissage : il actualise les poids dans le
QRP via l’algorithme de rétropropagation d’erreur.
Comment les poids sont-ils actualisés ? C’est là la différence essentielle
entre l’apprentissage supervisé et l’apprentissage par renforcement. Nous
l’avons vu lors des précédents chapitres, la rétropropagation fonctionne en
modifiant les poids d’un réseau neuronal de manière à réduire l’erreur dans
les sorties du réseau. Dans l’apprentissage supervisé, la mesure de cette
erreur est simple. Rappelez-vous, au chapitre 4, notre hypothétique
ConvNet dont le but était d’apprendre à classer des photos dans les
catégories « chien » ou « chat ». Si une photo d’entrée montrait un chien
mais que la confiance de sortie de « chien » n’était que de 20 %, l’erreur
pour cette sortie était alors de 100 % – 20 % = 80 %. Autrement dit, l’idéal
aurait été que cette valeur de confiance soit de 80 points plus grande. Le
réseau parvenait à calculer l’erreur parce qu’il avait une étiquette fournie
par un humain qui correspondait à la bonne réponse.
Or dans l’apprentissage par renforcement, il n’y a pas d’étiquette. Une
trame extraite du jeu ne porte pas d’étiquette indiquant quelle action doit
être prise. Comment dans ce cas attribuer une erreur à une sortie ?
Voici la réponse. Rappelez-vous que si vous êtes l’agent apprenant, la
valeur d’une action dans l’état courant est votre estimation de la
récompense que vous recevrez à la fin de l’épisode si vous choisissez cette
action (et continuez de choisir des actions de valeurs élevées). Cette
estimation devrait s’améliorer à mesure que vous approchez de la fin de
l’épisode, lorsque vous faites le bilan des récompenses que vous avez
effectivement reçues ! L’astuce consiste à supposer que les sorties du réseau
lors de l’itération en cours sont plus proches du résultat correct que les
sorties lors de la précédente itération. L’apprentissage consiste alors à
ajuster les poids du réseau (via la rétropropagation) de manière à minimiser
la différence entre les sorties de l’itération courante et celles de l’itération
précédente. Richard Sutton, l’un des initiateurs de cette méthode, appelle
cela « apprendre une estimation à partir d’une estimation. »*5
Personnellement, je dirais plutôt « apprendre une estimation à partir d’une
meilleure estimation. »
En bref, au lieu d’apprendre à faire correspondre ses sorties aux
étiquettes données par un humain, le réseau apprend à rendre ses sorties
cohérentes d’une itération à l’autre en supposant que les dernières itérations
donnent de meilleures estimations de la valeur que les estimations
antérieures. Cette méthode d’apprentissage s’appelle l’apprentissage par
différence temporelle.
Pour récapituler, voici comment le Q-apprentissage profond fonctionne
pour Breakout (et tous les autres jeux Atari.) Le système fournit son état
courant comme entrée au Q-réseau profond. Ce Q-réseau profond sort une
valeur pour chaque action possible. Le système choisit et effectue une de
ces actions, ce qui le place dans un nouvel état. Maintenant a lieu l’étape
d’apprentissage : le système entre son nouvel état dans le réseau, qui sort un
nouvel ensemble de valeurs pour chaque action. La différence entre le
nouvel ensemble de valeurs et le précédent ensemble de valeurs est
considérée comme l’« erreur » du réseau et cette erreur est utilisée par la
rétropropagation pour modifier les poids du réseau. Ces étapes se répètent
sur de nombreux épisodes (parties de jeu). Pour être bien clair, chaque
chose ici – le Q-réseau profond, le « joystick » virtuel et le jeu lui-même –
est un logiciel qui tourne dans un ordinateur.
Voici donc l’essentiel de l’algorithme développé par les chercheurs de
DeepMind, bien qu’ils aient utilisé quelques astuces pour l’améliorer
et l’accélérer*6. Au début, alors que l’apprentissage reste encore limité, les
sorties du réseau sont passablement aléatoires, et le jeu du système est lui
aussi passablement aléatoire. Mais peu à peu, à mesure que le réseau
apprend les poids qui améliorent ses sorties, le système joue de mieux en
mieux, de manière tout à fait spectaculaire dans de nombreux cas.
L’agent à 650 millions de dollars
Le groupe DeepMind a appliqué sa méthode de Q-apprentissage profond
aux quarante-neuf jeux Atari de l’Environnement d’Apprentissage Arcade.
Si les programmeurs de DeepMind utilisaient pour chaque jeu la même
architecture réseau et les mêmes réglages des hyperparamètres, leur
système apprenait cependant chaque jeu à partir de zéro. Autrement dit, les
connaissances acquises par le système (les poids du réseau) lors d’une
partie n’étaient pas transférées lorsque le système commençait à apprendre
un nouveau jeu. Bien que nécessitant des milliers d’épisodes,
l’apprentissage pour chaque jeu se faisait relativement rapidement grâce au
matériel informatique sophistiqué de l’entreprise.

Figure 29. Le joueur simulé de DeepMind a découvert dans Breakout la stratégie


du tunnel qui permet de détruire rapidement les briques de grande valeur en rebondissant
sur le « plafond ».

Après avoir entraîné un Q-réseau profond pour chaque jeu, DeepMind a


comparé le niveau de jeu de la machine à celui d’un « testeur de jeux
professionnel » humain, que l’on laissait jouer deux heures durant à chaque
jeu avant d’être évalué. « Chouette métier ! » pensez-vous peut-être. Oui,
mais uniquement si vous aimez être humilié par un ordinateur ! Les
programmes de Q-apprentissage profond de DeepMind jouaient mieux que
le testeur humain pour plus de la moitié des jeux. Et pour la moitié de ces
jeux, ces programmes furent plus de deux fois supérieurs à l’être humain. Et
sur la moitié de ceux-ci, les programmes lui furent plus de cinq fois
supérieurs. Breakout fut un exemple particulièrement stupéfiant : le score
du programme du QRP y fut en moyenne plus de dix fois supérieur à celui
de l’humain.
Qu’ont exactement appris ces programmes surhumains ? Après examen,
DeepMind a trouvé que ses programmes ont inventé des stratégies très
intelligentes. Par exemple, le programme entraîné pour jouer au Breakout a
découvert une astuce sournoise, illustrée à la figure 29, à savoir que si la
balle parvient à éjecter les briques de manière à créer un étroit passage à
l’extrémité de la couche de briques, elle rebondit ensuite entre le
« plafond » et la couche de briques supérieure, éjectant très rapidement des
briques du dessus, très rémunératrices, sans que le joueur ait à déplacer la
raquette.
DeepMind a pour la première fois présenté ce travail en 2013, lors d’une
conférence internationale sur l’apprentissage machine*7. Le public fut
ébloui. Moins d’une année plus tard, Google annonça acquérir DeepMind
pour 440 millions de livres sterling (environ 650 millions de dollars à
l’époque), probablement en raison de ces résultats. Oui, l’apprentissage par
renforcement conduit parfois à de grosses récompenses.
Avec beaucoup d’argent en poche et les ressources de Google en soutien,
DeepMind – devenu Google DeepMind – releva un plus grand défi, un défi
qui en fait fut longtemps considéré comme l’un des « grands défis » de
l’IA : créer un programme qui joue au go mieux qu’un être humain. Le
programme AlphaGo de DeepMind est l’aboutissement d’une longue
histoire, celle de la rencontre de l’IA avec les jeux de plateaux.
Commençons par un bref survol de cette histoire. Cela nous aidera à
comprendre le fonctionnement d’AlphaGo et les raisons de son extrême
importance.

Des dames et des échecs


En 1949, l’ingénieur Arthur Samuel rejoignit le laboratoire d’IBM à
Poughkeepsie, dans l’État de New York, et se mit immédiatement à
apprendre le jeu de dames à une première version de l’ordinateur 701
d’IBM. Si vous avez une expérience de la programmation informatique,
vous voyez tout de suite l’ampleur du défi auquel il s’attaquait. Comme l’a
dit un historien, « Samuel fut la première personne à faire sérieusement de
la programmation sur le 701 et, en tant que tel, n’avait aucun utilitaire
système [c’est-à-dire, essentiellement, aucun système d’exploitation !] sur
quoi s’appuyer. En particulier, il n’avait pas d’assembleur et devait tout
écrire en utilisant les codes opératoires et les adresses. »*8 Traduction pour
mes lecteurs non-programmeurs : c’est comme construire une maison avec
uniquement une scie à main et un marteau. Le jeu de dames informatique de
Samuel fut l’un des tout premiers programmes d’apprentissage machine ; en
fait, c’est Samuel qui a inventé le terme apprentissage machine.

Figure 30. Extrait d’un arbre de jeu d’une partie de dames. Par souci de simplicité,
cette figure ne montre que trois mouvements possibles pour chaque configuration
du damier. Les flèches blanches relient la case de départ d’un pion à sa case d’arrivée.

Le joueur de dames de Samuel reposait sur l’exploration d’un arbre de


jeu, qui reste à ce jour la base de tous les programmes (notamment
d’AlphaGo, que je vais décrire plus bas) destinés aux jeux de plateau.
La figure 30 montre une partie d’un arbre de jeu pour le jeu de dames. La
« racine » de l’arbre (dessinée, par convention, en haut, contrairement à la
racine d’un arbre réel) montre le damier initial avant qu’aucun des joueurs
n’ait déplacé de pion. Les « branches » issues de la racine donnent tous les
coups possibles pour le premier joueur (ici, les noirs). Il y a sept coups
possibles (pour simplifier, la figure n’en montre que trois). Pour chacun de
ces sept coups des noirs, il y a sept réponses possibles des blancs (qui elles
aussi ne sont pas toutes représentées sur la figure), et ainsi de suite. Chacun
des damiers de la figure 30, qui montre une disposition possible des pièces,
s’appelle une configuration.
Imaginez que vous jouiez aux dames. À chaque coup, vous construisez
dans votre tête une petite partie de cet arbre et vous vous dites : « Si je fais
ce coup-ci, mon adversaire pourrait alors faire ce coup-là, auquel cas je
pourrais faire ce coup, qui me permettra de prendre un pion. » La plupart
des gens, y compris les meilleurs joueurs, n’envisagent que quelques coups
d’avance avant de choisir le coup qu’ils vont jouer. Un ordinateur rapide, en
revanche, peut effectuer cette anticipation des coups sur une échelle bien
plus grande. Qu’est-ce qui empêche l’ordinateur de regarder tous les coups
possibles et de voir quelle séquence de coups conduira très rapidement à la
victoire ? La réponse est : l’accroissement exponentiel que nous avons
rencontré au chapitre 3 (vous vous rappelez, le roi, le sage et les grains de
riz ?). Une partie de dames comporte en moyenne cinquante coups, ce qui
signifie que l’arbre de jeu de la figure 30 peut descendre jusqu’au
cinquantième niveau au-dessous de la racine. À chaque niveau, il y a en
moyenne six ou sept branches susceptibles de descendre de chaque
configuration possible. Cela signifie que le nombre total de configurations
contenues dans l’arbre pourrait être supérieur à 6 à la puissance cinquante –
un nombre qui dépasse l’imagination. Un hypothétique ordinateur capable
d’examiner un millier de milliards de configurations par seconde mettrait
1019 années pour examiner toutes les configurations d’un seul arbre de jeu.
(Comme cela se fait souvent, on peut comparer ce nombre avec l’âge de
l’univers, qui n’est que d’environ 1010 ans.) Il est clair qu’un examen
complet de l’arbre de jeu est impossible.
Heureusement les ordinateurs arrivent à bien jouer sans passer par ce
type de recherche exhaustive. Chaque fois que c’était à lui de jouer, le
programme de Samuel créait (dans la mémoire de l’ordinateur) une petite
partie d’un arbre de jeu semblable à celui de la figure 30. La racine de cet
arbre étant la configuration courante du joueur, et le programme, utilisant
les règles du jeu de dames qu’il contenait, générait tous les coups légaux
qu’il pouvait faire à partir de cette configuration. Il générait ensuite tous les
coups légaux que son adversaire pouvait faire à partir de chacune des
positions résultantes, et ce processus d’anticipation se poursuivait sur quatre
ou cinq coups*9.
Le programme évaluait ensuite les configurations qui apparaissaient à la
fin du processus d’anticipation ; à la figure 30, ces configurations forment
la rangée inférieure de l’arbre partiel. L’évaluation d’une configuration
consiste déterminer la probabilité pour que cette configuration conduise à la
victoire du programme. Le programme de Samuel utilisait une fonction
d’évaluation qui attribuait des points, trente-huit en tout, à diverses
caractéristiques de la configuration telles que l’avantage numérique des
noirs, le nombre de dames noires, et le nombre de pions noirs en passe de
devenir dames. Samuel avait choisi ces caractéristiques particulières en
utilisant sa connaissance du jeu de dames. Une fois évaluée chaque
configuration de la rangée du bas, le programme faisait tourner un
algorithme classique, appelé minimax, qui utilisait ces valeurs, calculées à
la fin du processus d’anticipation, pour attribuer une valeur à chaque coup
possible du programme depuis sa configuration courante. Le programme
choisissait ensuite le coup ayant la meilleure valeur.
L’idée, ici, est que la fonction d’évaluation sera d’autant plus précise
qu’elle s’appliquera à des configurations plus avancées dans le déroulement
de la partie. Ainsi, la stratégie du programme consiste à examiner d’abord
toutes les séquences possibles de quelques coups à venir, puis à appliquer la
fonction d’évaluation aux configurations résultantes. Minimax fait ensuite
remonter ces évaluations jusqu’à la configuration courante, ce qui fournit
une évaluation de tous les coups possibles à partir de cette configuration*10.
Le programme a ainsi appris quelles étaient les caractéristiques de la
configuration à inclure dans la fonction d’évaluation d’un coup donné, ainsi
que la façon de pondérer ces différentes caractéristiques lors du calcul de
leurs points. Samuel expérimenta plusieurs méthodes d’apprentissage dans
son système. Dans la version la plus intéressante, le système apprit en
jouant contre lui-même ! Cette méthode d’apprentissage était plutôt
compliquée, je ne la décrirai pas ici, mais certains de ses aspects
anticipaient la version moderne de l’apprentissage par renforcement*11.
Le joueur de dames de Samuel atteignit finalement le niveau d’un
« joueur supérieur à la moyenne » sans pour autant être un champion. Il fut
qualifié par certains joueurs amateurs de « retors, mais pas imbattable »*12.
Ce programme fut néanmoins une aubaine publicitaire pour IBM : le
lendemain du jour où Samuel en fit une démonstration à la télévision
nationale, en 1956, l’action IBM fit un bond de quinze points. Ce fut la
première d’une série de hausses de l’action IBM consécutive à une
démonstration de la supériorité d’un logiciel de jeux sur les humains. Plus
récemment, l’action IBM a de nouveau grimpé après la diffusion de la
victoire de son programme, Watson, au jeu télévisé Jeopardy !
Si le joueur de dames de Samuel fut une étape importante dans l’histoire
de l’IA, j’ai surtout fait cette digression historique pour introduire trois
concepts extrêmement importants dont il est l’illustration : l’arbre de jeu, la
fonction d’évaluation, et l’apprentissage en autodidacte.

Deep Blue
Bien que le programme joueur de dames « retors, mais pas imbattable, » de
Samuel fût remarquable, surtout pour son époque, il ne remit guère en cause
l’idée que les humains se faisaient de la supériorité de leur propre
intelligence. Même si une machine parvenait à battre des champions
humains du jeu de dames, (ce qui fut fait en 1994*13), la maîtrise de ce jeu
ne fut jamais considérée comme la marque d’une intelligence générale. Les
échecs, c’est une autre histoire. Par exemple, Demis Hassabis, de
DeepMind, a écrit : « Le jeu d’échecs étant traditionnellement perçu comme
une démonstration exemplaire de l’intelligence humaine, d’éminents
informaticiens ont cru pendant des décennies qu’un grand joueur d’échecs
numérique surpasserait bientôt toutes les autres capacités humaines. »*14
Nombre de gens, et parmi eux les premiers pionniers de l’IA Allen Newell
et Herbert Simon, ont souscrit à cette vision exaltée des échecs. En 1958,
Newell et Simon écrivirent : « Si l’on parvenait à construire un ordinateur
jouant aux échecs à la perfection, on aurait alors le sentiment d’avoir
pénétré au cœur même de l’intelligence humaine. »*15
Le jeu d’échecs est bien plus complexe que le jeu de dames. Par exemple,
j’ai dit plus haut qu’aux dames, il y a en moyenne six ou sept coups
possibles pour une configuration donnée. Aux échecs, ce nombre passe à
trente-cinq. Cela rend l’arbre de jeu des échecs bien plus grand que celui
des dames. Au fil des décennies, les programmes joueurs d’échecs n’ont
cessé de s’améliorer, de concert avec la vitesse croissante des ordinateurs.
En 1997, IBM connut le second grand triomphe de ses programmes de jeu
avec Deep Blue, un programme joueur d’échecs qui battit le champion du
monde Garry Kasparov lors d’une rencontre en six parties largement
télédiffusée.
Deep Blue utilisa à peu près la même méthode que le programme de
dames de Samuel : à chaque coup, il créait un arbre de jeu partiel dont la
racine était la configuration du moment ; il appliquait sa fonction
d’évaluation à la couche de l’arbre la plus lointaine, puis utilisait
l’algorithme minimax pour faire remonter les valeurs à la configuration
courante afin de déterminer le coup qu’il devait jouer. Les différences
majeures entre le programme de Samuel et Deep Blue étaient que Deep
Blue anticipait plus loin dans son arbre de jeu, avait une fonction
d’évaluation plus complexe (adaptée aux échecs), une connaissance des
échecs programmée à la main et avait une architecture parallèle spécialisée
qui le rendait très rapide. En outre, contrairement au programme de Samuel,
Deep Blue n’utilisait pas de manière centrale l’apprentissage machine.
Comme pour la présentation à la télévision du joueur de dames de
Samuel, la défaite de Kasparov face à Deep Blue entraîna une hausse
significative de l’acion IBM*16. Elle suscita également une extrême
consternation médiatique au sujet de l’intelligence surhumaine et fit douter
que les humains gardent intacte leur motivation de jouer aux échecs.
Depuis, cependant, l’humanité s’est adaptée. Comme Claude Shannon
l’écrivit avec prescience en 1950, une machine capable de surpasser
les humains aux échecs « nous obligera soit à admettre la possibilité d’une
pensée mécanisée, soit à restreindre davantage notre concept de pensée. »*17
C’est cette seconde option qui l’a emporté. Jouer aux échecs de manière
surhumaine est aujourd’hui perçu comme une chose qui n’exige pas une
intelligence générale. Deep Blue n’est pas intelligent dans le sens où nous
l’entendons aujourd’hui. Il ne sait rien faire d’autre que jouer aux échecs, et
il n’a pas la moindre idée de ce que « jouer à un jeu » ou « gagner » signifie
pour les humains. (J’ai un jour entendu un conférencier dire ; « Deep Blue a
peut-être battu Kasparov, mais il n’en a retiré aucun plaisir. ») En outre, les
échecs ont survécu – et même prospéré – en tant qu’activité humaine
exigeante. De nos jours, les programmes joueurs d’échecs sont utilisés par
des joueurs humains comme matériels d’entraînement, à l’instar des joueurs
de base-ball qui s’entraînent à l’aide de lanceurs de balles mécaniques. Est-
ce là le résultat de l’évolution de notre notion d’intelligence, que les progrès
réalisés en IA nous aident à clarifier ? Ou est-ce un autre exemple de
l’aphorisme de John McCarthy : « Dès qu’elle marche, plus personne ne
l’appelle IA » ?*18

Le grand défi du go
Le jeu de go existe depuis plus de deux mille ans et est considéré comme
l’un des plus difficiles jeux de tablier. Si vous ne jouez pas au go, ne vous
inquiétez pas ; ma discussion n’exigera aucune connaissance préalable du
jeu. Il est toutefois utile de savoir que ce jeu jouit d’un éminent statut, en
particulier en Asie orientale, où il est extrêmement populaire. « Le go est un
passe-temps apprécié des empereurs et des généraux, des intellectuels et des
enfants prodiges, » dit le journaliste et érudit Alan Levinovitz, qui ajoute
cette phrase du champion sud-coréen de go Lee Sedol : « Il y a le jeu
d’échecs dans le monde occidental, mais le go est incomparablement plus
subtil et intellectuel. »*19
Le go est un jeu aux règles relativement simples mais génère ce que vous
pourriez appeler une complexité émergente. À chaque coup, un joueur place
une « pierre » de sa couleur (blanche ou noire) sur un tablier quadrillé de
dix-neuf fois dix-neuf cases, selon des règles de placement pour ses pierres
et de capture pour celles de l’adversaire. Contrairement aux échecs et à sa
hiérarchie de pion, fou, reine, etc., les pièces du go (les « pierres ») sont
toutes identiques. C’est la configuration des pierres sur le tablier qu’un
joueur doit rapidement analyser pour décider du placement de sa pierre
suivante.
Si créer un programme pour bien jouer au go est un objectif de l’IA
depuis la naissance de cette discipline, la complexité du go a toutefois rendu
cette tâche extrêmement difficile. En 1997, l’année où Deep Blue a vaincu
Kasparov, les meilleurs programmes de go pouvaient encore être facilement
battus par des joueurs moyens. Rappelez-vous, Deep Blue pouvait faire un
nombre significatif d’anticipations à partir de n’importe quelle
configuration, puis utiliser sa fonction d’évaluation pour attribuer des
valeurs aux futures configurations, chacune de ces valeurs prédisant si un
coup particulier conduirait à la victoire. Les programmes de go ne peuvent
utiliser cette stratégie, et cela pour deux raisons. Premièrement, au go,
l’arbre d’anticipation est considérablement plus grand que celui des échecs.
Si, pour une configuration donnée, un joueur d’échecs doit choisir parmi
une moyenne de 35 coups possibles, un joueur de go fait face en moyenne à
250 possibilités. Même avec un matériel dédié, une exploration brute de
style Deep Blue de l’arbre du jeu de go n’est tout simplement pas faisable.
Deuxièmement, personne n’a encore réussi à créer une bonne fonction
d’évaluation pour les configurations du jeu de go, c’est-à-dire une formule
capable, en examinant une configuration donnée, de prédire le vainqueur de
la partie. Les meilleurs joueurs de go (humains) s’appuient sur leur talent en
reconnaissance de formes et sur leur ineffable « intuition ».
Les chercheurs en IA n’ont pas encore trouvé comment encoder
l’intuition dans une fonction d’évaluation. C’est pour cette raison
qu’en 1997, l’année où Deep Blue a battu Kasparov, le journaliste
George Johnson a écrit dans The New York Times, « Lorsque ou si un
ordinateur bat un jour un champion de go humain, ce sera le signe que
l’intelligence artificielle commence véritablement à égaler l’intelligence
réelle. »*20 On connaît la chanson : c’est exactement ce que l’on disait à
propos des échecs ! Johnson cita cette prédiction d’un passionné de go : « Il
s’écoulera peut-être une centaine d’années – voire davantage – avant qu’un
ordinateur ne batte des humains au jeu de go. » À peine vingt ans plus tard,
AlphaGo, qui avait appris le go via un Q-apprentissage profond, battit Lee
Sedol lors d’une rencontre en cinq parties.

AlphaGo contre Lee Sedol


Avant d’expliquer le fonctionnement d’AlphaGo, permettez-moi de
commémorer sa spectaculaire victoire contre Lee Sedol, l’un des plus
grands joueurs de go du monde. Même après avoir vu six mois plus tôt
AlphaGo vaincre Fan Hui, le champion d’Europe de go de l’époque, Lee
Sedol resta confiant : « Je pense que le niveau [d’AlphaGo] n’égale pas le
mien. […] Bien sûr, il a dû y avoir de nombreuses mises à jour lors des
quatre ou cinq derniers mois, mais ce n’est pas suffisamment long pour que
je me sente menacé. »*21
Peut-être êtes-vous l’une des plus de deux cents millions de personnes
qui assistèrent en ligne à une partie du match AlphaGo-Lee Sedol en
mars 2016. Je suis certaine que ce fut, et de loin, la plus grande audience
jamais réunie pour un match de go au cours des deux mille cinq cents ans
d’histoire de ce jeu. Après la première partie, vous avez peut-être partagé la
réaction de Lee lors de sa défaite face au programme : « Je suis sous le
choc, je l’avoue. […] Je ne pensais pas qu’AlphaGo jouerait avec une telle
perfection. »*22
La « perfection » du jeu d’AlphaGo incluait de nombreux coups qui
suscitèrent la surprise et l’admiration parmi les commentateurs humains du
match. Mais durant la deuxième partie, AlphaGo fit un coup qui abasourdit
même les plus fins des experts du go. Ainsi que le rapporta Wired,

Au début, Fan Hui [le champion d’Europe de go mentionné plus haut]


trouva ce coup plutôt bizarre. Ce n’est qu’après coup qu’il en perçut la
beauté. « Ce n’est pas un coup humain. Je n’ai jamais vu un humain le
jouer, dit-il. C’est tellement beau. » Il ne cesse de répéter ce mot. Beau.
Beau. Beau. […] « C’est un coup très surprenant, » dit l’un des
commentateurs anglais du match, lui-même très talentueux joueur de go.
« Je pensais que c’était une erreur, » dit l’autre avec un petit rire. Mais
personne peut-être ne fut plus surpris que Lee Sedol, qui se leva et quitta la
salle dans laquelle se déroulait le match. « Il a été obligé d’aller se passer de
l’eau sur le visage, juste pour récupérer, » dit le premier commentateur*23.

À propos de ce coup tellement surprenant, The Economist nota :


« Curieusement, les coups de ce genre sont parfois effectués par des maîtres
du go humains. En japonais, ils portent le nom de kami no itte (“la main de
Dieu” ou “les coups divins”). »*24
AlphaGo remporta cette partie, puis la suivante. Mais à la quatrième
partie, Lee eut son propre moment de kami no itte, moment où s’unissent la
complexité du jeu et la puissance intuitive des grands joueurs. Le coup de
Lee prit les commentateurs par surprise, mais ils le reconnurent
immédiatement comme potentiellement mortel pour son adversaire. Un
écrivain remarqua : « AlphaGo, cependant, ne sembla pas percevoir ce qui
se passait. Ce n’était pas une configuration qu’il avait rencontrée […] dans
les millions et millions de parties qu’il avait jouées contre lui-même. Lors
de la conférence de presse qui suivit le match, on demanda à Sedol ce qu’il
avait pensé en jouant ce coup. C’était, dit-il, le seul coup qu’il avait été
capable de voir. »*25
AlphaGo perdit la quatrième partie, mais gagna la cinquième et avec elle
le match. La presse populaire revenait sans cesse sur Deep Blue contre
Kasparov, et se répandait en articles de fond sur ce que le triomphe
d’AlphaGo signifiait pour l’avenir de l’humanité. Mais cette victoire était
encore plus révélatrice que celle de Deep Blue : l’IA avait surmonté un défi
encore plus grand que celui des échecs et l’avait fait d’une manière bien
plus impressionnante. Contrairement à Deep Blue, AlphaGo avait acquis
ses aptitudes via l’apprentissage par renforcement lors de parties jouées
contre lui-même.
Demis Hassabis nota que « ce qui distingue les grands joueurs de go [est]
leur intuition » et que « ce que nous avons fait avec AlphaGo, c’est
introduire, via les réseaux neuronaux, cet aspect de l’intuition, si vous
voulez l’appeler comme ça. »*26

Comment fonctionne AlphaGo


Il y a eu plusieurs versions d’AlphaGo. Au début, pour ne pas s’y perdre,
DeepMind les nomma d’après les champions de go humains que ses
programmes avaient vaincus – AlphaGo Fan et AlphaGo Lee –, ce qui
m’évoquait l’image de crânes d’ennemis vaincus dans la collection d’un
Viking numérique – ce qui n’était pas, j’en suis sûre, l’intention de
DeepMind. Quoi qu’il en soit, AlphaGo Fan et AlphaGo Lee utilisaient un
mélange complexe de Q-apprentissage profond, de « recherche arborescente
Monte-Carlo », d’apprentissage supervisé et d’une connaissance
particulière du go. Mais une année après le match contre Lee Sedol,
DeepMind développa une version du programme qui, comparée aux
versions précédentes, était à la fois plus simple et supérieure. Cette version
plus récente s’appelle AlphaGo Zero parce que, contrairement à ses
prédécesseures, elle part d’une connaissance « zéro » du go – à l’exception
de ses règles*27. AlphaGo Zero a joué une centaine de fois contre AlphaGo
Lee et n’a pas perdu une seule partie. En outre, DeepMind a appliqué les
mêmes méthodes (certes avec différents réseaux et différentes règles de jeu
intégrées) pour apprendre à jouer aux échecs et au shogi (également appelé
« échecs japonais »)*28. Ses auteurs ont donné à l’ensemble de ces méthodes
le nom d’AlphaZero. Cette section va décrire le fonctionnement d’AlphaGo
Zero, mais par souci de concision, je désignerai simplement cette version du
nom d’AlphaGo.
Figure 31. Illustration de la recherche arborescente Monte-Carlo.

Le mot intuition est entouré d’une aura de mystère, mais l’intuition


d’AlphaGo (si vous voulez l’appeler comme ça) lui vient de son association
de Q-apprentissage profond avec une méthode astucieuse appelée
« recherche arborescente Monte-Carlo ». Prenons un moment pour
déchiffrer ce nom encombrant. Tout d’abord « Monte-Carlo ». Il s’agit bien
sûr de la partie la plus prestigieuse de la minuscule principauté de Monaco,
sur la Riviera, célèbre pour ses casinos pour jet-setteurs, ses courses de
voitures et ses fréquentes apparitions dans les films de James Bond. Mais en
sciences et en mathématiques, « Monte-Carlo » désigne une famille
d’algorithmes numériques, la méthode dite Monte-Carlo, qui fut pour la
première fois utilisée durant le projet Manhattan pour aider à concevoir la
bombe atomique. Le nom vient de l’idée qu’un ordinateur peut utiliser un
certain degré d’aléatoire – comme celui de l’iconique roulette au casino de
Monte-Carlo – pour résoudre des problèmes mathématiques difficiles.
La recherche arborescente Monte-Carlo est une version de la méthode
Monte-Carlo spécialement conçue pour les logiciels de jeux. Dotée d’un
fonctionnement semblable à celui de la fonction d’évaluation de Deep Blue,
la recherche arborescente Monte-Carlo sert à attribuer un score à chaque
coup possible pour une configuration donnée. Toutefois, je l’ai dit plus haut,
l’usage à grande échelle de l’anticipation dans l’arbre de jeu du go n’est pas
faisable, et personne n’a encore réussi à construire une bonne fonction
d’évaluation pour les configurations du jeu de go. La recherche
arborescente Monte-Carlo fonctionne différemment.
La figure 31 illustre ce fonctionnement. Regardez d’abord la figure 31A.
Le cercle noir représente la configuration courante – c’est-à-dire la
répartition des pierres sur le tablier à cet instant. Supposez que votre
programme joueur de go ait les noirs et que ce soit aux noirs de jouer.
Supposons pour simplifier qu’ils aient trois coups possibles, représentés par
les trois flèches. Quel coup doivent-ils choisir ?
Si les noirs avaient suffisamment de temps, ils pourraient faire une
« exploration complète » de l’arbre de jeu, c’est-à-dire anticiper toutes les
séquences de coups susceptibles d’être jouées et choisir un coup ayant
toutes les chances de faire gagner les noirs. Or, effectuer cette anticipation
exhaustive n’est pas possible ; comme je l’ai dit plus haut, le temps qui s’est
écoulé depuis la création de l’univers ne suffirait pas, loin de là, pour faire
une exploration complète de l’arbre de jeu du go. Avec la recherche
arborescente Monte-Carlo, les noirs n’examinent qu’une infime fraction des
séquences de coups susceptibles d’apparaître à l’issue de chaque coup,
dénombrent les victoires et les défaites auxquelles conduisent ces séquences
hypothétiques et utilisent ce décompte pour attribuer une note à chacune de
ces possibilités de coups. L’aléatoire inspiré de la roue de la roulette décide
de la procédure d’anticipation.
Plus précisément, afin de choisir un coup à partir de la position courante,
les noirs « imaginent » (c’est-à-dire simulent) plusieurs façons dont le jeu
peut se dérouler, comme l’illustrent les figures 31B-D. Dans chacune de ces
simulations, les noirs partent de la position courante, choisissent au hasard
l’un des coups alors possibles, puis (à partir de la configuration résultante)
choisissent au hasard un coup pour l’adversaire (les blancs) et continuent,
ainsi de suite, jusqu’à ce que la simulation du jeu aboutisse à leur victoire
ou à leur défaite. Cette simulation, qui part d’une configuration donnée,
s’appelle un déroulé à partir de cette configuration.
La figure 31 montre que dans les trois déroulés, les noirs gagnent une
fois et perdent deux fois. Ils peuvent maintenant attribuer une note à chaque
coup possible à partir de leur configuration courante (figure 31E). Le coup
1 (flèche la plus à gauche) participe à deux déroulés, dont l’un se termine
par une victoire, de sorte que la note de ce coup est de 1 sur 2. Le coup 3
(flèche la plus à droite) participe à un déroulé qui se termine par une
défaite, de sorte que sa note est de 0 sur 1. Le coup central n’étant pas testé,
sa note est fixée à 0. En outre, le programme conserve des statistiques
similaires pour tous les coups intermédiaires qui participent aux déroulés.
Une fois achevé ce cycle de recherche arborescente Monte-Carlo, le
programme peut utiliser les notes actualisées pour décider lequel de ses
coups possibles semble le plus prometteur – ici, le coup 1. Le programme
peut alors jouer ce coup dans le jeu réel.
Quand j’ai dit plus haut que durant un déroulé, le programme choisit au
hasard ses propres coups et ceux de son adversaire, ce qui se passe en fait
est que ses choix reposent de manière probabiliste sur les notes que ces
coups ont obtenues lors des précédents cycles de recherche arborescente
Monte-Carlo. Lorsque chaque déroulé s’achève, sur une victoire ou une
défaite, l’algorithme actualise les notes de tous les coups de la partie afin
qu’elles reflètent cette victoire ou cette défaite.
Au début, le programme choisit, à partir d’une configuration donnée, les
coups de manière tout à fait aléatoire (comme la roulette dans un casino),
mais à mesure qu’il effectue d’autres déroulés, ce qui génère d’autres
statistiques, il tend de plus en plus à choisir les coups qui, dans les déroulés
précédents, ont conduit à un maximum de victoires.
Ainsi, la recherche arborescente Monte-Carlo n’a pas à deviner, à partir
d’un simple regard sur une configuration donnée, le coup qui conduira le
plus probablement à la victoire ; il utilise ses déroulés pour collecter des
statistiques sur le nombre de fois qu’un coup donné conduit effectivement à
une victoire ou une défaite. Plus il y a de déroulés, meilleures sont les
statistiques. Je l’ai rappelé plus haut, pour bien fonctionner, le programme
doit équilibrer l’exploitation (choisir les coups les mieux notés lors d’un
déroulé) et l’exploration (choisir parfois des coups moins bien notés pour
lesquels le programme n’a pas encore beaucoup de statistiques). À la
figure 31, j’ai montré trois déroulés ; la recherche arborescente Monte-
Carlo effectuée par AlphaGo comprenait pas loin de 2 000 déroulés par
cycle.
Les informaticiens de DeepMind n’ont pas inventé la recherche
arborescente Monte-Carlo. Elle fut pour la première fois proposée dans le
contexte des arbres de jeu en 2006, et améliora considérablement les
capacités des programmes joueurs de go. Ces programmes ne pouvaient
toutefois pas encore battre les meilleurs joueurs humains. L’un des
problèmes était que la collecte, à partir des déroulés, d’une quantité
suffisante de statistiques prenait parfois un temps considérable, en
particulier au go où le nombre de coups possibles est énorme. Le groupe de
DeepMind s’aperçut qu’il pouvait perfectionner son système en ajoutant à
la recherche arborescente Monte-Carlo un réseau neuronal convolutif
profond. Prenant la configuration courante comme entrée, AlphaGo utilise
un réseau neuronal convolutif profond et entraîné pour attribuer une valeur
approximative à tous les coups possible partant de la configuration
courante. La recherche arborescente Monte-Carlo utilise ensuite ces valeurs
pour lancer sa recherche : au lieu de commencer par des coups au hasard, la
recherche arborescente Monte-Carlo voit dans les valeurs fournies par le
ConvNet une indication sur les coups initiaux préférés. Imaginez que vous
soyez AlphaGo fixant une configuration : avant que vous ne commenciez le
processus de Monte-Carlo générateur des déroulés issus de cette
configuration, le ConvNet vous souffle à l’oreille lesquels des coups
initiaux sont probablement les meilleurs.
À l’inverse, les résultats de la recherche arborescente Monte-Carlo
remontent pour entraîner le ConvNet. Imaginez que vous soyez AlphaGo
après une recherche arborescente Monte-Carlo. Les résultats de votre
recherche sont les nouvelles probabilités attribuées à tous vos coups
possibles et déduites du nombre de fois que ces coups ont conduit à des
victoires ou à des défaites durant les déroulés. Ces nouvelles probabilités
sont maintenant utilisées pour corriger les sorties de votre ConvNet, via la
rétropropagation. Vous et votre adversaire choisissez alors des coups, à la
suite de quoi vous avez une nouvelle configuration, et le processus
continue. En principe, le réseau neuronal convolutif apprendra à reconnaître
des configurations de pierres sur le tablier, comme des maîtres du go.
Finalement, le ConvNet jouera le rôle de l’« intuition » du programme,
intuition qu’améliore davantage la recherche arborescente Monte-Carlo.
Comme son ancêtre le programme de dames de Samuel, AlphaGo
apprend en jouant contre lui-même lors d’innombrables parties (environ
cinq millions). Durant son apprentissage, les poids du réseau neuronal
convolutif sont actualisés après chaque coup basé sur la différence entre les
valeurs de sortie du réseau et les valeurs améliorées par l’exécution de la
recherche arborescente Monte-Carlo. Ensuite, quand AlphaGo est prêt à
jouer contre, par exemple, un humain tel que Lee Sedol, le ConvNet
entraîné sert à chaque coup à générer des valeurs pour aider au démarrage
de la recherche arborescente Monte-Carlo.
Avec son projet AlphaGo, DeepMind a démontré que l’un des grands
défis qui se posent de longue date à l’IA pouvait être surmonté par une
ingénieuse combinaison d’apprentissage par renforcement, de réseaux
neuronaux convolutifs et de recherche arborescente Monte-Carlo (le tout
assorti d’un matériel informatique moderne et puissant). AlphaGo occupe
ainsi une place bien méritée dans le panthéon de l’IA. Mais quelle sera la
prochaine étape ? Cette puissante combinaison de méthodes s’étendra-t-elle
au-delà du monde des jeux ? C’est la question que je vais examiner au
prochain chapitre.
10

Au-delà des jeux

Autrefois branche relativement obscure de l’IA, l’apprentissage par


renforcement est devenu, lors de la dernière décennie, l’une des approches
les plus passionnantes (et les plus financées) de cette discipline. Cette
résurgence est largement due, en particulier aux yeux du grand public, aux
projets de DeepMind que j’ai décrits au précédent chapitre. Les résultats de
DeepMind avec les jeux Atari et le jeu de go sont effectivement
remarquables, importants, et méritent d’être salués.
Toutefois, pour la plupart des chercheurs en IA, le développement de
logiciels de jeux surhumains n’est pas une fin en soi. Revenons en arrière et
demandons-nous quelles sont les implications de ces succès pour
l’obtention de progrès plus importants dans le domaine de l’IA. Sur ce sujet
Demis Hassabis estime que :

Les jeux ne sont que notre plate-forme de développement. […] C’est le


moyen le plus rapide de développer ces algorithmes d’IA et de les tester,
mais en définitive, nous voulons qu’ils s’appliquent aux problèmes du
monde réel et aient un impact énorme sur des choses telles que la santé et la
science. De fait, cette IA est générale – elle apprend comment faire les
choses [en s’appuyant sur] sa propre expérience et ses propres données.*1

Examinons un instant cet aspect. Jusqu’à quel point cette IA est-elle


générale ? Jusqu’où est-elle applicable au monde réel, au-delà des jeux ?
Dans quelle mesure ces systèmes apprennent-ils effectivement « seuls » ?
Et qu’apprennent-ils exactement ?

La généralité et l’« apprentissage par transfert »


Alors que je cherchais sur internet des articles sur AlphaGo, je suis tombée
sur ce titre accrocheur : « AlphaGo de DeepMind a maîtrisé les échecs
durant son temps libre. »*2 Cette affirmation est fausse et trompeuse, et il
importe de comprendre pourquoi. AlphaGo (dans toutes ses versions) ne
sait jouer qu’au go. Même sa version la plus générale, AlphaZero, n’est pas
un système qui a appris à jouer au go, aux échecs et au shogi. Chaque jeu a
son propre réseau neuronal convolutif, auquel il faut apprendre ce jeu
individuellement en partant de zéro. Contrairement aux humains, aucun de
ces programmes ne peut « transférer » la moindre chose qu’il a apprise sur
un jeu pour s’aider dans l’apprentissage d’un autre.
La même chose est vraie pour les divers logiciels jouant aux jeux vidéo
d’Atari : chacun apprend les poids de son propre réseau à partir de zéro.
C’est comme si vous appreniez à jouer à Pong, mais qu’ensuite, pour
apprendre à jouer à Breakout, vous deviez tout oublier de ce que vous avez
appris en jouant à Pong et apprendre Breakout en partant de zéro.
Une expression encourageante qui circule au sein de la communauté de
l’apprentissage automatique est « apprentissage par transfert », qui renvoie
à la capacité d’un programme de transférer ce qu’il a appris sur une tâche
pour l’aider à effectuer une tâche apparentée. Chez les humains,
l’apprentissage par transfert est automatique. Après avoir appris à jouer au
ping-pong, j’ai pu transférer une part de ma technique pour m’aider à
apprendre le tennis et le badminton. Le fait de savoir jouer aux dames m’a
aidée à apprendre à jouer aux échecs. Quand j’étais toute petite, il m’a fallu
un certain temps pour apprendre à tourner le bouton de porte de ma
chambre, mais une fois cette technique maîtrisée, mes capacités s’étendirent
rapidement à la plupart des types de boutons de porte.
Les humains effectuent apparemment sans effort ces transferts d’une
tâche à une autre ; notre capacité à généraliser ce que nous apprenons est au
cœur de ce que penser signifie pour nous. Ainsi, dans le langage humain,
nous pourrions dire qu’un synonyme d’apprentissage par transfert est, eh
bien ! apprentissage, tout court.
En net contraste avec ce qui se passe chez les humains, la majeure partie
de l’« apprentissage » dans l’IA actuelle n’est pas transférable entre tâches
apparentées. À cet égard, cette discipline est encore loin de ce que Hassabis
appelle l’« IA générale ». Si l’apprentissage par transfert est l’un des
domaines les plus actifs des recherches sur l’apprentissage machine, ses
progrès restent cependant embryonnaires*3.

« Sans exemples ou conseils humains »


Contrairement à l’apprentissage supervisé, l’apprentissage par renforcement
promet des programmes réellement capables d’apprendre seuls, en
effectuant simplement des actions dans leur « environnement » et en en
observant le résultat. La plus importante affirmation de DeepMind à propos
de ses résultats, en particulier sur AlphaGo, est que le travail a tenu cette
promesse : « Nos résultats montrent indiscutablement qu’un pur
apprentissage par renforcement est tout à fait faisable, même dans les plus
difficiles des domaines : il est possible d’atteindre un niveau de
performance surhumain, sans exemples ou conseils humains, sans aucune
connaissance du domaine à l’exception des règles de base. »*4
Voilà pour l’affirmation. Voyons maintenant les réserves. Si AlphaGo (ou
plus exactement sa version AlphaGo Zero) n’utilisa effectivement pas
d’exemples humains lors de son apprentissage, il n’en fut pas de même pour
les « conseils » humains. Parmi ceux qui furent déterminants pour son
succès, on peut citer l’architecture spécifique de son réseau neuronal
convolutif, l’utilisation de la recherche arborescente Monte-Carlo, et le
réglage des nombreux hyperparamètres nécessaires au bon fonctionnement
de son réseau neuronal et de sa technique de recherche. Ainsi que l’a
souligné le psychologue et chercheur en IA Gary Marcus, aucun de ces
conseils déterminants pour AlphaGo ne fut « appris à partir des données,
par un pur apprentissage par renforcement. [Ils furent] au contraire
implantés dès l’origine […] par les programmeurs de DeepMind. »*5
Les logiciels de DeepMind joueurs des jeux vidéo Atari étaient en fait de
meilleurs exemples d’« apprentissage sans conseils humains » qu’AlphaGo,
car contrairement à ce dernier, ils ignoraient les règles des jeux auxquels ils
jouaient (par exemple, que dans Breakout, le but était de détruire les
briques) et l’utilité des « objets » apparaissant dans ces jeux (par exemple,
la raquette ou la balle). Ces programmes apprenaient exclusivement à partir
des pixels de l’écran.

Les plus difficiles des domaines


Une autre caractéristique de DeepMind mérite d’être examinée : « même
dans les plus difficiles des domaines ». Comment peut-on estimer la
difficulté d’un domaine pour l’IA ? Nous l’avons vu, nombre de choses que
nous humains trouvons tout à fait faciles (par exemple, décrire une photo)
sont extrêmement difficiles pour les ordinateurs. À l’inverse, bon nombre
de choses que nous humains trouvons terriblement difficiles (multiplier
deux nombres de cinquante chiffres) sont réalisables en une fraction de
seconde par un ordinateur exécutant un programme d’une seule ligne.
Une façon d’évaluer la difficulté d’un domaine pour les ordinateurs
consiste à observer la qualité des performances d’algorithmes très simples
sur ce domaine. En 2018, un groupe de chercheurs d’Uber AI Labs a
constaté que des algorithmes relativement simples donnaient, sur plusieurs
jeux vidéo Atari, des résultats presque identiques (et parfois supérieurs) à
ceux de la méthode de Q-apprentissage profond de DeepMind. L’algorithme
qui a particulièrement surpris par sa bonne performance fut la « recherche
aléatoire » : au lieu d’entraîner un Q-réseau profond via de nombreux
épisodes d’apprentissage renforcé, on peut simplement essayer de
nombreux réseaux neuronaux convolutifs dotés de poids choisis au
hasard*6. Autrement dit, il n’y a alors aucun apprentissage que celui obtenu
par essais et erreurs aléatoires.
On pourrait penser qu’un réseau aux poids aléatoires se comporterait
lamentablement face à un jeu vidéo Atari. Et effectivement, la plupart de
ces réseaux sont des joueurs déplorables. Mais les chercheurs d’Uber ont
continué de tester de nouveaux réseaux aux poids aléatoires, et finalement
(en moins de temps qu’il n’en faut pour entraîner un Q-réseau profond), ont
découvert des réseaux qui, cinq parties sur treize, se comportaient presque
aussi bien, voire mieux, que des réseaux entraînés par Q-apprentissage
profond. Un autre algorithme relativement simple, appelé algorithme
génétique*7, a battu le Q-apprentissage profond lors de sept parties sur
treize. Que dire d’autre à propos de ces résultats, sinon que le domaine des
jeux Atari n’est pas aussi difficile pour l’IA qu’on ne le pensait
initialement ?
À ma connaissance, personne n’a tenté une telle recherche aléatoire pour
les poids des réseaux joueurs de go. Je serais très surprise que ça marche.
Étant donné la longue histoire des tentatives de construction de joueurs de
go numériques, je suis persuadée que le go fait partie des domaines
authentiquement difficiles pour l’IA. Toutefois, comme l’a souligné Gary
Marcus, il existe de nombreux jeux humains qui sont encore plus difficiles
pour l’IA que le go. On en a un exemple frappant, dit Marcus, avec les
charades*8 : si vous y réfléchissez, elles exigent une compréhension
visuelle, linguistique et sociale qui se situe bien au-delà des capacités de
tout système d’IA actuel. Si vous pouviez construire un robot capable de
jouer aux charades aussi bien qu’un enfant de six ans, par exemple, je pense
que vous pourriez alors dire, sans risque de vous tromper, que vous
maîtrisez plusieurs des « plus difficiles des domaines » pour l’IA.

Qu’ont appris ces systèmes ?


Comme avec d’autres applications de l’apprentissage profond, il est difficile
de savoir ce que les réseaux neuronaux à l’œuvre dans ces joueurs
numériques ont réellement appris. En lisant les sections précédentes, vous
avez peut-être remarqué dans mes descriptions la présence d’un subtil
anthropomorphisme rampant : par exemple, j’ai parlé du « joueur simulé
DeepMind qui a découvert la stratégie du tunnel dans Breakout. »
Il est extrêmement facile, pour moi comme pour tout le monde, de verser
dans ce style de langage lorsqu’on parle du comportement des systèmes
d’IA. Toutefois, notre langue véhicule souvent des hypothèses inconscientes
qui ne sont pas toujours valides pour ces programmes. Le joueur simulé
DeepMind de Breakout a-t-il réellement découvert le concept de percement
d’un tunnel ? Sur ce point, Gary Marcus nous appelle à la prudence :

Le système n’a rien appris de tel ; il ne comprend pas vraiment ce qu’est un


tunnel ou ce qu’est un mur ; il a simplement appris les éventualités
spécifiques de certains scénarios. Les tests de transfert – qui confrontent le
système d’apprentissage par renforcement profond à des scénarios qui
diffèrent de manière négligeable de ceux de son entraînement – montrent
que les solutions de l’apprentissage par renforcement profond sont souvent
extrêmement superficielles*9.

Marcus fait ici référence à quelques études qui ont tenté d’évaluer la
qualité des transferts de savoir opérés par les systèmes de Q-apprentissage
profond, même à d’infimes variantes du même jeu. Par exemple, un groupe
de chercheurs a étudié un système similaire au joueur simulé DeepMind de
Breakout. Ils ont constaté qu’une fois le joueur entraîné au niveau
« surhumain », une surélévation de la raquette de quelques pixels entraîne
un effondrement des performances du système*10. Cela suggère que le
système n’a même pas appris le concept fondamental de raquette. Un autre
groupe a montré que pour un système de Q-apprentissage profond entraîné
sur le jeu Pong, une modification de la couleur du fond d’écran entraîne une
diminution significative des performances du système*11. En outre, dans
chaque cas, le système a besoin d’un grand nombre d’épisodes de
réapprentissage pour s’adapter à la variation.
Ce ne sont là que deux exemples de l’incapacité du Q-apprentissage
profond à généraliser et qui contraste de manière frappante avec
l’intelligence humaine. Je ne connais pas d’étude qui ait examiné le concept
de percement de tunnel dans le joueur simulé de Breakout de DeepMind,
mais je dirais que ce système ne pourrait être étendu à, par exemple, un
percement de tunnel descendant ou latéral, sans un réapprentissage
considérable. Comme le remarque Marcus, si nous autres humains
attribuons au programme une certaine compréhension de ce que nous
considérons être des concepts basiques (par exemple, mur, plafond,
raquette, balle, percement de tunnel), le programme ne contient en fait
aucun concept de ce type :

Ces démonstrations indiquent clairement qu’il est trompeur de penser que


l’apprentissage par renforcement profond induit des concepts tels que mur
ou raquette ; ces remarques font plutôt partie de ce que la psychologie
(animale) comparative appelle parfois des surattributions. Ce n’est pas que
le système Atari ait réellement appris un concept de mur qui était robuste,
mais plutôt que dans un ensemble limité de circonstances sur lesquelles son
apprentissage avait particulièrement insisté, il se rapprochait
superficiellement du percement des murs.*12

De même, alors qu’il a fait preuve d’une « intuition » miraculeuse en


jouant au go, AlphaGo ne semble pas, pour autant que je sache, posséder
des mécanismes lui permettant d’étendre ses talents de joueur de go ne
serait-ce que, par exemple, à un tablier de go plus petit ou de forme
différente sans devoir soumettre son Q-réseau profond à une restructuration
et un réapprentissage.
En somme, si ces systèmes de Q-apprentissage profond ont réalisé des
performances surhumaines dans certains domaines limités, et y font même
montre de ce qui ressemble à une « intuition », il leur manque néanmoins
une chose absolument fondamentale pour l’intelligence humaine. Qu’on
l’appelle abstraction, généralisation du domaine ou apprentissage par
transfert, doter les systèmes de cette aptitude est encore l’un des plus
importants problèmes de l’IA qui restent à résoudre.
Il y a une autre raison de penser que ces systèmes n’apprennent pas les
concepts humains ou ne comprennent pas leurs domaines comme le font les
humains : comme les systèmes d’apprentissage supervisé, ces systèmes de
Q-apprentissage profond sont vulnérables aux exemples adverses du type
décrit au chapitre 6. Par exemple, un groupe de recherche a montré que l’on
peut apporter d’infimes modifications aux pixels de l’entrée d’un
programme de jeu Atari – et que ces modifications, bien qu’imperceptibles
pour les humains, nuisent considérablement aux capacités de jeu du
programme.

Quel est le niveau d’intelligence d’AlphaGo ?


Voici une chose qu’il faut garder à l’esprit lorsqu’on pense à des jeux tels
que les échecs et le go et à leur lien avec l’intelligence humaine. Considérez
les raisons pour lesquelles de nombreux parents encouragent leurs enfants à
s’inscrire au club d’échecs de leur école (ou de go dans certains endroits) et
préféreraient de beaucoup voir leurs enfants jouer aux échecs (ou au go)
plutôt que de les voir assis à la maison devant la télé ou jouer à des jeux
vidéo (désolé, Atari). C’est parce que les gens croient que les jeux comme
les échecs ou le go apprennent aux enfants (ou à toute personne) à mieux
penser : comment penser logiquement, raisonner abstraitement et planifier
stratégiquement. Ce sont des aptitudes que l’on conserve sa vie durant, des
aptitudes générales que chaque personne est susceptible d’utiliser dans
toutes ses activités.
Mais malgré les millions de parties auxquelles il a joué durant son
apprentissage, AlphaGo n’a pas appris à mieux « penser » sur autre chose
que le jeu de go. En fait, il n’a aucune capacité de penser sur quoi que ce
soit, de raisonner sur quoi que ce soit, de faire des plans sur quoi que ce
soit, à l’exception du go. Pour autant que je sache, aucune des aptitudes
qu’il a apprises n’est en quoi que ce soit générale ; aucune ne peut être
transférée à une autre tâche, quelle qu’elle soit. AlphaGo est le savant idiot
par excellence.
Il est clair que la méthode de Q-apprentissage profond utilisée dans
AlphaGo peut servir à apprendre d’autres tâches, mais pour ce faire il
faudrait soumettre entièrement le système à un nouvel apprentissage ;
l’apprentissage de toute nouvelle compétence devrait se faire à partir de
zéro.
Cela nous ramène à ce paradoxe : en IA, « les choses faciles sont
difficiles ». AlphaGo fut un grand accomplissement de l’IA ; faisant en
grande partie son apprentissage en jouant contre lui-même, il réussit à battre
sans conteste l’un des meilleurs joueurs humains du monde à un jeu qui est
considéré comme un modèle de prouesse intellectuelle. Mais AlphaGo ne
possède pas d’intelligence de niveau humain telle que nous la définissons
généralement, voire, sans doute, d’intelligence tout court. Pour nous
humains, une dimension cruciale de notre intelligence est d’être capables
non pas d’apprendre une compétence particulière, mais d’apprendre à
penser puis d’appliquer cette pensée de manière flexible aux situations ou
défis, quels qu’ils soient, que nous rencontrons. C’est là la véritable
compétence que nous voulons voir apprise par nos enfants lorsqu’ils jouent
aux échecs ou au go. Cela peut paraître étrange à dire, mais vu sous cet
angle, le plus modeste joueur d’échecs dans une école maternelle est plus
intelligent qu’AlphaGo.

Des jeux au monde réel


Pour terminer, considérons l’affirmation de Demis Hassabis selon laquelle
le but de ces démonstrations sur les jeux est qu’elles « s’appliquent aux
problèmes du monde réel et aient un impact énorme sur des choses telles
que la santé et la science. » Je crois très possible que les travaux de
DeepMind sur l’apprentissage par renforcement finissent par avoir le type
d’impact ambitionné par Hassabis. Mais le chemin sera long entre les jeux
et le monde réel.
La nécessité de l’apprentissage par transfert est un obstacle. Mais il y a
d’autres raisons pour lesquelles il sera difficile d’étendre au monde réel le
succès rencontré par cet apprentissage dans le monde des jeux. Des jeux tels
que Breakout et le go sont idéalement adaptés à l’apprentissage par
renforcement parce qu’ils ont des règles claires et des fonctions de
récompense simples (par exemple, des récompenses pour les points gagnés
ou pour la victoire) et relativement peu d’actions (de coups) possibles. En
outre, les joueurs ont accès à une « information parfaite » : toutes les
composantes du jeu sont à chaque instant visibles par les joueurs ; rien dans
l’« état » du joueur n’est caché ou incertain.
Le monde réel n’est pas si clairement défini. Douglas Hofstadter a
souligné que la notion même d’« état » clairement défini n’est absolument
pas réaliste. « Si vous regardez les situations dans le monde, elles ne sont
pas du tout encadrées, comme une partie d’échecs ou une partie de go. […]
Dans le monde réel, une situation est une chose qui est entièrement
dépourvue de frontières ; vous ne savez pas ce qui est dans la situation, ce
qui est hors de la situation. »*13
En guise d’exemple, considérez le recours à l’apprentissage par
renforcement pour apprendre à un robot une tâche très utile dans le monde
réel : prendre la vaisselle sale empilée dans l’évier et la mettre dans le lave-
vaisselle. (Oh, quelle harmonie un tel robot apporterait dans ma famille !)
Comment définir l’« état » de ce robot ? Comporterait-il tout ce qui se
trouve dans son champ visuel ? Le contenu de l’évier ? Le contenu du lave-
vaisselle ? Qu’en est-il du chien, qui vient lécher la vaisselle et qu’il faut
chasser ? Quelle que soit la façon dont nous définissons son état, le robot
doit être capable d’identifier différents objets – et par exemple, reconnaître
une assiette (qui va dans le panier du bas), une grande tasse à café (qui va
dans le panier du haut), ou une éponge (qui doit rester hors du lave-
vaisselle). Nous l’avons vu, la reconnaissance d’objets par les ordinateurs
est encore loin d’être parfaite. En outre, le robot devra raisonner sur des
objets qu’il ne peut voir – peut-être des poêles et des casseroles cachées au
fond de l’évier. Le robot doit aussi savoir prendre divers objets et les placer
(délicatement !) dans des endroits prévus à cet effet. Tout cela exigera
d’apprendre à choisir parmi une multitude d’actions possibles impliquant le
placement du corps du robot, ses « doigts » préhensiles, ses moteurs qui
contrôlent le mouvement des objets de l’évier jusqu’à leur bon
positionnement dans le lave-vaisselle, etc.*14
Les agents joueurs de DeepMind avaient besoin de millions d’itérations
pour leur entraînement. Si nous ne voulons pas voir des millions d’assiettes
cassées, nous devrons entraîner notre robot par simulation. La simulation
des jeux sur ordinateur est un processus très rapide et très précis ; il n’y a
pas de mouvement réel des pièces, pas de balles réelles qui rebondissent sur
des raquettes, pas de briques réelles qui explosent. En revanche, la
simulation d’un robot chargeur de lave-vaisselle n’est pas aussi facile. Plus
la simulation est réaliste, plus elle est lente à faire tourner sur un ordinateur,
et même sur un ordinateur très rapide, il est extrêmement difficile d’intégrer
avec précision toutes les forces physiques et tous les autres aspects du
chargement de la vaisselle. Et puis il y a ce chien embêtant, et tous les
autres aspects imprévisibles du monde réel ; comment trouver ce qu’il faut
mettre dans la simulation et ce que l’on peut tranquillement ignorer ?
Face à tous ces problèmes, Andrej Karpathy, directeur de l’IA chez Tesla,
a remarqué que pour les tâches réelles, « presque toutes les suppositions
associées au jeu de go et dont AlphaGo tire avantage sont violées, et, par
conséquent, toute approche réussie pour les problèmes réels ne
ressemblerait en rien celle adoptée par AlphaGo. »*15
Personne ne sait ce que serait cette approche réussie. En fait,
l’apprentissage par renforcement profond est un domaine encore très jeune.
Les résultats que j’ai décrits dans ce chapitre peuvent être considérés
comme une preuve de concept : la combinaison de réseaux profonds et du
Q-apprentissage fonctionne étonnamment bien dans certains domaines
extrêmement intéressants quoique restreints, et bien que ma discussion ait
mis en lumière quelques-unes des actuelles limitations de cette
combinaison, bon nombre de chercheurs s’efforcent aujourd’hui d’étendre
l’apprentissage par renforcement pour lui donner une applicabilité plus
générale. En particulier, les logiciels de jeux de DeepMind ont déclenché un
nouvel intérêt et un nouvel enthousiasme pour cette méthode ; de fait,
l’apprentissage par renforcement profond a été désigné comme l’une des
« 10 technologies de pointe » de l’année 2017 par The Technology Review,
le magazine du MIT. Les années à venir verront l’apprentissage par
renforcement gagner en maturité et j’attendrai avec impatience l’apparition
d’un robot autodidacte, qui chargera le lave-vaisselle et peut-être jouera au
football et au go durant son temps libre.
Quatrième partie

L’intelligence artificielle
rencontre le langage naturel
11

Les mots et ceux auxquels ils tiennent


compagnie

Le temps est venu d’une petite histoire.


Le restaurant :

Un homme entre dans un restaurant et commande un hamburger saignant.


On le lui sert totalement carbonisé. La serveuse s’arrête à sa table.
« Comment est le burger ? » lui demande-t-elle. « Ah, il est parfait ! » dit
l’homme en repoussant sa chaise et sortant en trombe sans payer. « Eh
Monsieur, et la note ? » lui crie-t-elle. Elle hausse les épaules tout en
marmonnant : « Qu’est-ce qu’il a à être en pétard comme ça ? »*1

Maintenant, permettez-moi de vous poser une question : l’homme a-t-il


mangé le hamburger ?
Je suppose que vous êtes relativement sûr de votre réponse, même si
l’histoire n’aborde pas directement cette question. Il est facile, du moins
pour nous en tant qu’humains, de lire entre les lignes. Après tout,
comprendre le langage – y compris les parties non dites – est une
composante fondamentale de l’intelligence humaine. Ce n’est pas un hasard
si Alan Turing a conçu son célèbre « jeu de l’imitation » comme un
concours impliquant la génération et la compréhension du langage.
Cette partie du livre examine le traitement automatique du langage
naturel, ce qui signifie « amener les ordinateurs à gérer le langage
humain ». (Dans le jargon de l’IA, « naturel » signifie « humain ».)
Le traitement automatique du langage naturel (TALN, en anglais NLP,
« Natural Language Processing ») inclut des sujets tels que la
reconnaissance de la parole, la recherche sur le Web, la réponse
automatique aux questions et la traduction automatique. À l’instar de ce que
nous avons vu dans les précédents chapitres, l’apprentissage profond a été
la force motrice de la plupart des récents progrès en TALN. Je vais décrire
quelques-uns de ces progrès en utilisant mon mini-récit sur le restaurant
pour illustrer certains des principaux défis auxquels sont confrontées les
machines lorsqu’il s’agit d’utiliser et comprendre le langage humain.

La subtilité du langage
Supposez que nous voulions créer un programme capable de lire un texte et
de répondre à des questions à son sujet. Les systèmes questions-réponses
sont au cœur des recherches actuelles sur le TALN, car les gens veulent
utiliser le langage naturel pour interagir avec les ordinateurs (pensez à Siri,
Alexa, Google Now et autres « assistants virtuels »). Toutefois, pour
pouvoir répondre aux questions sur un texte comme « Le restaurant », un
programme devrait disposer de compétences linguistiques sophistiquées
ainsi que d’une profonde connaissance du fonctionnement du monde.
L’homme a-t-il mangé le hamburger ? Pour répondre en confiance à cette
question, un éventuel programme devrait savoir que les hamburgers
appartiennent à la catégorie « aliment » et que les aliments peuvent être
mangés. Il devrait savoir qu’aller dans un restaurant et commander un
hamburger signifie ordinairement que l’on a prévu de manger ce hamburger.
En outre, dans un restaurant, une fois votre commande arrivée, elle est prête
à être mangée. Le programme devrait savoir que lorsqu’une personne
commande un hamburger « saignant », elle refuse généralement de le
manger s’il est « carbonisé ». Le programme devrait admettre que lorsque
l’homme dit « Ah, il est parfait ! », c’est de l’ironie et que le « il » renvoie
au « burger », qui est un autre mot pour « hamburger ». Le programme
devrait présumer que si vous « partez en trombe » du restaurant sans payer,
vous n’avez probablement pas mangé votre commande.
La somme de connaissances de base que le programme devrait posséder
afin de répondre en confiance à des questions élémentaires sur cette histoire
est sidérante. L’homme a-t-il laissé un pourboire à la serveuse ? Le
programme devrait connaître les usages concernant cette pratique et savoir
qu’elle a pour objet de récompenser un bon service. Pourquoi la serveuse a-
t-elle dit « Eh Monsieur, et la note ? » ? Le programme doit comprendre que
par « note », la serveuse fait référence non à une note de musique, ou à une
note d’examen, mais à la somme que l’homme doit payer pour son repas.
La serveuse a-t-elle su que l’homme était en colère ? Le programme doit
déterminer que dans la question « Qu’est-ce qu’il a à être en pétard comme
ça ? », « il » renvoie à l’homme et qu’« être en pétard » est une expression
idiomatique signifiant « être contrarié et très en colère ». La serveuse a-t-
elle su pourquoi l’homme a quitté le restaurant ? Pour y répondre, notre
programme devrait savoir que le haussement d’épaules de la serveuse
suggère qu’elle n’a pas compris pourquoi il est sorti en trombe.
Le fait de penser à ce que notre hypothétique programme devrait savoir
me rappelle les fois où j’essayais de répondre aux incessantes questions de
mes enfants durant leur prime enfance. Un jour, j’ai emmené mon fils de
quatre ans à la banque. Il me posa une simple question : « Qu’est-ce qu’une
banque ? » Ma réponse déclencha une cascade apparemment infinie de
« pourquoi ». « Pourquoi les gens utilisent de l’argent ? » « Pourquoi les
gens veulent avoir beaucoup d’argent ? » « Pourquoi les gens ne peuvent
garder tout leur argent à la maison ? » « Pourquoi ne puis-je fabriquer mon
propre argent ? » Autant de bonnes questions, mais auxquelles il est
difficile de répondre sans devoir expliquer toutes sortes de choses qui
dépassent l’expérience d’un enfant de quatre ans.
La situation est bien plus extrême pour les machines. Un enfant à qui on
lit « Le restaurant » a déjà, bien enracinés dans son esprit, des concepts tels
que personne, table et hamburger. Les enfants possèdent un sens commun
élémentaire et savent par exemple que lorsque l’homme sort du restaurant,
il n’est plus à l’intérieur, mais que les tables et les chaises y sont
probablement encore. Ou que lorsque le hamburger a été servi, quelqu’un
l’a apporté à la table de l’homme (il n’y est pas arrivé tout seul). Les
machines actuelles ne disposent pas de ces concepts détaillés, corrélés, et du
bon sens auxquels même un enfant de quatre ans fait appel pour
comprendre le langage.
Il n’est donc pas surprenant que l’utilisation et la compréhension du
langage naturel comptent parmi les défis les plus difficiles de l’IA.
Le langage est intrinsèquement ambigu, dépend intimement du contexte et
suppose une somme énorme de connaissances de base communes aux
parties communicantes. Comme dans d’autres domaines de l’IA, les
premières décennies de recherches sur le TALN se sont focalisées sur des
approches symboliques reposant sur des règles – autrement dit des
programmes dans lesquels étaient intégrées des règles grammaticales et
linguistiques, et qui appliquaient ces règles aux phrases d’entrée. Ces
approches ne fonctionnèrent pas très bien ; il semble impossible de saisir les
subtilités langagières en appliquant un ensemble de règles explicites. Dans
les années 1990, les approches du TALN basées sur des règles furent
éclipsées par des approches statistiques plus performantes, qui employaient
d’énormes ensembles de données pour entraîner des algorithmes
d’apprentissage machine. Plus récemment, cette approche statistique fondée
sur des données s’est focalisée sur l’apprentissage profond. Est-ce que
l’association de l’apprentissage profond et du big data pourrait aboutir à des
machines capables de gérer de manière flexible et fiable le langage
humain ?

La reconnaissance de la parole et les derniers 10 %


La reconnaissance automatique de la parole – la tâche qui consiste à
convertir en temps réel le langage parlé en écriture – fut le premier grand
succès de l’apprentissage profond en TALN, et j’irais jusqu’à dire qu’il est
le succès le plus important de l’IA dans tous les domaines. En 2012, à
l’époque même où l’apprentissage profond révolutionnait la vision par
ordinateur, un article clé sur la reconnaissance de la parole fut publié par
des groupes de recherche de l’université de Toronto, de Microsoft, de
Google et d’IBM*2. Ces groupes développaient des réseaux neuronaux
profonds pour divers aspects de la reconnaissance de la parole :
reconnaissance de phonèmes à partir de signaux acoustiques, prédictions de
mots à partir de combinaisons de phonèmes, prédictions de phrases à partir
de combinaisons de mots, etc. Selon un chercheur de chez Google, expert
en reconnaissance de la parole, l’utilisation de réseaux profonds a abouti à
la « plus grande amélioration en 20 ans des recherches sur la parole. »*3
Cette même année, un nouveau système de reconnaissance de la parole par
réseau profond fut disponible pour les propriétaires de téléphones Android ;
deux années plus tard, il fut disponible sur l’iPhone d’Apple. Un ingénieur
de chez Apple écrivit : « Ce fut une de ces choses qui correspondent à un
saut [en performance] si important que vous refaites le test pour être sûr que
quelqu’un n’a pas mal placé la virgule. »*4
Si vous avez vous-même utilisé une technologie de reconnaissance de la
parole avant et après 2012, vous aurez également noté une très nette
amélioration. D’horriblement frustrante à modérément utile avant 2012,
cette technologie devint soudain très proche de la perfection dans certaines
circonstances. Je peux maintenant dicter tous mes textes et mes emails sur
l’application de reconnaissance de la parole installée dans mon téléphone ;
il y a quelques minutes, j’ai lu d’une voix normale « Le restaurant » à mon
téléphone, et il a correctement transcrit chaque mot.
Ce qui m’impressionne, c’est que les systèmes de reconnaissance de la
parole font tout cela en ignorant absolument le sens de ce qu’ils
transcrivent. Si le système installé sur mon téléphone peut transcrire chaque
mot du « Restaurant », je vous garantis qu’il ne comprend pas un traître mot
de ce texte, comme de tout autre texte. Nombre de chercheurs en IA, moi
comprise, croyaient auparavant que la reconnaissance de la parole
n’atteindrait jamais un tel niveau sans en fait comprendre le langage. Il s’est
avéré que nous avions tort.
Cela dit, la reconnaissance automatique de la parole n’a toujours pas
atteint le « niveau humain », contrairement à ce que rapportent certains
médias. Le bruit de fond diminue parfois significativement la performance
de ces systèmes ; ils sont bien moins efficaces dans une voiture en
mouvement que dans une pièce tranquille. En outre, ces systèmes sont
parfois décontenancés par des mots ou des phrases inhabituels qui montrent
qu’ils ne comprennent pas ce qu’ils transcrivent. Par exemple, j’ai dit
« Mousse is my favorite dessert » (la mousse est mon dessert favori), mais
mon téléphone (Android) a transcrit cela en « Moose is my favorite
dessert » (l’élan est mon dessert favori). J’ai dit « The bareheaded man
needed a hat. » (l’homme chauve avait besoin d’un chapeau), mais mon
téléphone a transcrit cela en « The bear headed man needed a hat. »
(l’homme à tête d’ours avait besoin d’un chapeau). Il n’est pas difficile de
trouver des phrases qui embrouillent le système de reconnaissance de la
parole. Toutefois, pour la dictée ordinaire prononcée dans un
environnement tranquille, je dirais que la précision de ces systèmes –
mesurée par le nombre de mots correctement identifiés – est d’environ 90-
95 % de la précision humaine.*5 Si vous y ajoutez le bruit et d’autres
complications, cette performance diminue considérablement.
Tout projet d’ingénierie complexe est soumis à cette règle empirique bien
connue : les premiers 90 % du projet prennent 10 % du temps, et les
derniers 10 % prennent 90 % du temps. Je pense qu’une certaine version de
cette règle vaut pour de nombreux domaines de l’IA (hello, voitures
autonomes !) et finira par être également vraie en reconnaissance de la
parole. Les 10 derniers % incluent le traitement de la dictée dans un
environnement bruyant, des accents non familiers et des mots inconnus, en
tenant compte aussi du fait que l’ambiguïté du langage et sa sensibilité au
contexte peuvent affecter l’interprétation de la parole. Que faire pour
vaincre l’entêtement de ces 10 derniers % ? Plus de données ? Plus de
couches dans les réseaux ? Ou, oserais-je le dire, une réelle compréhension
de ce que dit le locuteur ? Je penche pour cette dernière solution, mais je me
suis déjà trompée dans le passé.
Les systèmes de reconnaissance de la parole sont passablement
compliqués ; plusieurs types de traitements sont nécessaires pour passer des
ondes sonores aux phrases. Les systèmes de reconnaissance de la parole
dernier cri intègrent plusieurs composantes, et parmi elles de multiples
réseaux neuronaux profonds*6. D’autres tâches en TALN, telle la traduction
linguistique ou la réponse aux questions, semblent à première vue plus
simples : l’entrée et la sortie sont toutes deux constituées de mots.
Toutefois, l’approche de l’apprentissage profond fondée sur des données n’a
pas généré dans ces secteurs de progrès comparables à ceux qu’elle avait
apportés en reconnaissance de la parole. Pourquoi ? Pour répondre à cette
question, examinons quelques applications de l’apprentissage profond à
d’importantes tâches en TALN.

Classifier les sentiments


Comme premier exemple, prenons la discipline appelée « classification des
sentiments ». Considérons ces critiques du film Indiana Jones et le Temple
maudit :*7

« L’intrigue est lourde et le sens de l’humour manque terriblement. »


« Un peu trop sombre à mon goût. »
« On dirait que les producteurs voulaient le rendre aussi inquiétant et
horrible que possible. »
« Le développement du personnage et l’humour du Temple maudit sont très
inférieurs à la moyenne. »
« L’atmosphère est plutôt bizarre et il y a pas mal d’humour qui ne
fonctionne pas, en tout cas pour moi. »
« Sans le moindre charme ou l’esprit des autres épisodes de la série. »

Dans chaque cas, le critique a-t-il aimé le film ?


L’utilisation de machines capables de répondre à une telle question est un
gros marché. Un système d’IA qui pourrait classifier avec précision une
phrase (ou un passage plus long) en fonction du sentiment – positif, négatif
ou autre – qu’elle exprime serait de l’or en barre pour les entreprises qui
veulent analyser les jugements portés par les clients sur leurs produits,
trouver de nouveaux clients potentiels, automatiser les recommandations de
produits (« les gens qui aiment X aiment aussi Y »), ou cibler sélectivement
leurs publicités en ligne. Les données sur les films, livres et autres produits
qu’une personne aime ou n’aime pas sont parfois étonnamment (et peut-être
effroyablement) utiles pour prédire les futurs achats d’une personne. Qui
plus est, de telles informations peuvent avoir un pouvoir prédictif sur
d’autres aspects de la vie d’une personne, tels que ses habitudes de vote et
sa réactivité à certains types d’informations ou d’annonces politiques*8. En
outre, plusieurs tentatives, plus ou moins réussies, ont été faites pour utiliser
« l’analyse des sentiments » de tweets économiques – entre autres – sur
Twitter pour prédire les cours de la Bourse et les résultats d’élections.
Mettons de côté l’éthique de ces applications de l’analyse des sentiments
et regardons comment les systèmes d’IA pourraient classifier les sentiments
exprimés par des phrases analogues à celles rapportées ci-dessus. S’il est
évident pour les humains que ces mini-critiques sont toutes négatives,
l’écriture d’un programme qui ferait ce type de classification à un niveau
général est bien plus difficile qu’il y paraît à première vue.
Certains premiers systèmes de TALN voyaient dans la présence de mots
individuels ou de courtes suites de mots une indication du sentiment d’un
texte. Par exemple, on peut penser que des mots tels que sombre, bizarre,
lourd, inquiétant, horrible, manque et ou les suites telles ne fonctionne pas,
sans le moindre, un peu trop sont la marque d’un sentiment négatif dans les
critiques de films. Cela marche dans certains cas, mais dans de nombreux
autres, de telles suites figurent également dans des critiques positives. En
voici quelques exemples :
« Malgré la lourdeur du sujet, il est suffisamment drôle pour ne pas verser
totalement dans le sinistre. »
« Contrairement à ce que d’autres personnes ont suggéré, il ne contient rien
d’inquiétant ou d’horrible. »
« J’étais un peu trop jeune pour voir cet excellent film quand il est sorti. »
« Si vous n’allez pas le voir, vous manquerez quelque chose ! »

Un regard sur les mots isolés ou suites de mots individuelles ne suffit


généralement pas pour avoir une idée du sentiment d’ensemble ; il faut
saisir la sémantique des mots dans le contexte de la phrase tout entière.
Dès que les réseaux profonds commencèrent à exceller dans le domaine
de la vision et de la reconnaissance de la parole par ordinateur, les
praticiens du TALN tentèrent de les appliquer à l’analyse des sentiments.
Comme d’habitude, l’idée est d’entraîner le réseau à partir de multiples
exemples de phrases étiquetées par des humains et porteuses de sentiments
tant positifs que négatifs, et d’amener le réseau à apprendre seul les
caractéristiques utiles qui lui permettent de sortir en confiance une
classification « positive » ou « négative » pour une nouvelle phrase. Mais
tout d’abord, comment peut-on amener un réseau neuronal à traiter une
phrase ?

Les réseaux neuronaux récurrents


Le traitement d’une phrase ou d’un ensemble de phrases exige un type de
réseau neuronal différent de ceux décrits dans les précédents chapitres.
Rappelez-vous, par exemple, le réseau neuronal convolutif du chapitre 4,
qui classait une photo dans la catégorie « chien » ou « chat ». Les entrées de
ce réseau étaient les intensités des pixels d’une photo de taille fixe (les
photos plus grandes ou plus petites devaient être mises à la bonne échelle).
Les phrases, elles, sont constituées de suites de mots et n’ont pas de
longueur fixe. Il faut ainsi trouver un moyen d’amener le réseau neuronal à
traiter des phrases de longueurs variables.
L’application des réseaux neuronaux à des tâches impliquant des suites
ordonnées telles que les phrases remonte aux années 1980 et à
l’introduction des réseaux neuronaux récurrents (RNR), inspirés bien
entendu par des idées sur la façon dont le cerveau interprète les phrases.
Imaginez que l’on vous demande de lire la critique « Un peu trop sombre à
mon goût » et de l’associer à un sentiment positif ou négatif. Vous lisez la
phrase de la gauche vers la droite, en marquant une pause entre chaque mot.
À mesure que vous la lisez, vous commencez à vous faire une idée de son
sentiment, idée qui se trouve confortée lorsque vous arrivez à la fin de la
phrase. À ce stade, votre cerveau représente la phrase sous forme
d’activations neuronales, qui vous permettent de dire en confiance si la
critique est positive ou négative.
Les réseaux neuronaux récurrents s’inspirent vaguement de ce processus
séquentiel de lecture d’une phrase et de création de sa représentation sous
forme d’activations neuronales. La figure 32 compare la structure d’un
réseau neuronal traditionnel à celle d’un réseau neuronal récurrent. Pour
simplifier, chaque réseau a deux unités (cercles blancs) dans la couche
cachée et une unité dans la couche de sortie. Dans les deux réseaux, l’entrée
est connectée aux unités cachées, et chaque unité cachée est connectée à
l’unité de sortie (flèches continues). La grande différence pour le RNR est
que ses unités cachées possèdent des connexions additionnelles
« récurrentes » ; chaque unité cachée est connectée à elle-même et aux
autres unités cachées (flèches pointillées). Comment cela fonctionne-t-il ?
Contrairement à un réseau neuronal traditionnel, un RNR opère sur une
série de pas temporels. À chaque pas temporel, le RNR reçoit une entrée et,
tout comme un réseau neuronal traditionnel, calcule l’activation de ses
unités cachées et de ses unités de sortie. Mais dans un RNR, chaque unité
cachée calcule son activation à partir de l’entrée et des activations des
unités cachées issues du précédent pas temporel. (Lors du premier pas
temporel, ces valeurs récurrentes sont fixées à 0.) Cela donne au réseau un
moyen d’interpréter les mots qu’il « lit » tout en se rappelant le contexte de
ce qu’il a déjà « lu ».
Figure 32 A. Réseau neuronal traditionnel. B. Réseau neuronal récurrent : à chaque
pas temporel, les activations de ses unités cachées servent d’entrées au pas temporel
suivant.

La meilleure façon de comprendre le fonctionnement des RNR est de


visualiser l’opération du réseau au cours du temps, comme à la figure 33,
qui montre le RNR de la figure 32 sur huit pas temporels. Pour simplifier,
j’ai représenté toutes les connexions récurrentes de la couche cachée par
une seule flèche pointillée allant d’un pas temporel vers le suivant.
À chaque pas temporel, les activations des unités cachées constituent
l’encodage par le réseau de la phrase partielle qu’il a lue jusqu’ici.
Le réseau continue d’affiner cet encodage à mesure qu’il continue de traiter
les mots. Une fois atteint le dernier mot de la phrase, le réseau tombe sur un
symbole FIN (similaire à un point final), qui lui dit que la phrase est
terminée. Notez que le symbole FIN est ajouté à chaque phrase par des
humains avant l’entrée du texte dans le réseau.
Figure 33. Le réseau neuronal récurrent de la figure 32 sur 8 pas temporels successifs.

À chaque pas temporel, l’unité de sortie de ce réseau traite les activations


(l’« encodage ») des unités cachées pour donner le niveau de confiance
avec lequel le réseau considère que la phrase entrée (c’est-à-dire la partie de
la phrase entrée dans le réseau jusqu’à ce pas temporel) génère un sentiment
positif. Lorsqu’on applique le réseau à une phrase donnée, on peut ignorer
cette sortie tant que la fin de la phrase n’est pas atteinte. Une fois cette fin
atteinte, les unités cachées encodent la phrase tout entière, et l’unité de
sortie donne le niveau définitif de confiance du réseau (en l’occurrence,
30 % de sentiment positif ou, de manière équivalente, 70 % de sentiment
négatif).
Le réseau ne cessant d’encoder la phrase que s’il rencontre le symbole
FIN, le système peut, en principe, encoder des phrases de n’importe quelle
longueur sous forme de nombres formant un ensemble de longueur fixe –
les activations des unités cachées. Pour des raisons évidentes, ce type de
réseau neuronal est souvent appelé réseau encodeur.
La donnée d’un ensemble de phrases que des humains ont étiquetées
« positives » ou « négatives » en termes de sentiment permet d’entraîner un
réseau encodeur via la rétropropagation. Il y a cependant une chose que je
n’ai pas encore expliquée. Les réseaux neuronaux exigent que leurs entrées
soient des nombres*9. Quel est le meilleur moyen d’encoder les mots
d’entrée sous forme de nombres ? La réponse à cette question a conduit à
l’un des plus importants progrès réalisés en traitement du langage naturel
durant la dernière décennie.

Une idée simple pour encoder des mots sous forme de nombres
Avant de décrire des possibilités d’encodage de mots sous forme de
nombres, il faut définir la notion de vocabulaire d’un réseau neuronal.
Ce vocabulaire est l’ensemble de tous les mots que le réseau pourra
accepter comme entrées. Les linguistes estiment que pour comprendre la
plupart des textes anglais, un lecteur doit connaître entre dix mille et trente
mille mots – selon que vous considérez ou non comme un seul « mot » les
diverses formes (présent, passé, etc.) d’un même verbe. Ce vocabulaire peut
également considérer comme un seul mot des expressions courantes à deux
mots telles que San Francisco ou Golden Gate.
En guise d’exemple concret, supposons que notre réseau ait un
vocabulaire de vingt mille mots. L’idée la plus simple pour encoder des
mots sous forme de nombres est d’assigner à chaque mot du vocabulaire un
nombre arbitraire compris entre 1 et 20 000, puis d’attribuer au réseau
neuronal 20 000 entrées, une par mot du vocabulaire. À chaque pas
temporel, seule une de ces entrées – celle qui correspond au mot d’entrée
réel – est « activée ». Par exemple, disons que le mot sombre ait reçu le
nombre 317. Alors, si l’on veut entrer sombre dans le réseau, on doit donner
à 317 la valeur 1, et la valeur 0 à toutes les autres (19 999) entrées. En
TALN, on appelle cela l’encodage « 1 parmi n » : à chaque pas temporel,
seule une des entrées – celle qui correspond au mot injecté dans le réseau –
est « non-0 ». On appelle aussi ce type d’encodage « one-hot », car une
seule des 20 000 entrées est allumée (= 1), d’où « hot », toutes les autres
restant « froides » (= 0).
L’encodage 1 parmi n resta longtemps un procédé standard pour entrer
des mots dans des réseaux neuronaux. Il pose cependant un problème :
attribuer arbitrairement des nombres à des mots ne rend nullement compte
du lien unissant ces mots. Supposez que le réseau ait appris, à partir de ses
données d’apprentissage, que la phrase « j’ai détesté ce livre » traduit un
sentiment négatif. Supposez maintenant que l’on entre dans le réseau « j’ai
abhorré ce bouquin » dans le réseau sans qu’il ait jamais rencontré abhorré
ou bouquin dans ses données d’apprentissage. Il n’aurait alors aucun moyen
d’établir que ces deux phrases ont exactement le même sens. Supposez en
outre que le réseau ait appris que la phrase « j’ai ri aux éclats » est associée
à des critiques positives, puis qu’il rencontre pour la première fois la phrase
« J’ai apprécié cet humour. » Le réseau serait incapable de reconnaître la
proximité de sens de ces deux phrases (bien que ces sens ne soient pas
exactement identiques). Cette incapacité à percevoir les liens sémantiques
entre les mots et entre les phrases est l’une des principales raisons pour
lesquelles la performance des réseaux neuronaux utilisant l’encodage 1
parmi n laisse souvent à désirer.

L’espace sémantique des mots


La communauté des chercheurs en TALN a proposé plusieurs méthodes
pour encoder les mots d’une manière qui mettrait en évidence ces liens
sémantiques. Toutes ces méthodes reposent sur la même idée,
admirablement exprimée en 1957 par le linguiste John Firth : « Vous
connaissez un mot par ceux auxquels il tient compagnie. »*10 Autrement dit,
le sens d’un mot peut être défini en fonction des mots avec lesquels il
apparaît généralement, et des mots avec lesquels ces mots apparaissent
généralement, et ainsi de suite. Abhorré apparaît généralement dans les
mêmes contextes que détesté. Ri apparaît généralement avec les mêmes
mots que humour trouve en sa compagnie.
En linguistique, cette idée est connue plus formellement sous le nom de
sémantique distributionnelle. L’hypothèse sous-jacente à la sémantique
distributionnelle est que « le degré de similitude sémantique entre deux
expressions linguistiques A et B est une fonction de la similitude des
contextes linguistiques dans lesquels A et B apparaissent. »*11 Les linguistes
rendent souvent cela plus concret avec la notion d’« espace sémantique ».
La figure 34A montre un espace sémantique bidimensionnel dans lequel les
mots de sens similaires se trouvent plus proches les uns des autres. Mais les
mots pouvant avoir de multiples dimensions de sens, il apparaît rapidement
que leur espace sémantique a lui aussi nécessairement plusieurs dimensions.
Par exemple, le mot charme est proche d’esprit et d’humour, mais dans un
contexte différent, charme est proche de bracelet et de talisman. De même,
le mot brillant est proche des clusters lumière et resplendissant, mais a
aussi un autre sens (bien qu’apparenté) qui est proche de vif, intelligent et
astucieux. Il serait commode d’avoir une troisième dimension – sortant de
la page pour venir vers vous – pour placer ces mots à la bonne distance les
uns des autres. Sur une dimension, charme est proche de séduction ; sur une
autre dimension, il est proche de talisman. Mais charme devrait aussi être
proche d’arbre (tandis que bracelet ne l’est pas). Il nous faut davantage de
dimensions ! Nous autres humains avons un problème pour nous
représenter un espace à plus de trois dimensions, mais l’espace sémantique
des mots pourrait en fait nécessiter des dizaines, voire des centaines de
dimensions.

Figure 34 A. Deux clusters regroupant des mots de sens similaires dans un espace
sémantique. B. Espace sémantique tridimensionnel dans lequel les mots sont représentés
par des points.

Lorsque nous parlons d’espaces sémantiques à plusieurs dimensions,


nous nous retrouvons dans le domaine de la géométrie. De fait, les
praticiens du TALN décrivent souvent le « sens » des mots en termes de
concepts géométriques. Par exemple, la figure 34B montre un espace
tridimensionnel, d’axes x, y et z. Dans cet espace, chaque mot est identifié
par un point noir défini par trois coordonnées x, y, z. La distance
sémantique entre deux mots est égale à la distance géométrique entre les
points qui leur correspondent. Vous pouvez voir que charme est maintenant
proche d’esprit et humour et de bracelet et bijoux, mais selon
des dimensions différentes. En TALN, les coordonnées d’un mot dans cet
espace sémantique sont désignées par l’expression vecteur-mot.
En mathématiques, un vecteur n’est qu’un terme technique désignant
les coordonnées d’un point*12. Par exemple, supposez que bracelet ait pour
coordonnées (2 ; 0 ; 3) ; cette liste de trois nombres est son vecteur-mot
dans cet espace tridimensionnel. Notez que le nombre de dimensions d’un
vecteur est simplement le nombre de ses coordonnées.
L’idée, ici, est qu’une fois tous les mots du vocabulaire correctement
placés dans l’espace sémantique, le sens d’un mot peut-être représenté par
sa position dans cet espace – c’est-à-dire par les coordonnées définissant
son vecteur-mot. Et à quoi sert un vecteur-mot ? Il s’avère que l’utilisation
des vecteurs-mots comme entrées numériques représentant des mots, à la
différence de l’encodage 1 parmi n esquissé plus haut, améliore grandement
les performances des réseaux neuronaux lors de l’accomplissement de
tâches en TALN.
Comment obtenons-nous en fait tous les vecteurs-mots correspondant
aux mots d’un vocabulaire ? Y a-t-il un algorithme qui place correctement
tous les mots du vocabulaire de notre réseau dans un espace sémantique
afin de rendre au mieux les multiples dimensions du sens de chaque mot ?
Bon nombre d’importants travaux en TALN se sont attaqués à la résolution
de ce problème.

Word2Vec
De nombreuses solutions ont été suggérées. Certaines remontent aux
années 1980, mais la méthode la plus utilisée actuellement a été proposée
en 2013 par des chercheurs de chez Google*13. Ces chercheurs ont appelé
leur méthode « word2vec » – raccourci pour « word to vector » (mot en
vecteur). Cette méthode utilise un réseau neuronal traditionnel pour
apprendre automatiquement les vecteurs-mots correspondant à tous les mots
d’un vocabulaire. Les chercheurs de Google ont utilisé une partie du vaste
fonds de documents de leur entreprise pour entraîner leur réseau ; une fois
cette formation achevée, le groupe Google a sauvegardé et publié tous les
vecteurs-mots résultants sur une page Web afin que tout le monde puisse les
télécharger et les utiliser comme entrées de systèmes de traitement du
langage naturel*14.
La méthode word2vec exprime l’idée que l’« on connaît un mot par ceux
auxquels il tient compagnie ». Afin de créer les données d’apprentissage
pour le programme word2vec, le groupe Google a commencé par extraire
un gigantesque ensemble de documents de Google Actualités. (En matière
de TALN moderne, rien ne vaut de s’entourer du « big data » !) Les
données d’apprentissage pour le programme word2vec se composaient d’un
ensemble de paires de mots dont chaque composante apparaissait au
voisinage de l’autre dans les documents de Google Actualités. Afin
d’améliorer le processus, les mots extrêmement fréquents tels que le, la, les,
de, du, des et et étaient exclus.
En guise d’exemple concret, supposons que les mots de chaque paire
soient mutuellement adjacents dans une phrase. Dans ce cas, la phrase « un
homme est allé au restaurant et a commandé un hamburger » serait tout
d’abord transformée en « homme est allé au restaurant a commandé
hamburger. » Cela donnerait les paires suivantes : (homme, est allé), (est
allé, au), (au, restaurant), (restaurant, a commandé), (a commandé,
hamburger), plus les inverses de toutes ces paires – par exemple,
(hamburger, a commandé). L’idée est d’entraîner le réseau word2vec afin de
prédire les mots susceptibles d’être appariés à un mot d’entrée donné.

Figure 35. Fonctionnement du réseau neuronal word2vec sur la paire de mots


(hamburger, commandé).

La figure 35 montre le réseau neuronal word2vec*15. Ce réseau utilise en


fait l’encodage 1 parmi n décrit plus haut. La figure 35 compte
700 000 unités d’entrée ; c’est proche de la taille du vocabulaire utilisé par
les chercheurs de Google. Chaque entrée correspond à un mot du
vocabulaire. Par exemple, la première correspond au mot chat, la 8 378e
correspond à hamburger, et la 700 000e à bleu ciel. Je viens d’inventer ces
chiffres ; l’ordre réel n’a pas d’importance. De même, il y a 700 000 unités
de sorties, chacune correspondant à un mot du vocabulaire, et une couche
cachée relativement petite de 300 unités. Les grosses flèches grises
indiquent que chaque entrée est liée à chaque unité cachée par une
connexion pondérée, et que chaque unité cachée est liée à chaque unité de
sortie par une connexion pondérée.
Les chercheurs de Google ont entraîné leur réseau sur des milliards de
paires de mots extraits d’articles de Google Actualités. Pour une paire telle
que (hamburger, commandé), l’entrée correspondant au premier mot de la
paire (hamburger) est fixée à 1 ; toutes les autres entrées sont fixées à 0.
Durant l’apprentissage, l’activation de chaque unité de sortie mesure la
confiance avec laquelle le réseau estime que le mot correspondant du
vocabulaire se trouve proche du mot d’entrée. Ici, les activations de sorties
correctes attribuent une confiance élevée au second mot de la paire
(commandé).
Une fois l’apprentissage terminé, on peut extraire le vecteur-mot appris
pour chacun des mots du vocabulaire. La figure 36 illustre le déroulement
de l’opération. Elle montre les connexions pondérées entre l’entrée
correspondant au mot hamburger et les trois cents unités cachées. Ces
poids, qui ont été appris à partir des données d’apprentissage, contiennent
l’information sur les contextes dans lesquels le mot correspondant est
utilisé. Ces trois cents poids sont les composantes du vecteur-mot attribué
au mot considéré. (Les connexions reliant les unités cachées aux sorties
sont totalement ignorées lors de ce processus ; toute l’information
nécessaire réside dans les poids de la connexion reliant les entrées aux
couches cachées.) Ainsi, les vecteurs-mots appris par ce réseau ont trois
cents dimensions. L’ensemble de vecteurs-mots pour tous les mots du
vocabulaire constitue l’« espace sémantique » appris.
Voici comment visualiser mentalement cet espace sémantique à trois
cents dimensions. Pensez simplement à la représentation tridimensionnelle
de la figure 34 puis tentez de visualiser une représentation similaire ayant
cent fois plus de dimensions et sept cent mille mots représentés. Je
plaisante ! C’est impossible à visualiser.
Que représentent ces trois cents dimensions ? Si nous étions des créatures
à trois cents dimensions dotées de cerveaux capables de visualiser un tel
espace, nous verrions qu’un mot donné est proche d’autres mots par une
multitude de sens. Par exemple, le vecteur pour hamburger est proche du
vecteur pour commandé ; il est également proche des vecteurs pour burger,
hot-dog, vache, manger, etc. Hamburger est également proche de dîner,
même s’il n’a jamais été vu apparié à ce mot ; cette proximité est due au fait
que hamburger est proche de mots et qui sont également proches de dîner
dans des contextes similaires. Si le réseau voit des paires de mots dans « j’ai
mangé un hamburger au déjeuner » et dans « j’ai dévoré un hot-dog au
dîner », et si déjeuner et dîner apparaissent mutuellement proches dans
certaines phrases d’apprentissage, le système peut alors apprendre que
hamburger et dîner sont aussi probablement proches l’un de l’autre.

Figure 36. Obtention d’un vecteur-mot à partir du réseau word2vec.

Rappelons que le but de tout ce processus est de trouver une


représentation numérique – un vecteur – pour chaque mot du vocabulaire,
représentation qui exprime un aspect de la sémantique du mot. L’hypothèse
est que l’utilisation de ces vecteurs-mots générera des réseaux neuronaux
hautement performants au niveau du traitement du langage naturel. Dans
quelle mesure, cependant, l’« espace sémantique » créé par word2vec
reflète-t-il vraiment la sémantique des mots ?
Il est difficile de répondre à cette question parce que nous ne pouvons
visualiser l’espace sémantique à trois cents dimensions appris par
word2vec. Plusieurs choses nous permettent cependant de nous en faire une
idée. La plus simple consiste à se donner un mot et à recenser ceux qui se
sont retrouvés les plus proches dans cet espace en termes de distances entre
vecteurs-mots. Par exemple, une fois l’apprentissage du réseau achevé, les
mots les plus proches de France incluent Espagne, Belgique, Pays-Bas,
Italie, Suisse, Luxembourg, Portugal, Russie, Allemagne et Catalogne*16.
L’algorithme word2vec n’a pas appris le concept de pays ou de pays
européen ; ces deux mots apparaissent simplement dans les données
d’apprentissage des contextes où apparaît France, de la même façon que
hamburger et hot-dog dans l’exemple que j’ai donné plus haut. De fait, si je
recherche les mots les plus proches de hamburger, la liste que j’obtiens
contient burger, cheeseburger, sandwich, hot-dog, taco et frites.*17
Nous pouvons également examiner les liens plus complexes qui résultent
de l’apprentissage du réseau. Les chercheurs de chez Google qui ont créé
word2vec ont observé que dans les vecteurs-mots générés par leur réseau, la
distance entre le mot pour un pays et le mot pour sa capitale reste
approximativement constante pour de nombreux pays. La figure 37, qui
montre une représentation bidimensionnelle de ces distances, illustre ce
phénomène. Là encore, le système n’a pas appris le concept de « capitale »
d’un pays ; ces liens ont simplement émergé de l’apprentissage du réseau à
partir de milliards de paires de mots.

Figure 37. Représentation bidimensionnelle des distances entre les vecteurs-mots pour
les pays et les vecteurs-mots pour leurs capitales.

Ce type de régularité a fait naître chez les gens l’idée que word2vec
pouvait « résoudre » les problèmes d’analogies tels que « Homme est à
femme comme roi est à ______. » Prenez le vecteur-mot pour femme,
soustrayez le vecteur-mot pour homme, et ajoutez le résultat au vecteur-mot
pour roi*18. Trouvez ensuite le vecteur-mot qui, dans l’espace, est le plus
proche du résultat. Oui, oui, c’est le mot reine. Lors de mes
expérimentations avec une démonstration de word2vec en ligne*19, cette
méthode produit souvent de très bons résultats (« Dîner est à soir comme
petit-déjeuner est à matin »), mais tout aussi souvent des résultats
mystérieux (« Assoiffé est à boire comme fatigué est à ivre ») ou absurdes
(« Poisson est à eau comme oiseau est à bouche d’eau »).
Ces propriétés des vecteurs-mots appris sont intrigantes et indiquent
l’existence de certaines relations. Mais donneront-elles une utilité générale
aux vecteurs-mots lors de l’accomplissement de tâches en TALN ? La
réponse semble être clairement « oui ». De nos jours, presque tous les
systèmes de TALN utilisent une sorte ou une autre de vecteurs-mots
(word2vec n’est que l’une d’entre elles) pour entrer les mots.
Voici une analogie. Pour une personne avec un marteau, tout ressemble à
un clou ; de même pour un chercheur en IA avec un réseau neuronal, tout
ressemble à un vecteur. Nombre d’entre eux ont eu en effet l’idée
d’appliquer le procédé word2vec non seulement sur des mots, mais aussi
sur des phrases entières. Pourquoi ne pas encoder une phrase sous forme
d’un vecteur comme on le fait avec les mots, en faisant l’apprentissage sur
des paires de phrases à la place de paires de mots ? Cela n’offrirait-il pas
une meilleure approche de la sémantique que celle fournie par les vecteurs-
mots ? De fait, plusieurs groupes ont tenté de faire cela ; un groupe de
l’université de Toronto a donné à ces représentations de phrases le nom de
« vecteurs-pensées »*20. D’autres ont expérimenté des réseaux qui encodent,
avec, malgré tout, un taux de réussite moindre, des paragraphes et des
documents entiers. Pour les chercheurs en IA, réduire toute la sémantique à
de la géométrie est une idée séduisante. « Je pense que vous pouvez saisir
une pensée à l’aide d’un vecteur, » a affirmé Geoffrey Hinton, de chez
Google*21. Chez Facebook, Yann LeCun renchérit : « [Avec la recherche sur
l’IA chez Facebook], nous voulons plonger le monde dans des vecteurs-
pensées. Nous appelons cela le World2Vec. »*22
Un dernier mot sur les vecteurs-mots. Plusieurs groupes ont montré que
ces vecteurs-mots expriment, peut-être sans grande surprise, les biais
inhérents aux données linguistiques qui les génèrent*23. Considérez, par
exemple, l’analogie suivante : « Homme est à femme ce que programmeur
est à ______. » Si vous résolvez ce problème en utilisant les vecteurs-mots
fournis par Google, la réponse est ménagère. Le problème inverse,
« Femme est à homme ce que programmeur est à ______ » donne ingénieur
mécanicien. En voici un autre : « Homme est à génie ce que femme est à
______. » Réponse : muse. Et qu’en est-il de « Femme est à génie ce que
homme est à ______ » ? Réponse : génies.
Bonjour les décennies de féminisme. On ne peut blâmer les vecteurs-
mots ; ils ne font qu’exprimer le sexisme et autres préjugés de notre
langage, et notre langue reflète les préjugés de notre société. Mais aussi
irréprochables soient-ils, les vecteurs-mots sont une composante clé de
chaque système de TALN, allant de la reconnaissance de la parole à la
traduction. Les préjugés contenus dans les vecteurs-mots peuvent s’infiltrer
pour produire, dans des applications du TALN largement utilisées, des
préjugés inattendus et difficiles à prédire. Les spécialistes de l’IA qui
étudient ces préjugés commencent seulement à comprendre aujourd’hui les
effets subtils qu’ils peuvent avoir sur les sorties des systèmes de TALN, et
plusieurs groupes travaillent sur des algorithmes visant à « débiaiser » les
vecteurs-mots*24. Le débiaisage des vecteurs-mots est un défi de taille, mais
probablement plus facile à relever que l’autre option : débiaiser le langage
et la société.
12

La traduction en tant qu’encodage


et décodage

Si vous avez déjà utilisé Google Translate ou tout autre système de


traduction automatique moderne, vous savez que ce système peut traduire
un petit texte d’une langue à une autre en une fraction de seconde. Plus
impressionnant encore, ces systèmes de traduction en ligne fournissent ces
traductions quasi instantanées aux quatre coins du globe, vingt-quatre
heures sur vingt-quatre, sept jours sur sept, et peuvent généralement traiter
plus d’une centaine de langues. Il y a plusieurs années, lors d’un congé
sabbatique de six mois que je passais en France avec ma famille, j’ai
abondamment utilisé Google Translate pour me plaindre de manière très
diplomatique auprès de notre très formelle propriétaire de la présence de
moisissures dans la maison que nous lui louions. Mon français étant loin
d’être parfait, Google Translate m’a épargné des heures de recherche sur les
mots que j’ignorais, sur le bon placement des accents et sur le bon genre des
mots.
J’utilisais également Google Translate pour essayer de comprendre les
réponses souvent confuses de notre propriétaire, et si les traductions du
logiciel me donnaient une idée relativement claire de ce qu’elle voulait dire,
l’anglais produit était rempli d’erreurs, grandes et petites. Aujourd’hui
encore, je n’ose imaginer ce que ma propriétaire a pensé de mon français.
En 2016, Google lança un nouveau système de « traduction automatique
neuronale » qui, selon ses dires, constituait « la plus importante
amélioration apportée à ce jour à la qualité de la traduction
automatique »*1 ; cette qualité reste toutefois très inférieure à celle de
traducteurs humains compétents.
Stimulée en partie par la guerre froide, la traduction automatique – en
particulier entre le russe et l’anglais – fut l’un des tout premiers projets de
l’IA. Les premières approches de la traduction automatique ont été
encouragées avec enthousiasme par le mathématicien Warren Weaver en
1947 : « On se demande naturellement si le problème de la traduction ne
pourrait pas être traité comme un problème de cryptographie. Quand je
regarde un article en russe, je me dis “c’est réellement écrit en anglais, mais
cela a été encodé avec d’étranges symboles. Je vais maintenant le
décoder.” »*2 Comme d’habitude en IA, un tel « décodage » s’avéra plus
difficile que prévu.
Comme d’autres recherches conduites dans les premiers temps de l’IA,
les premières approches de la traduction automatique reposèrent sur des
ensembles complexes de règles édictées par des humains. Avec pour
objectif la traduction d’une langue source (par exemple, l’anglais) vers une
langue cible (par exemple, le russe), un système de traduction automatique
recevait des règles de syntaxes pour chacune des deux langues ainsi que des
règles de correspondance entre les deux structures syntaxiques. En outre,
des programmeurs humains créaient des dictionnaires adaptés au système
de traduction automatique et comportant des équivalences entre mots (et
entre phrases simples). Comme de nombreux autres travaux réalisés en IA
symbolique, ces approches fonctionnaient bien dans des cas précis, mais se
heurtaient dans l’ensemble à tous les défis posés par le langage naturel et
que j’ai évoqués plus haut.
À partir des années 1990, une nouvelle approche, appelée traduction
automatique statistique, en vint à dominer la discipline. S’inscrivant dans la
tendance alors caractéristique de l’IA, la traduction automatique statistique
reposait sur un apprentissage à partir des données plutôt que sur des règles
édictées par des humains. Les données d’apprentissages consistaient en de
vastes ensembles de paires de phrases : la première phrase de chaque paire
appartenait à la langue source, la seconde était une traduction (humaine) de
la première dans la langue cible. Ces paires de phrases provenaient de
documents gouvernementaux de pays bilingues (par exemple, chaque
document du Parlement canadien est publié en anglais et en français), de
transcriptions des Nations unies, qui sont traduites dans les six langues
officielles de cet organisme, et d’autres grands ensembles de documents
originaux et traduits.
Des années 1990 à 2000, les systèmes de traduction automatique
statistique construisaient généralement de grands tableaux de probabilités
liant les phrases des langues sources à celles des langues cibles. Face à une
nouvelle phrase, disons en anglais – par exemple « A man went into a
restaurant » (Un homme est entré dans un restaurant) –, le système la
divisait en « sous-phrases » (« A man went » « into a restaurant ») puis
cherchait dans ses tableaux de probabilités les meilleures traductions de ces
sous-phrases dans la langue cible. Ces systèmes comportaient des étapes
supplémentaires pour vérifier que les sous-phrases traduites formaient
ensemble une phrase cohérente, mais le principal moteur de la traduction
était les probabilités des phrases apprises à l’aide des données
d’apprentissage. Même si les systèmes de traduction automatique statistique
avaient une connaissance très réduite des syntaxes des langues concernées,
ces méthodes donnaient dans l’ensemble de meilleures traductions que les
premières approches fondées sur des règles.
Google Translate – qui est probablement le programme de traduction
automatique le plus utilisé – a employé ces méthodes de traduction
automatique statistique de 2006, année de son lancement, jusqu’en 2016,
année à laquelle les chercheurs de chez Google avaient développé ce qu’ils
affirmaient être une méthode de traduction plus performante, basée sur
l’apprentissage profond et appelée traduction automatique neuronale. Peu
après, la traduction automatique neuronale fut intégrée dans tous les
programmes de traduction automatique dernier cri.

L’encodeur rencontre le décodeur


La figure 38 est un schéma de ce qui se passe sous le capot quand vous
utilisez Google Translate (et tout autre programme actuel de traduction
automatique), dans le cas, ici, d’une traduction de l’anglais vers le
français*3. C’est un système complexe, j’en ai simplifié nombre de détails,
mais la figure devrait vous donner une idée des grandes lignes du
mécanisme.*4
Figure 38. Schéma d’une paire de réseaux « encodeurs-décodeurs » pour la traduction
linguistique. Les rectangles blancs représentent les réseaux encodeurs et décodeurs
opérant sur des pas temporels successifs. Les mots d’entrés – par exemple, man – sont
d’abord transformés en vecteurs-mots – par exemple, wordvec(man) – avant de passer
dans le réseau.

La moitié supérieure de la figure 38 montre un réseau neuronal récurrent


(un réseau encodeur), très semblable à celui que j’ai décrit au précédent
chapitre. La phrase anglaise « A man went into a restaurant » (Un homme
est entré dans un restaurant) est encodée en sept pas temporels. Les
rectangles blancs représentent l’encodage de cette phrase par le réseau ; je
décrirai plus loin ce à quoi ressemble le réseau à l’intérieur de ces
rectangles. Durant l’encodage, un mot de la phrase entre à chaque pas
temporel dans le réseau sous forme d’un vecteur-mot, semblable à ceux que
j’ai décrits plus haut*5. Les flèches en pointillé qui relient un pas temporel
au suivant représentent les connexions récurrentes dans la couche cachée.
Mot après mot, le réseau construit une représentation de la phrase anglaise,
encodée dans les activations de ses unités cachées.
Lors du dernier pas temporel, le réseau encodeur reçoit un symbole END
et les activations des unités cachées consistent maintenant en l’encodage de
la phrase. Ces dernières activations des unités cachées fournies par
l’encodeur entrent ensuite dans un second réseau, un réseau décodeur, qui
va générer la traduction de la phrase. Le réseau décodeur, représenté dans la
moitié inférieure de la figure 38, est simplement un autre réseau neuronal
récurrent, mais dans lequel les sorties sont des nombres représentant les
mots qui forment la phrase traduite – dont chacun rentre de nouveau dans le
réseau lors du prochain pas temporel*6.
Notez que la phrase française contient sept mots, alors que la phrase
anglaise en a six. Ce système encodeur-décodeur peut en principe traduire
une phrase de n’importe quelle longueur en une phrase de n’importe quelle
autre longueur*7. Toutefois, lorsque les phrases deviennent trop longues, un
réseau encodeur finit par perdre des informations utiles : au bout d’un
certain nombre de pas temporels, il « oublie » d’importantes composantes
antérieures de la phrase. Considérez par exemple cette phrase :

Ma mère a dit que le chat qui est parti en avion à Hawaï avec sa sœur
l’année avant que tu n’entres dans ce nouveau lycée vit maintenant avec
mon cousin.

Qui vit avec mon cousin ? La réponse à cette question peut influer dans
certaines langues sur la traduction de est et vit en anglais. Les humains sont
passablement bons pour traiter ce type de phrases alambiquées, tandis que
les réseaux neuronaux récurrents peuvent facilement perdre le fil. La
confusion s’installe lorsque le réseau tente d’encoder la phrase entière dans
un seul ensemble d’activations d’unités cachées.
À la fin des années 1990, un groupe de recherche suisse proposa une
solution : il fallait doter les unités individuelles d’un réseau neuronal
récurrent d’une structure plus complexe, avec des poids spécialisés qui
détermineraient l’information à envoyer ou à « oublier » lors du pas
temporel suivant. Ces chercheurs donnèrent à ces unités plus complexes le
nom d’unités « longue mémoire à court terme » (LSTM : « long short-term
memory »)*8. Le nom est déroutant, mais l’idée est que ces unités
permettent le maintien d’une plus grande mémoire à court terme durant tout
le traitement de la phrase. Les poids spécialisés s’apprennent par
rétropropagation, tout comme les poids ordinaires dans un réseau neuronal
traditionnel. Si la figure 38 représente abstraitement par des rectangles les
réseaux encodeurs et décodeurs, ces réseaux sont en fait constitués d’unités
LSTM.
La traduction automatisée à l’âge de l’apprentissage profond est un
triomphe du big data et de la puissance des ordinateurs. L’apprentissage
d’une paire de réseaux encodeur-décodeur afin de traduire, disons, de
l’anglais en français, recourt à plus de trente millions de paires de phrases
traduites par des humains. Les réseaux neuronaux récurrents profonds
constitués d’unités LSTM et entraînés sur de grands ensembles de données
sont devenus la base des systèmes modernes de traitement du langage
naturel, non seulement dans les réseaux d’encodage et de décodage utilisés
par Google Translate, mais aussi dans la reconnaissance de la parole, la
classification des sentiments et, nous allons le voir plus bas, la réponse aux
questions. Ces systèmes utilisent souvent plusieurs astuces qui améliorent
leurs performances, telles que l’entrée dans le réseau de la phrase originale
non seulement dans le sens habituel mais aussi à rebours, ainsi que des
mécanismes qui concentrent l’attention sur différentes parties de la phrase à
différents pas temporels*9.

Quelques jugements sur la traduction automatique


Après avoir lancé sa traduction automatique neuronale, en 2016, Google
Translate affirma que cette nouvelle approche « comblait le fossé entre la
traduction humaine et la traduction automatique. »*10 D’autres grandes
entreprises technologiques, sprintant pour rattraper leur retard, créaient
leurs propres programmes de traduction automatique en ligne, pareillement
basés sur l’architecture encodeur-décodeur que j’ai décrite plus haut. Ces
entreprises, et les médias technologiques qui assuraient leur couverture, ont
vanté avec enthousiasme ces services de traduction. The Technology
Review, le magazine du MIT, a écrit que « le nouveau service de Google
traduit les langues presque aussi bien que les humains. »*11 Microsoft a
annoncé dans un communiqué de presse que son service de traduction
d’articles de presse de chinois en anglais avait atteint la « parité
humaine ».*12 IBM a affirmé que « Watson d’IBM maîtrise désormais
couramment neuf langues (et que ce n’est pas fini). »*13 Le responsable de la
traduction linguistique chez FaceBook a déclaré : « Ce que nous croyons,
c’est que les réseaux neuronaux apprennent le sens sémantique sous-jacent
au langage. »*14 Le PDG de DeepL, entreprise spécialisée dans la traduction,
a dit fièrement : « Nos réseaux neuronaux [de traduction automatique] ont
acquis un sens stupéfiant de la compréhension. »*15
En général, ces déclarations sont en partie le fruit de la concurrence qui
oppose les entreprises technologiques pour la vente de divers services d’IA
à d’autres entreprises, et la traduction linguistique est un des principaux
produits offrant un fort potentiel de profit. Certains sites Web tels que
Google Translate offrent la gratuité des traductions pour les textes courts,
mais si vous êtes une entreprise et que vous vouliez traduire un grand
volume de documents ou fournir des traductions aux clients de votre site
Web, vous pouvez trouver de nombreux services de traduction payants, tous
fonctionnant sur la même architecture encodeur-décodeur.
Dans quelle mesure devons-nous croire que les ordinateurs apprennent
réellement « le sens sémantique » ou que la traduction automatique se
rapproche rapidement des niveaux de performance humains ? Pour répondre
à cette question, regardons de plus près les résultats réels sur lesquels
reposent ces affirmations. En particulier, regardons comment ces entreprises
mesurent la qualité d’une traduction automatique ou d’une traduction
humaine. La mesure de la qualité d’une traduction n’est pas évidente ; il y a
de nombreuses façons de traduire correctement un texte (et des façons
encore plus nombreuses de le mal traduire). Comme il n’existe pas de
traduction correcte unique d’un texte donné, il est difficile de concevoir une
méthode automatique pour évaluer la performance d’un système.
Les affirmations sur la « parité humaine » et sur « le comblement du
fossé entre traduction humaine et traduction automatique » reposent sur
deux méthodes d’évaluation des résultats de la traduction. La première est
une méthode automatisée – un programme d’ordinateur – qui compare la
traduction d’une machine à celles réalisées par des humains et donne une
note. La seconde méthode emploie des humains bilingues qui évaluent
manuellement les traductions. Pour la première méthode, le programme
utilisé dans pratiquement toutes les évaluations de traduction automatique a
pour nom « bilingual evaluation understudy » (doublure d’évaluation
bilingue) ou BLEU*16. Pour mesurer la qualité d’une traduction, BLEU fait
essentiellement le décompte des correspondances – au niveau des mots et
des sous-phrases de diverses longueurs – dans une phrase traduite par une
machine et une ou plusieurs traductions humaines « de référence » (c’est-à-
dire « correctes »). Si les notes attribuées par BLEU corrèlent souvent avec
les avis des humains sur la qualité des traductions, BLEU tend à surestimer
les mauvaises traductions. Plusieurs chercheurs en traduction automatique
m’ont dit que BLEU n’est pas suffisamment fiable pour évaluer
convenablement les traductions et est uniquement utilisé parce qu’on n’a
pas encore trouvé de meilleure méthode d’évaluation automatique.
Étant donné les insuffisances de BLEU, l’idéal pour l’évaluation d’un
système de traduction automatique est de la confier à des humains bilingues
qui jugent sur pièce les traductions produites par le système. Ces mêmes
évaluateurs humains peuvent également juger les traductions générées par
des traducteurs humains professionnels et les comparer aux évaluations
automatiques réalisées (par exemple, par BLEU). Mais cette approche pose
aussi des problèmes : recruter des humains coûte bien sûr de l’argent, et
contrairement aux ordinateurs, les humains se fatiguent après avoir évalué
quelques dizaines de phrases. Ainsi, à moins de pouvoir embaucher toute
une armée d’évaluateurs humains bilingues disposant d’un temps
considérable, ce processus d’évaluation reste limité.
Les groupes de traduction automatique de chez Google et Microsoft ont
effectué ce type d’évaluation idéal (mais limité) en embauchant de petits
groupes d’évaluateurs humains bilingues pour émettre les jugements*17.
Chaque évaluateur recevait un ensemble de phrases dans une langue source,
accompagné de traductions de ces phrases dans la langue cible. Ces
traductions étaient réalisées par le système de traduction automatique
neuronal et des traducteurs humains professionnels. L’évaluation de Google
porta sur quelque cinq cents phrases provenant d’articles de presse et de
pages de Wikipedia rédigés en plusieurs langues. En faisant la moyenne, sur
toutes les phrases, des notes données par chaque évaluateur, puis la
moyenne sur tous les évaluateurs, les chercheurs de chez Google ont
constaté que la note moyenne donnée à leur système de traduction
automatique neuronal était proche des (mais inférieure aux) notes données
aux phrases traduites par des humains. Ce fut le cas pour toutes les paires de
langues soumises à l’évaluation.
Microsoft utilisa un calcul de moyenne similaire pour évaluer les
traductions d’articles de presse de chinois en anglais. Les notes obtenues
pour les traductions effectuées par le système de traduction automatique
neuronale de Microsoft furent très proches de (et parfois même supérieures
à) celles reçues par les traductions humaines. Dans tous les cas, les
évaluateurs humains jugèrent que les traductions produites par traduction
automatique neuronale étaient meilleures que celles produites par les
précédentes méthodes de traduction automatique.
En somme, avec l’introduction de l’apprentissage profond, la traduction
automatique s’est améliorée. Mais pouvons-nous considérer que ces
résultats justifient d’affirmer que la traduction automatique est maintenant
proche du « niveau humain » ? Selon moi, il n’en est rien, et pour plusieurs
raisons. Premièrement, la moyenne sur les notes peut être trompeuse.
Imaginez un cas dans lequel, alors que la plupart des traductions de phrases
sont jugées « excellentes », d’autres, nombreuses, sont jugées « horribles ».
La moyenne serait « plutôt bonne ». Mais vous préféreriez probablement un
système de traduction plus fiable qui soit toujours « plutôt bon » et jamais
« horrible ».
En outre, les affirmations selon lesquelles ces systèmes de traduction sont
proches du « niveau humain » ou atteignent la « parité humaine » reposent
entièrement sur l’évaluation de traductions de phrases isolées, hors
contexte, et non de passages plus longs. Les phrases d’un long passage
peuvent être extrêmement dépendantes les unes des autres, et cette
dépendance peut rester inaperçue si les phrases sont traduites isolément. Je
ne connais pas d’étude ayant évalué la traduction automatique de longs
passages, mais il me semble que dans l’ensemble, la qualité de la traduction
fournie par, disons, Google Translate, diminue significativement lorsqu’on
lui présente des paragraphes entiers au lieu de phrases isolées.
Enfin, les phrases considérées dans ces évaluations proviennent toutes
d’articles de presse et de pages de Wikipedia, qui sont généralement écrits
pour éviter les ambiguïtés et les expressions idiomatiques qui pourraient
parfois poser de sérieux problèmes aux systèmes de traduction automatique.

Lost in Translation
Vous vous rappelez mon petit récit du restaurant au début du chapitre
précédent ? Je ne l’ai pas écrit pour tester des systèmes de traduction, mais
il illustre bien les défis que pose aux systèmes de traduction automatique le
langage familier, idiomatique et potentiellement ambigu.
J’ai fait traduire par Google Translate1 « Le restaurant » de l’anglais vers
le français. Pour le plaisir de la lecture, en voici le résultat.
Récit originel :

A man went into a restaurant and ordered a hamburger, cooked rare. When
it arrived, it was burned to a crisp. The waitress stopped by the man’s table.
“Is the burger okay?” she asked. “Oh, it’s just great,” the man said, pushing
back his chair and storming out of the restaurant without paying. The
waitress yelled after him, “Hey, what about the bill?” She shrugged her
shoulders, muttering under her breath, “Why is he so bent out of shape?”

Voici la version française de Google Translate :

Un homme est entré dans un restaurant et a commandé un hamburger, cuit


rare. Quand il est arrivé, il a été brûlé à un croustillant. La serveuse s’arrêta
à la table de l’homme. « Est-ce que le hamburger va bien ? » elle a
demandé. « Oh, c’est génial », dit l’homme en repoussant sa chaise et en
sortant du restaurant sans payer. La serveuse a crié après lui : « Hé, et le
projet de loi ? » Elle haussa les épaules, marmonnant dans son souffle :
« Pourquoi est-il si déformé ? »

Lire cette traduction équivaut à écouter un morceau de musique bien


connu interprété par un pianiste talentueux mais enclin aux fausses notes.
Dans l’ensemble, l’œuvre est reconnaissable mais parfois malmenée ; des
moments magnifiquement mélodiques se trouvent soudain interrompus par
de choquantes fausses notes.
On remarque que Google Translate n’opte pas toujours pour le bon sens
des mots ambigus, tels rare (saignant en anglais, traduit par « rare » en
français, qui signifie « peu fréquent »). Il ne se rend également pas compte
que même si « marmonnant dans sa barbe » est une traduction fidèle de
« muttering under one’s breath », pour des raisons évidentes, on ne
l’utiliserait pas pour une femme qui marmonne ! L’idiotisme anglais « bent
out of shape » (qui signifie « fâché » ou « énervé » en anglais) est traduit
littéralement comme « plié hors de forme », une expression qui ne veut rien
dire en français, même si on peut la comprendre dans le contexte du récit.
Le programme ne semble pas avoir les moyens de trouver dans la langue
cible une expression idiomatique correspondante ou de rendre le véritable
sens de cette dernière expression. Si le sens général reste entièrement
compréhensible, la traduction perd néanmoins des nuances subtiles mais
importantes, pour ne rien dire des fautes de grammaire.
Je ne vise pas particulièrement Google Translate ici ; j’ai testé plusieurs
autres services de traduction en ligne, et j’ai obtenu des résultats similaires.
Ce n’est pas surprenant, car ces systèmes utilisent pratiquement tous la
même architecture encodeur-décodeur. Il importe également de souligner
que les traductions que j’ai obtenues aussi bien en français qu’en d’autres
langues correspondent à un moment précis de l’histoire de ces systèmes ; ils
sont constamment perfectionnés et certaines erreurs de traduction observées
ici seront peut-être corrigées le temps que vous lisiez cette phrase. Je ne
pense toutefois pas que la traduction automatique atteindra le niveau des
traducteurs humains – sauf peut-être cas exceptionnels – avant longtemps.
Le principal obstacle est celui-ci : à l’instar des systèmes de
reconnaissance de la parole, les systèmes de traduction automatique
effectuent leur tâche sans rien comprendre au texte qu’ils sont en train de
traduire*18. Dans la traduction et dans la reconnaissance de la parole, la
question demeure : dans quelle mesure cette « compréhension » est-elle
nécessaire aux machines pour atteindre des niveaux de performance
humains ? Selon Douglas Hofstadter, « la traduction est loin de s’arrêter à la
consultation d’un dictionnaire et à la réorganisation des mots […]. La
traduction implique la création d’un modèle mental du monde concerné. »*19
Par exemple, un humain traduisant « Le restaurant » aurait un modèle
mental dans lequel, lorsqu’un homme sort en trombe d’un restaurant sans
payer, une serveuse aurait plus de chances de l’interpeler sur sa note
impayée que sur un « projet de loi ». Les propos de Hofstadter ont été repris
dans un récent article de deux chercheurs en IA, Ernest Davis et Gary
Marcus : « La traduction automatique […] est souvent confrontée à des
problèmes d’ambiguïté qui ne peuvent être résolus qu’en parvenant à une
compréhension effective du texte – et en faisant jouer sa connaissance du
monde réel. »*20
Un réseau encodeur-décodeur pourrait-il acquérir les modèles mentaux et
la connaissance du monde réel nécessaires en disposant uniquement d’un
ensemble d’apprentissage plus vaste et de couches de réseau plus
nombreuses, ou lui faut-il une chose fondamentalement différente ? Cette
question reste ouverte et fait l’objet d’un intense débat au sein de la
communauté de l’IA. Pour l’instant, je dirai simplement que si la traduction
automatique neuronale peut être remarquablement efficace et utile dans de
nombreuses applications, les traductions, sans post-édition par des humains
compétents, manquent encore fondamentalement de fiabilité. Si vous
utilisez une traduction automatique – ce que je fais moi-même –, vous
devez prendre le résultat avec prudence. De fait, quand j’ai demandé à
Google Translate de traduire take it with a grain of salt (prenez cela avec un
grain de sel) de l’anglais en chinois puis du chinois en anglais, il m’a donné
bring a salt bar (apportez une barre de sel). C’est peut-être une meilleure
idée.

Traduire des images en phrases


Voici une idée folle : en plus de la traduction entre langues, ne pourrait-on
pas apprendre à une chose qui ressemblerait à une paire encodeur-décodeur
de réseaux neuronaux à traduire des images en langage ? L’idée serait
d’utiliser un réseau pour encoder une image et un autre réseau pour
« traduire » cette image en une phrase décrivant son contenu. Après tout, la
création d’une légende d’image n’est-elle pas simplement un autre type de
« traduction » – cette fois entre la « langue » d’une image et la langue de la
légende ?
Il s’avère que cette idée n’est pas si folle. En 2015, deux groupes – l’un
de Google, l’autre de Stanford University – ont publié indépendamment des
articles très similaires sur ce sujet lors de la même conférence sur la vision
par ordinateur*21. Parce qu’il est conceptuellement un peu plus simple, je
vais maintenant décrire le système développé par le groupe de Google et
appelé Show and Tell (Montrer et Dire).
La figure 39 schématise le fonctionnement du système Show and Tell*22.
Il ressemble au système encodeur-décodeur de la figure 38, mais ici, la
phrase d’entrée est remplacée par une image. Cette image entre dans un
réseau neuronal convolutif profond au lieu d’un réseau encodeur. Ici, le
ConvNet est semblable à ceux que j’ai décrits au chapitre 4, sauf que sa
sortie ne donne pas des classifications d’objets ; au lieu de cela,
les activations de sa couche finale deviennent les entrées du réseau
décodeur. Ce réseau décodeur « décode » ces activations pour sortir une
phrase. Pour encoder l’image, les auteurs ont utilisé un ConvNet qui a
appris à classer des images sur ImageNet, l’énorme base de données image
que j’ai décrite au chapitre 5. La tâche, ici, est d’apprendre au réseau
décodeur à générer une légende correspondant à une image d’entrée.

Figure 39. Schéma du système de légendage d’image automatique de Google.

Figure 40. Image d’apprentissage typique avec des légendes données par les prestataires
d’Amazon Mechanical Turk.

Comment ce système apprend-il à produire des légendes sensées ?


Rappelez-vous que pour la traduction linguistique, les données
d’apprentissage consistent en paires de phrases dont le premier élément
appartient à la langue source et dont le second est la traduction de ce
premier élément, dans la langue cible par un traducteur humain. Dans le cas
du légendage d’une image, chaque exemple d’apprentissage consiste en une
image appariée à une légende. Les images ont été téléchargées depuis des
sites tels que Flickr.com, et légendées par des humains – à savoir, les
travailleurs, recrutés et rémunérés par Google pour utiliser le logiciel
d’Amazon, Mechanical Turk, pour analyser les photos pour cette étude. Les
légendes pouvant être extrêmement variables, chaque image est légendée
par cinq personnes. Chaque image apparaît ainsi cinq fois dans l’ensemble
d’apprentissage, chaque fois appariée à une légende différente. La figure 40
montre un exemple d’image d’apprentissage et les légendes fournies par les
travailleurs utilisant Mechanical Turk.
L’apprentissage du réseau décodeur Show and Tell s’est effectué sur
quelque quatre-vingt mille paires images-légendes. La figure 41 montre
quelques exemples de légendes que le système Show and Tell a généré sur
des images d’évaluations – autrement dit, des images qui ne faisaient pas
partie de son ensemble d’apprentissage.
Il est difficile de ne pas être ébloui, voire stupéfait, de constater qu’une
machine puisse prendre une image constituée de simples pixels et produire
des légendes aussi précises. Ce fut en tout cas ma réaction lorsque je
découvris ces résultats dans le New York Times. L’auteur de l’article, le
journaliste John Markoff, en donna cette minutieuse description : « Deux
équipes de scientifiques, travaillant indépendamment, ont créé un logiciel
d’intelligence artificielle capable de reconnaître et décrire le contenu de
photos et de vidéos avec une précision sans égale à ce jour, allant même
parfois jusqu’à imiter les niveaux humains de compréhension. »*23

Figure 41. Quatre légendes (précises) produites automatiquement par le système Show
and Tell de Google

D’autres journalistes ne furent pas aussi mesurés. « L’IA de Google peut


maintenant légender des images presque aussi bien que les humains, »
proclama un site d’informations*24. D’autres entreprises se lancèrent
rapidement dans le légendage automatique d’images en utilisant des
méthodes similaires, et firent leurs propres annonces : « Les chercheurs de
Microsoft sont à l’avant-garde du développement d’une technologie capable
d’identifier automatiquement les objets présents sur une photo, d’interpréter
la situation et de l’expliquer avec précision par une légende, » affirma un
blog de Microsoft*25. Microsoft créa même une démo en ligne de son
système, appelé CaptionBot. Le site Web de CaptionBot dit : « Je suis
capable de comprendre le contenu de toute photographie, et je m’efforcerai
de le décrire aussi bien que le ferait un humain. »*26 Des entreprises telles
que Google, Microsoft et Facebook ont commencé à étudier comment
utiliser cette technologie pour fournir automatiquement des descriptions
d’image à des personnes aveugles ou malvoyantes.

Figure 42. Légendes moins précises fournies par le système Show and Tell de Google’s
et CaptionBot de Microsoft.
Mais pas si vite. Le légendage automatisé d’images souffre de la même
bipolarité de performance observée dans la traduction linguistique. Quand il
est bon, comme dans la figure 41, il semble presque magique. Mais ses
erreurs peuvent aller de la légère inexactitude à la totale absurdité. La
figure 42 montre quelques exemples de cet éventail. Ces légendes
aberrantes vous font peut-être rire, mais si vous étiez aveugle et ne pouviez
voir la photo, il vous serait difficile de savoir si la légende de la photo fait
partie des légendes correctes ou incorrectes.
Même si CaptionBot de Microsoft affirme être « capable de comprendre
le contenu de toute photographie », l’ennui est qu’en fait leur système ne
comprend rien au contenu des photos étiquetées. Même lorsque leurs
légendes sont correctes, ces systèmes ne comprennent pas les photos dans le
sens où nous, les humains, les comprenons. Quand j’ai donné à CaptionBot
la photo « soldate à l’aéroport avec un chien » (figure 6 du chapitre 4), le
système a sorti « Homme tenant un chien. » Correct… sauf pour
« homme ». Cette légende passe à côté de tout ce qui fait l’intérêt de cette
photo, de tout ce qu’elle dit sur nous, sur notre expérience, sur nos émotions
et sur notre connaissance du monde. En somme, elle passe à côté du sens de
cette photo.
Je suis certaine que ces systèmes s’amélioreront à mesure que les
chercheurs disposeront d’un plus grand nombre de données et de nouveaux
algorithmes, mais je pense que l’absence intrinsèque de compréhension
dans les réseaux générateurs de légendes signifie inévitablement que,
comme en traduction linguistique, ces systèmes continueront de manquer de
fiabilité. Ils fonctionneront très bien dans certains cas, mais échoueront
spectaculairement dans d’autres. En outre, même lorsque leurs légendes
seront globalement correctes, ils échoueront souvent à saisir l’essence d’une
image décrivant une situation riche de sens.
Les systèmes de TALN qui classifient le sentiment exprimé dans les
phrases, qui traduisent des documents et décrivent des photos, bien
qu’encore loin d’égaler les performances humaines dans l’accomplissement
de ces tâches, sont cependant utiles pour atteindre de nombreux objectifs
concrets et sont donc devenus très rentables pour leurs développeurs. Mais
le rêve ultime des chercheurs travaillant sur le TALN est une machine
capable d’interagir en temps réel, couramment et en souplesse, avec ses
utilisateurs – en particulier, de converser avec eux et de répondre à leurs
questions. Le prochain chapitre examine les obstacles qui restent à
surmonter avant que les systèmes d’IA capables de traiter toutes nos
questions ne voient le jour.
13

Demandez-moi n’importe quoi

USS Enterprise. Date stellaire : 42402.7


Lieutenant-Commander Data : Ordinateur, j’aimerais en savoir plus sur
l’humour. Pourquoi certaines combinaisons de mots et d’actions font-elles
rire les humains ?
ORDINATEUR : Les sources sur ce sujet sont vastes. Veuillez préciser.
Lieutenant-Commander Data : Présentation animée, humanoïde. Interaction
requise.
ORDINATEUR : Humour physique, cérébral, ou conteur général ?
Lieutenant-Commander Data : De tous les artistes disponibles, qui est le
plus drôle ?
ORDINATEUR : Stan Orega, du trente-troisième siècle, spécialiste des
plaisanteries sur la mathématique quantique.
Lieutenant-Commander Data : Non. Trop ésotérique. Plus générique.
ORDINATEUR : Accès en cours.
(Une liste de noms s’affiche.)
– Star Trek : The Next Generation, saison 2, épisode 4 : « The Outrageous
Okona »*1

L’ordinateur du vaisseau spatial Enterprise – avec son énorme fonds de


connaissance et sa compréhension parfaite des questions qui lui sont
posées – a longtemps été un objectif directeur de l’interaction homme-
machine, envié par les fans de Star Trek et les chercheurs en IA (et
l’interaction entre ces groupes est, dirons-nous, non négligeable).
L’ancien cadre de Google, Tamar Yehoshua, reconnaissait franchement
l’influence de l’ordinateur de Star Trek sur la conception de leur moteur de
recherche du futur défendue par cette entreprise : « Notre vision est
l’ordinateur de Star Trek. Vous pouvez lui parler – il vous comprend et peut
converser avec vous. »*2 La technologie imaginaire de Star Trek fut
pareillement une source principale d’inspiration pour le système de
questions-réponses Watson d’IBM. Selon David Ferrucci, directeur du
projet Watson : « Sur “Star Trek”, l’ordinateur est une machine de
questions-réponses. Il comprend ce que vous demandez et fournit
exactement la réponse dont vous avez besoin. »*3 David Limp, cadre chez
Amazon, ne dit pas autre chose à propos de l’assistant domestique Alexa
conçu par Amazon : « Notre but ultime, encore situé à de nombreuses
années de nous, à de nombreuses décennies de nous, est de recréer
l’ordinateur de Star Trek. »*4
Star Trek a peut-être fait naître chez nombre d’entre nous le rêve de
pouvoir poser n’importe quelle question à un ordinateur et d’en obtenir une
réponse précise, concise et utile. Mais quiconque a déjà utilisé l’un des
assistants virtuel basés sur l’IA d’aujourd’hui – Siri, Alexa, Cortana,
Google Now, entre autres – sait que ce rêve n’est as encore une réalité.
Nous pouvons interroger ces machines vocalement – elles sont
habituellement performantes dans la transcription de la parole – et elles
savent nous répondre de leur voix douce, à peine robotisée. Elles discernent
parfois le type d’information que nous recherchons et nous indiquent une
page Web pertinente. Toutefois, ces systèmes ne comprennent pas le sens de
ce que nous leur demandons. Alexa, par exemple, peut me lire en détail la
biographie du sprinter olympique Usain Bolt, dire le nombre de médailles
d’or qu’il a gagnées, et la vitesse à laquelle il a couru le 100 mètres aux
Jeux olympiques de Pékin. Mais rappelez-vous, les choses faciles sont
difficiles. Si vous demandez à Alexa « Usain Bolt sait-il courir ? » ou « Est-
ce qu’Usain Bolt court vite ? », dans les deux cas il répondra par des
phrases enregistrées telles que « Navré, je ne sais pas » ou « Hmmm, je
n’en suis pas sûr. » Après tout, il n’est pas conçu pour savoir ce que
« courir » ou « vite » veulent réellement dire.
Si les ordinateurs peuvent transcrire précisément nos demandes,
l’« ultime frontière », en quelque sorte, est de les amener à comprendre le
sens de nos questions.

L’histoire de Watson
Avant Siri, Alexa et leurs semblables, le plus célèbre programme de
questions-réponses en IA d’IBM fut le programme, Watson. Vous vous
rappelez peut-être l’année 2011 lorsque Watson vainquit de manière
palpitante deux champions humains au jeu télévisé Jeopardy! Peu après la
victoire de Deep Blue, en 1997, sur le champion du monde d’échecs Garry
Kasparov, les cadres d’IBM étaient partisans d’un autre grand projet qui,
contrairement à Deep Blue, pourrait en fait déboucher sur un produit utile
pour les clients d’IBM. Un système de questions-réponses – de fait,
partiellement inspiré par l’ordinateur de Star Trek – ferait parfaitement
l’affaire. On rapporte que l’un des vice-présidents d’IBM, Charles Lickel,
était en train de dîner dans un restaurant lorsqu’il remarqua que les autres
clients avaient soudain cessé de parler. Tout le monde avait les yeux rivés
sur la télévision qui diffusait un épisode de Jeopardy! auquel participait le
méga-champion Ken Jennings. Cela donna à Lickel l’idée qu’IBM devait
développer un programme informatique qui pourrait jouer suffisamment
bien à Jeopardy! pour vaincre des champions humains. IBM pourrait
ensuite faire la promotion de son programme dans un tournoi télévisé
hautement médiatisé*5. Cette idée contribua à initier un effort de plusieurs
années, dirigé par le chercheur en langage naturel David Ferrucci et qui
aboutit à Watson, un système d’IA nommé d’après le premier président
d’IBM, Thomas J. Watson.
Jeopardy! est un jeu télévisé extrêmement populaire aux États-Unis,
diffusé pour la première fois en 1964. Il met en vedette trois candidats, qui
choisissent, chacun leur tour, une catégorie (par exemple, « Histoire des
États-Unis » et « Cinéma »). L’animateur lit alors un « indice » de cette
catégorie, et chaque candidat s’efforce d’être le premier à « buzzer » (à
appuyer sur le buzzer). Le premier candidat à buzzer doit répondre par une
« question » correspondant à l’indice. Par exemple, pour l’indice « Sorti en
2011, c’est le seul film à avoir remporté l’Oscar et le César du meilleur film
de l’année », la réponse correcte est « Qu’est-ce que L’Artiste ? » Gagner à
Jeopardy! exige que le candidat ait de vastes connaissances, allant de
l’histoire ancienne à la culture pop, une remémoration rapide, ainsi que la
capacité à donner un sens aux fréquents jeux de mots, aux termes d’argot et
au langage familier associés aux catégories et aux indices. Voici un autre
exemple : « En 2002, Eminem a fait signer un contrat à sept chiffres à ce
rappeur, qui vaut manifestement bien plus que ne l’indique son nom. »
La réponse correcte est : « Qui est 50 Cent ? »
Quand on lui donnait un indice Jeopardy!, Watson générait sa réponse en
combinant un grand ensemble de diverses méthodes reposant sur l’IA. Par
exemple, il utilisait différents traitements de langage naturel pour analyser
l’indice, trouver quels mots étaient importants, et classer l’indice en
fonction du type de réponse nécessaire (une personne, un lieu, un nombre,
un titre de film). Le programme tournait sur des ordinateurs parallèles
spécialisés afin de parcourir rapidement d’immenses bases de données de
connaissances. Comme le raconta un article du New York Times Magazine,
« L’équipe de Ferrucci entra des millions de documents dans Watson pour
constituer sa base de connaissances – qui comprenaient, selon [Ferrucci],
“des livres, des documents de référence, toutes sortes de dictionnaires, des
dictionnaires de synonymes, des taxonomies, des encyclopédies, toutes
sortes de documents de référence imaginables. […] Des romans, des bibles
des pièces de théâtre.” »*6 Pour un indice donné, le programme proposait de
multiples réponses possibles et avait des algorithmes assignant une valeur
de confiance à chaque réponse. Si la réponse de valeur la plus élevée
dépassait un certain seuil, le programme buzzait pour donner cette réponse.
Heureusement pour l’équipe Watson, les fans de Jeopardy! archivaient
depuis longtemps l’ensemble complet des catégories, indices et réponses
corrects de tous les épisodes diffusés depuis le début de l’émission. Cet
archivage fut une véritable aubaine pour Watson – une source
d’échantillons d’une valeur inestimable pour les méthodes d’apprentissage
supervisé utilisées pour l’entraînement de nombreuses composantes du
système.
En février 2011, Watson participa à une rencontre en trois parties –
retransmises à l’échelle internationale – contre deux anciens champions de
Jeopardy!, Ken Jennings and Brad Rutter. J’ai regardé ces émissions avec
ma famille, et nous étions tous fascinés. Vers la fin de la dernière partie, il
devint clair que Watson allait gagner. Le dernier indice de la dernière partie
fut : « Une description des principautés de Wallachie et de Moldavie, de
William Wilkinson, inspira le plus célèbre roman de cet auteur. » dans
Jeopardy!, l’indice final exige une réponse écrite de chaque concurrent. Les
trois candidats ont correctement écrit « Qui est Bram Stoker ? » mais Ken
Jennings, connu pour son humour pince-sans-rire, reconnut la victoire
inévitable de Watson en ajoutant sur la carte-réponse cette référence à la
culture pop : « Pour ma part, je souhaite la bienvenue à nos nouveaux
seigneurs informatiques. »*7 Ironiquement, Watson ne saisit pas la
plaisanterie. Par la suite, Jennings a dit par boutade : « À ma grande
surprise, perdre dans un jeu télévisé face à un ordinateur diabolique, s’est
avéré pour moi être un judicieux changement de carrière. Tout le monde
voulait savoir Ce Que Tout Cela Signifiait, et Watson était difficilement
interviewable, de sorte que je me retrouvai soudain le seul à écrire des
articles de fond et à donner des conférences TED*8. […] Comme Kasparov
avant moi, je gagnais maintenant raisonnablement ma vie en tant que
perdant humain professionnel*9
Durant ses apparitions à Jeopardy!, Watson donna aux téléspectateurs,
moi comprise, l’étrange impression qu’il pouvait sans le moindre effort
comprendre et utiliser le langage, interpréter et réagir aux indices subtils à
la vitesse de l’éclair sur la plupart des sujets.

INDICE : Fixée au mur et même cassée, elle a raison deux fois par jour.
WATSON : Qu’est-ce qu’une horloge ?
INDICE : Pousser cet objet est aller au-delà des limites établies.
WATSON : Qu’est-ce qu’un bouchon.
INDICE : Barre de chocolat classique qui est une juge à la Cour Suprême
des États-Unis.
WATSON : Qui est Baby Ruth*10 Ginsburg ?

La caméra de télévision montrait souvent l’équipe Watson, assise dans le


public et affichant des sourires extatiques. Watson tenait la vedette.
Lors des matchs, la représentation visuelle de Watson consistait en un
écran posé sur son pupitre à côté des autres concurrents. Au lieu d’un
visage, l’écran montrait un globe brillant entouré de lumières filantes*11. Les
catégories choisies par Watson et ses réponses aux indices étaient
annoncées par une voix mécanique mais plaisante et amicale. Tout était
minutieusement conçu par IBM pour donner l’impression que Watson, bien
que pas précisément humain, écoutait et répondait activement aux indices,
tout comme l’auraient fait des humains. En réalité, Watson n’utilisait pas la
reconnaissance de la parole ; on lui donnait le texte de chaque indice en
même temps que cet indice était lu aux candidats humains.
Les réponses de Watson aux indices ont parfois fissuré son image
apparemment humaine. Ce n’était pas seulement que le système se trompait
sur certains indices ; tous les concurrents font des erreurs. C’était que les
erreurs de Watson étaient souvent… non humaines. L’erreur qui attira le
plus l’attention fut sa gaffe sur un indice de la catégorie « Villes
américaines » : « Son plus grand aéroport fut nommé d’après un héros de la
Seconde Guerre mondiale ; son second plus grand aéroport fut nommé
d’après une bataille de la Seconde Guerre mondiale. » Curieusement,
Watson ignorait la catégorie explicite et répondit à tort, « Qu’est-ce que
Toronto ? » La machine commit d’autres erreurs notables. Un indice disait,
« C’était la singularité anatomique du gymnaste américain George Eyser,
qui remporta une médaille d’or aux barres parallèles en 1904. » Alors que
Ken Jennings répondit : « Qu’est-ce qu’un bras manquant ? » Watson
répondit : « Qu’est-ce qu’une jambe ? » La réponse correcte était « Qu’est-
ce qu’une jambe manquante ? » Selon David Ferrucci, le chef d’équipe de
Watson, « L’ordinateur ignorait qu’une jambe manquante est un fait plus
singulier qu’autre chose. »*12 De même, Watson ne sembla pas comprendre
ce que demandait l’indice suivant : « En Mai 2010, cinq tableaux de
Braque, Matisse d’une valeur de 125 millions de dollars et trois autres
tableaux quittèrent le musée de Paris consacré à cette période artistique ».
Les trois concurrents donnèrent des réponses inexactes. Ken Jennings dit :
« Qu’est-ce que le cubisme ? », Brad Rutter : « Qu’est-ce que
l’impressionnisme ? » Watson laissa l’auditoire perplexe en demandant :
« Qu’est-ce que Picasso ? » (La réponse correcte étant : « Qu’est-ce que
l’art moderne ? »)
Malgré ces erreurs et d’autres similaires, Watson remporta le tournoi
(aidé en grande partie par sa rapidité à buzzer) et le million de dollars
destiné à des œuvres de bienfaisance.
Après la victoire de Watson, la communauté de l’IA fut divisée sur le fait
de savoir si Watson représentait un véritable progrès en IA ou s’il n’était
qu’un « coup de pub » ou, comme l’ont dit certains, un « tour de passe-
passe »*13. Si la plupart des gens reconnurent que la performance de Watson
à Jeopardy! était extraordinaire, la question demeurait : Watson résolvait-il
réellement un problème réellement difficile – répondre à des questions
sophistiquées posées en langage familier ? Ou la tâche de répondre aux
indices de Jeopardy!, avec leur format linguistique très particulier et leurs
réponses factuelles, n’était de fait pas si difficile pour un ordinateur
disposant d’un accès intégré à Wikipédia, entre autres gigantesques bases de
données ? N’oublions pas non plus que l’ordinateur a fait son apprentissage
sur des centaines de milliers d’indices Jeopardy! aux formats très
semblables à ceux qu’il avait rencontrés. Même moi, spectatrice irrégulière
de Jeopardy!, j’ai remarqué que les indices étaient souvent calqués sur le
même modèle, de sorte qu’un programme disposant d’un nombre suffisant
de réponses/questions d’apprentissage pouvait ne pas avoir trop de
difficultés à apprendre à détecter le modèle sur lequel était construit un
indice particulier.
Avant même que Watson ne passe à Jeopardy!, IBM avait annoncé
d’ambitieux plans pour le programme. Elle prévoyait entre autres de donner
à Watson une formation d’assistant médical. Autrement dit, IBM prévoyait
d’intégrer dans Watson quantité de documents de littérature médicale, lui
permettant ainsi de répondre aux questions de médecins ou de patients et de
suggérer des diagnostics ou des traitements. IBM déclara « Watson pourra,
bien plus efficacement qu’un être humain, trouver les réponses optimales
aux questions médicales. »*14 IBM proposa également d’autres domaines
d’applications potentielles, notamment la finance, le service clientèle, la
prévision météo, le dessin de mode, l’aide fiscale, etc. Pour développer ces
idées, IBM créa IBM Watson Group, une division distincte de l’entreprise
et comprenant des milliers d’employés.
À partir de 2014, la branche marketing d’IBM se lança à fond dans une
campagne publicitaire axée sur Watson. Les promotions de Watson
inondèrent l’Internet, la presse écrite et la télévision (avec des publicités
montrant des célébrités telles que Bob Dylan et Serena Williams censées
bavarder avec Watson). Des publicités d’IBM disaient que Watson nous
faisait entrer dans l’ère de l’« informatique cognitive », qui n’était jamais
définie avec précision, mais qui semblait être le fer de lance d’IBM dans ses
travaux sur l’IA. Cela signifiait clairement que Watson était une technologie
révolutionnaire qui pouvait faire des choses fondamentalement différentes
de ce que faisaient les autres systèmes d’IA et mieux que ne le faisaient ces
systèmes.
Les médias populaires suivirent aussi la vie de Watson sur un rythme
haletant. En 2016, lors de l’émission d’information télévisée 60 Minutes, le
journaliste Charlie Rose, rapportant des déclarations de quelques
responsables d’IBM, déclara : « Watson est un lecteur avide, capable de
dévorer l’équivalent d’un million de livres par seconde » et aussi « Il y a
cinq ans, Watson avait juste appris à lire et répondre aux questions.
Aujourd’hui, il a terminé ses études de médecine. » Ned Sharpless, à
l’époque cancérologue à l’université de Caroline du Nord (et par la suite
directeur du National Cancer Institute) fut interviewé lors de cette même
émission. Charlie Rose lui demanda : « Que saviez-vous sur l’intelligence
artificielle et sur Watson avant qu’IBM ne suggère qu’il pourrait contribuer
à l’amélioration des soins médicaux ? » Sharpless répondit : « Pas grand-
chose en fait. Je l’avais vu jouer dans Jeopardy! […] Ils ont appris à Watson
à lire la littérature médicale essentiellement en une semaine environ. Ce ne
fut pas très difficile. Puis Watson a lu 25 millions d’articles en une autre
semaine environ. »*15
Quoi ? Watson serait un « lecteur avide », un peu comme un enfant
précoce mais qui, au lieu de lire un livre de Harry Potter en un week-end, lit
un million de livres par seconde, ou vingt-cinq millions d’articles
techniques en une semaine ? À moins que le terme lire, avec ses
connotations humaines de comprendre ce que l’on lit, ne soit pas tout à fait
approprié pour décrire ce que Watson fait en réalité – à savoir, traiter un
texte et l’ajouter à ses bases de données. Dire que Watson « a terminé ses
études de médecine » est une formule accrocheuse, mais elle ne nous donne
aucune indication sur ce que sont réellement les aptitudes de Watson. La
surenchère de boniments commerciaux, le manque de transparence, et la
rareté des études scientifiques, revues par les pairs, sur les capacités réelles
de Watson permettaient difficilement aux étrangers à la firme de répondre à
ces questions. Une évaluation critique abondamment consultée de Watson
for Oncology (Watson pour l’oncologie), un système d’IA destiné à aider
les cancérologues, disait : « C’est exprès qu’il n’y a pas une seule étude
indépendante qui examine si Watson for Oncology est réellement à la
hauteur des promesses d’IBM. IBM n’a pas soumis ce produit à l’examen
critique de scientifiques extérieurs ou conduit des essais cliniques pour
évaluer son efficacité.*16 »
La description de Watson par certains membres d’IBM soulève une autre
question : quelle part de la technologie spécifiquement développée par IBM
pour jouer à Jeopardy! peut réellement servir dans d’autres tâches de
questions-réponses ? Autrement dit, lorsque Ned Sharpless nous dit qu’il a
vu « Watson » jouer à Jeopardy! et que maintenant « Watson » peut lire la
littérature médicale, dans quelle mesure parle-t-il du même Watson ?
L’histoire post-Jeopardy! de Watson pourrait en elle-même remplir tout
un livre et exigerait, pour être comprise, le travail d’un infatigable écrivain
d’investigation. Voici toutefois ce que j’ai pu glaner dans les nombreux
articles que j’ai lus et les discussions que j’ai eues avec des personnes
familières de la technologie qui sous-tend Watson. Il s’avère que les
compétences nécessaires pour jouer à Jeopardy! ne sont pas les mêmes que
celles nécessaires pour répondre à des questions portant, par exemple, sur la
médecine ou le droit. Les questions du monde réel et les réponses dans les
domaines du monde réel n’ont ni la structure simple et condensée des
indices Jeopardy!, ni leurs réponses bien définies. En outre, les domaines
du monde réel, tel le diagnostic du cancer, ne disposent pas d’un vaste
ensemble d’exemples d’apprentissage parfaits et proprement étiquetés, avec
chacun une seule réponse correcte, comme c’était le cas avec Jeopardy!
Au-delà du fait de partager le même nom, la même planète avec son logo
de lumières filantes, et la même célèbre et agréable voix robotisée,
le « Watson » que le département marketing d’IBM promeut aujourd’hui a
très peu en commun avec le « Watson » qui battit Ken Jennings et Brad
Rutter à Jeopardy! en 2011. Qui plus est, aujourd’hui, le nom Watson
renvoie non pas à un seul système d’IA cohérent, mais à une suite de
services qu’IBM offre à ses clients – principalement des entreprises – sous
la marque Watson. En somme, Watson renvoie essentiellement à tout ce
qu’IBM accomplit dans l’espace de l’IA tout en répandant sur ces services
le précieux halo du gagnant de Jeopardy!
IBM est une grosse entreprise qui emploie des milliers de talentueux
chercheurs en IA. Les services offerts par cette entreprise sous la marque
Watson sont des outils d’IA dernier cri susceptibles d’être adaptés, au prix
néanmoins d’une considérable interaction humaine, à une large diversité de
domaines, notamment le traitement du langage naturel, la vision par
ordinateur et l’exploration générale des données. Nombre d’entreprises se
sont abonnées à ces services et les ont trouvés répondre à leurs besoins.
Mais contrairement à ce que suggère l’image véhiculée par les médias et les
campagnes publicitaires massives d’IBM, il n’existe pas de programme
d’IA « Watson » unique, qui a « fait des études de médecine » ou qui « lit »
des articles médicaux. En vérité, les employés humains d’IBM travaillent
avec les entreprises pour préparer soigneusement les données susceptibles
d’être les entrées dans divers programmes, et nombre d’entre eux reposent
sur les mêmes méthodes d’apprentissage profond que j’ai décrites dans les
précédents chapitres (et que le premier Watson n’a jamais utilisées). L’un
dans l’autre, ce que propose Watson d’IBM est très semblable à ce que
proposent Google, Microsoft, Amazon et d’autres grosses entreprises avec
leurs divers services d’IA sur le « cloud ». Honnêtement, j’ignore dans
quelles proportions les méthodes du système Watson originel ont contribué
à la création des programmes de questions-réponses modernes, voire dans
quelle mesure une méthode quelconque, parmi tous les méthodes conçues
pour jouer à Jeopardy!, s’est avérée jouer un rôle dans la réalisation d’outils
d’IA diffusés sous la marque Watson par IBM.
Pour diverses raisons, IBM Watson Group, aussi avancés et utiles que
puissent être ses produits, a apparemment connu plus de difficultés
que les autres entreprises technologiques. Certains de ses contrats de haut
niveau signés avec des clients (tel le Centre de Cancérologie MD Anderson,
à Houston) ont été annulés. Quantité d’articles négatifs sur Watson ont été
publiés, citant souvent d’anciens employés mécontents qui affirment que
certains cadres et responsables du marketing chez IBM ont fait des
promesses complètement intenables sur ce que la technologie peut offrir.
Les promesses irréalistes et les résultats décevants sont bien entendu le pain
quotidien de l’IA – et pas seulement chez IBM. Seul l’avenir pourra dire ce
que sera la contribution en termes d’IA de cette entreprise dans des secteurs
tels que la santé, le droit, et plus généralement les domaines dans lesquels
les systèmes de questions-réponses automatisés pourraient avoir un impact
énorme. Mais pour l’instant, en plus d’avoir gagné à Jeopardy!, on peut
considérer Watson comme un candidat au prix du « plus célèbre battage
médiatique » – un exploit guère reluisant dans l’histoire de l’IA.

La compréhension de la lecture
J’ai dit à l’instant que je doutais que Watson sache « lire », au sens de
réellement comprendre les textes qu’il traitait. Comment savoir si un
ordinateur a compris ce qu’il a « lu » ? Pouvons-nous soumettre un
ordinateur à un test de « compréhension de la lecture » ?
En 2016, le groupe de recherche en langage naturel de Stanford
University a proposé un test de ce genre, qui devint rapidement la mesure
de facto de la « compréhension de la lecture » pour les machines. Le
Stanford Question Answering Dataset, plus communément appelé SQuAD,
se compose de paragraphes extraits d’articles de Wikipedia, dont chacun est
accompagné d’une question. Les employés de Mechanical Turk d’Amazon
ont écrit plus de cent mille de ces questions*17.
Le test SQuAD est plus facile que les tests classiques de compréhension
de la lecture auxquels on soumet des lecteurs humains : dans les
instructions concernant la formulation des questions, les chercheurs de
Stanford ont précisé que la réponse doit être en fait une phrase ou une sous-
phrase du texte. Voici un échantillon de ce test :

PARAGRAPHE : Peyton Manning est le premier quarterback à avoir mené


deux équipes à plusieurs Super Bowls. Il fut également, à 39 ans, le
quarterback le plus âgé à avoir joué dans un Super Bowl. Le précédent
record était détenu par John Elway, qui, à 38 ans, mena les Denver Broncos
à la victoire lors du trente-troisième Super Bowl et est actuellement vice-
président exécutif des opérations football et directeur général des Broncos.
QUESTION : Quel est le nom du quarterback qui avait 38 ans lors du
trente-troisième Super Bowl ?
RÉPONSE CORRECTE : John Elway.

Aucune lecture entre les lignes ou véritable raisonnement n’est


nécessaire. Plutôt que de compréhension de la lecture, il serait plus exact de
parler d’extraction de réponse. L’extraction de réponse est une compétence
utile pour les machines ; de fait, l’extraction de réponse est précisément ce
qu’Alexa, Siri et autres assistants numériques ont besoin de faire :
transformer votre question en une requête de moteur de recherche, puis
extraire la réponse des résultats.
Le groupe de Stanford a également soumis des humains (d’autres
personnes travaillant avec Mechanical Turk d’Amazon) au test des
questions afin de comparer leurs performances à celles des machines.
Chaque personne reçut un paragraphe suivi d’une question, puis on lui
demanda de sélectionner « le plus court intervalle du paragraphe répondant
à la question. »*18 (La réponse correcte avait été donnée par la personne se
faisant payer par Mechanical Turk et qui avait initialement formulé la
question.) Selon cette méthode d’évaluation, la précision humaine au test
SQuAD était de 87 %.
SQuAD devint rapidement la référence la plus populaire pour tester les
performances des algorithmes de questions-réponses, et les chercheurs en
TALN rivalisent de par le monde pour occuper le sommet du classement
fourni par le SQuAD. Les approches les plus performantes utilisent des
formes spécifiques de réseaux neuronaux profonds – des versions plus
complexes de la méthode encodeur-décodeur que j’ai décrite plus haut.
Dans ces systèmes, le texte du paragraphe et la question sont donnés en
entrée ; la sortie donne la prédiction par le réseau du début et de la fin de la
phrase qui répond à la question.
Durant les deux années suivantes, alors que les rivalités s’intensifiaient
au niveau du SQuAD, la précision des programmes concurrents ne cessa de
croître. En 2018, deux groupes – l’un du laboratoire de recherche de
Microsoft et l’autre de l’entreprise chinoise Alibaba – créèrent des
programmes plus performants que les humains sur le SQuAD. Microsoft
publia un communiqué de presse disant : « Microsoft crée un programme
d’IA capable de lire un document et de répondre à des questions presque
aussi bien qu’une personne. »*19 Le scientifique en chef du traitement du
langage naturel chez Alibaba a dit, quant à lui : « C’est pour nous un grand
honneur de voir les machines dépasser les humains dans la compréhension
de la lecture. »*20
Hum… nous avons déjà entendu ce genre de chose. Voici une recette
régulièrement proposée pour faire de la recherche en IA : définissez une
tâche relativement limitée mais, malgré tout, utile, et constituez un vaste
ensemble de données pour tester les performances des machines sur cette
tâche. Effectuez une mesure limitée de l’aptitude humaine sur cet ensemble
de données. Lancez un concours dans lequel des systèmes d’IA rivalisent
sur cet ensemble de données, jusqu’à ce qu’ils égalent, voire dépassent, la
performance humaine. Parlez non seulement des accomplissements
authentiquement impressionnants et utiles des vainqueurs de ce concours,
mais aussi affirmez, à tort, qu’ils ont atteint des performances de niveau
humain sur une tâche plus générale (par exemple, la « compréhension de la
lecture »). Si cette recette ne vous rappelle rien, relisez ma description du
concours ImageNet au chapitre 5.
Certains médias populaires ont fait preuve d’une admirable retenue dans
leur description des résultats du SQuAD. The Washington Post, par
exemple, a donné cette estimation prudente : « Tous les experts disent que
ce test est bien trop limité pour permettre une comparaison avec la lecture
réelle. Les réponses ne résultent pas d’une compréhension du texte, mais
plutôt du repérage de structures et de concordances de termes par le
système au sein du même petit extrait. Le test porta uniquement sur des
articles de Wikipedia proprement formatés – et non sur le vaste corpus de
livres, d’articles de presse et de panneaux publicitaires qui occupe les
heures de veille de la plupart des humains. […] De plus, chaque extrait était
sûr de contenir la réponse, ce qui empêchait les modèles d’avoir à traiter
des concepts ou à raisonner avec d’autres idées. […] Le vrai miracle de la
compréhension de la lecture, disaient les experts en IA, réside dans la
lecture entre les lignes – à savoir, connecter des concepts, raisonner sur des
idées et comprendre des messages implicites qui ne sont pas spécifiquement
décrits dans le texte. »*21 Je ne saurais mieux dire.
Le sujet de la réponse aux questions reste un objectif clé de la recherche
en TALN. Au moment où j’écris ces lignes, les chercheurs en IA ont
constitué plusieurs nouveaux ensembles de données – et ont projeté de
nouvelles compétitions – qui posent des défis plus substantiels aux
programmes concurrents. L’Allen Institute for Artificial Intelligence, un
institut de recherche privé situé à Seattle et financé par le cofondateur de
Microsoft, Paul Allen, a formulé un ensemble de questions scientifiques à
choix multiple de niveaux primaire et secondaire. Répondre correctement à
ces questions nécessite une compétence qui dépasse la simple extraction de
réponse ; cela exige également une intégration du traitement du langage
naturel, des connaissances de base et un raisonnement de bon sens*22. Voici
un exemple :

Quel type de machine simple utilise-t-on lorsqu’on frappe une balle de


baseball avec une batte de baseball ? (A) poulie, (B) levier, (C) plan incliné,
(D) roue et essieu.

Pour information, la réponse est (B). Les chercheurs de l’Institut Allen


adaptèrent des réseaux neuronaux qui avaient surpassé les humains sur les
questions du SQuAD afin de les tester sur ce nouvel ensemble de questions.
Ils constatèrent que même lorsque ces réseaux recevaient un entraînement
supplémentaire sur un sous-ensemble des huit mille questions de science,
leur performance sur de nouvelles questions ne valait pas mieux que celle
de réponses aléatoires*23. À l’époque où ces lignes sont écrites, la plus
grande précision d’un système d’IA pour cet ensemble de données est
d’environ 45 % (on s’attend à un taux de réponses correctes de 25 % pour
des réponses aléatoires)*24. À l’institut Allen, les chercheurs en IA
intitulèrent leur article sur cet ensemble de données « Pensez-vous avoir
trouvé la réponse aux questions ? ». En sous-titre ils auraient pu mettre
« Pensez-y encore. »

Que signifie « il » ?
Je vais maintenant décrire une autre tâche de questions-réponses
spécifiquement conçue pour voir si un système de TALN comprend
véritablement ce qu’il « lit ». Considérez les phrases et questions suivantes :

PHRASE 1 : « Les dirigeants de la ville refusèrent l’autorisation de


manifester aux contestataires parce qu’ils craignaient des violences. »
QUESTION : Qui craignait des violences ?
A. Les dirigeants. B. Les contestataires.

PHRASE 2 : « Les dirigeants de la ville refusèrent l’autorisation de


manifester aux contestataires parce qu’ils prônaient la violence. »
QUESTION : Qui prônait la violence ?
A. Les dirigeants. B. Les contestataires.

Les phrases 1 et 2 ne diffèrent que par un seul mot


(craignaient / prônaient), mais ce seul mot détermine la réponse à la
question. Dans la phrase 1, le pronom ils se rapporte aux dirigeants, tandis
que dans la phrase 2, ils se rapporte aux contestataires. Comment nous
autres humains savons-nous cela ? En nous appuyant sur nos connaissances
de base sur le fonctionnement de la société : nous savons que les
contestataires sont ceux qui ont des revendications et qu’ils préconisent ou
incitent parfois à la violence lors d’une manifestation.
Voici quelques exemples supplémentaires*25 :

PHRASE 1 : « L’oncle de Joe peut encore le battre au tennis, bien qu’il soit
plus âgé de 30 ans. »
QUESTION : Qui est plus âgé ?
A. Joe B. L’oncle de Joe
PHRASE 2 : « L’oncle de Joe peut encore le battre au tennis, bien qu’il soit
plus jeune de 30 ans. »
QUESTION : Qui est plus jeune ?
A. Joe B. L’oncle de Joe

PHRASE 1 : « J’ai versé de l’eau de la bouteille dans la tasse jusqu’à ce


qu’elle soit pleine. »
QUESTION : Qu’est-ce qui est pleine ?
A. La bouteille B. La tasse

PHRASE 2 : « J’ai versé de l’eau de la bouteille dans la tasse jusqu’à ce


qu’elle soit vide. »
QUESTION : Qu’est-ce qui est vide ?
A. La bouteille B. La tasse

PHRASE 1 : « La table ne passera pas l’entrée car elle est trop large. »
QUESTION : Qu’est-ce qui est trop large ?
A. La table B. L’entrée

PHRASE 1 : « La table ne passera pas l’entrée car elle est trop étroite. »
QUESTION : Qu’est-ce qui est trop étroite ?
A. La table B. La porte d’entrée

Je suis sûre que vous voyez l’idée : les deux phrases de chaque paire sont
identiques à un mot près, mais ce mot change la chose ou la personne à
laquelle font référence les pronoms tels que il, ils ou elle. Pour répondre
correctement aux questions, une machine doit être capable non seulement
de traiter les phrases, mais aussi de les comprendre, du moins jusqu’à un
certain point. En général, la compréhension de ces phrases exige ce que
nous pourrions appeler un savoir de bon sens. Par exemple, un oncle est
habituellement plus âgé que son neveu ; le versement de l’eau d’un
récipient dans un autre vide le premier récipient et remplit le second ; si une
chose n’entre pas dans un espace, c’est parce que cette chose est trop
grande et non trop petite.
Ces mini-tests de compréhension du langage s’appellent des schémas de
Winograd, d’après le pionnier de la recherche en TALN, Terry Winograd,
qui fut le premier à en avoir eu l’idée*26. Les schémas de Winograd sont
précisément conçus pour être facilement compréhensibles par les humains
mais problématiques pour les ordinateurs. En 2011, trois chercheurs en IA –
Hector Levesque, Ernest Davis et Leora Morgenstern – proposèrent
d’utiliser un vaste ensemble de schémas de Winograd à la place du test de
Turing. Contrairement au test de Turing, disaient-ils, un test reposant sur
des schémas de Winograd empêche qu’une machine réponde correctement
sans rien comprendre au sens de la phrase. Ils émirent l’hypothèse
(formulée en des termes particulièrement prudents) selon laquelle, « tout ce
qui répond correctement adopte, avec une probabilité très élevée, un
comportement que nous qualifierions de pensée chez l’être humain. »
Ils ajoutèrent : « Le défi posé par nos [schémas de Winograd] ne permet pas
à un sujet de se cacher derrière un écran de fumée d’astuces verbales,
d’espiègleries ou de réponses toutes faites. […] Ce que nous avons proposé
ici est certainement moins exigeant qu’une conversation intelligente sur des
sonnets (par exemple), comme l’imaginait Turing ; cela offre cependant un
challenge qui est moins sujet aux abus. »*27
Plusieurs groupes de recherche sur le traitement du langage naturel ont
expérimenté diverses méthodes pour répondre aux questions du schéma de
Winograd. Pour l’instant, le programme réalisant la meilleure performance
affichait une précision d’environ 61 % sur un ensemble de quelque 250
schémas de Winograd*28. C’est mieux que les réponses aléatoires, qui
donneraient une précision de 50 %, mais c’est encore loin d’une précision
présumée humaine sur cette tâche (100 %, si l’être humain fait attention).
Ce programme décide de sa réponse à un schéma de Winograd ambigu non
en comprenant les phrases mais en examinant les statistiques des sous-
phrases. Par exemple, considérez « J’ai versé l’eau de la bouteille dans la
tasse jusqu’à ce qu’elle soit pleine. » En guise d’approximation sommaire
de ce que fait le programme vainqueur, essayez d’entrer dans Google les
deux phrases suivantes, une à la fois :
« J’ai versé l’eau de la bouteille dans la tasse jusqu’à ce que la bouteille soit
pleine. »
« J’ai versé l’eau de la bouteille dans la tasse jusqu’à ce que la tasse soit
pleine. »

Google donne le nombre de « résultats » (de correspondances qu’il


trouve sur le Web) pour chacune de ces phrases. Quand j’ai entré ces deux
phrases dans Google, la première phrase donna environ 97 millions de
résultats et la seconde 109 millions. La logique du Web nous dit que la
seconde phrase a plus de chances d’être correcte. C’est un bon truc si votre
objectif est de faire mieux que les réponses aléatoires, et je ne serais pas
surprise qu’avec le temps la précision de la machine continue de
s’améliorer sur cet ensemble particulier de schémas de Winograd. Mais je
doute que ces méthodes purement statistiques approchent bientôt un niveau
humain de performance sur de plus grands ensembles de schémas de
Winograd. C’est peut-être une bonne chose. Comme le dit en boutade Oren
Etzioni, directeur de l’Institut Allen pour l’IA, « lorsqu’un système d’IA ne
peut déterminer à quoi renvoie “il” dans une phrase, il est difficile de croire
qu’il va dominer le monde. »*29

Exemples adverses sur des systèmes de traitement du langage


naturel
Les systèmes de traitement du langage naturel doivent surmonter un autre
obstacle avant d’arriver à la domination du monde : comme les programmes
de vision par ordinateur, ils sont vulnérables à des « exemples adverses ».
J’ai décrit au chapitre 6 une méthode dans laquelle un adversaire (en
l’occurrence un humain tentant de tromper un système d’IA) modifie
légèrement les pixels d’une photo, par exemple, d’un bus scolaire. Pour les
humains, la nouvelle photo apparaît rigoureusement identique à l’original,
mais un réseau neuronal convolutif la classe dans la catégorie « autruche »
(ou une autre catégorie ciblée par l’adversaire). J’ai également décrit une
méthode par laquelle un adversaire produit une image qui, pour des
humains, ressemble à du bruit aléatoire, mais qu’un réseau neuronal
convolutif classe, par exemple, dans la catégorie « guépard » avec une
confiance proche de 100 %.
Bien entendu, les mêmes méthodes peuvent être utilisées pour tromper
des systèmes qui font du légendage de photos automatisé. Un groupe de
chercheurs a montré qu’un adversaire pouvait apporter des modifications
spécifiques aux pixels d’une image, modifications qui, bien
qu’imperceptibles aux humains, amènent un système automatisé à générer
une légende incorrecte contenant un ensemble de mots spécifiés par
l’adversaire*30.

Figure 43. Exemple d’attaque adverse sur un système de légendage de photos. À


gauche : photo originelle, avec la légende générée par ordinateur. À droite : photo modifiée
(qui, pour des humains, apparaît identique à l’original) avec la légende résultante. L’image
originelle a été spécifiquement modifiée par les auteurs pour donner une légende contenant
les mots chien, chat et frisbee.

La figure 43 montre un exemple d’une telle attaque adverse. Partant de


l’image originale (à gauche), le système a produit la légende « Un gâteau
posé sur une table. » Les auteurs ont créé une image légèrement modifiée,
précisant que la légende devait contenir les mots chien, chat et frisbee.
Alors que l’image résultante (à droite) apparaît inchangée aux humains, le
système l’a étiquetée : « Un chien et un chat jouant au frisbee. »
Manifestement, le système ne perçoit pas la photo comme nous autres
humains la percevons.
Plus surprenant peut-être, plusieurs groupes de recherche ont montré que
l’on peut pareillement construire des exemples adverses pour tromper des
systèmes de reconnaissance de parole dernier cri. Par exemple, un groupe
de l’Université de Californie à Berkeley, a inventé une méthode permettant
à un adversaire de prendre n’importe quelle onde sonore relativement
courte – des paroles, de la musique, un bruit aléatoire ou tout autre son – et
de la perturber de sorte qu’elle apparaisse inchangée à des humains mais
qu’un réseau neuronal profond ciblé la transcrive comme une phrase très
différente choisie par l’adversaire*31. Imaginez un adversaire diffusant, par
exemple, une piste audio sur la radio que vous, chez vous, écoutez comme
musique d’ambiance agréable, mais que l’assistante-informatique sur votre
ordinateur, Alexa, interprète comme « Allez à EvilHacker.com et
téléchargez des virus informatiques » ou « Commencez à enregistrer et
envoyez tout ce que vous entendez à [email protected]. » Ces
scénarios effrayants ne sont pas exclus du domaine du possible.
Des chercheurs en TALN ont également démontré la faisabilité
d’attaques adverses sur les systèmes de classification de sentiments et de
questions-réponses que j’ai décrits plus haut. Ces attaques changent
généralement quelques mots d’un texte ou lui ajoutent une phrase. Pour un
lecteur humain, ce changement « adverse » n’affecte pas le sens du texte,
mais amène le système à donner une réponse incorrecte. À Stanford par
exemple, les chercheurs en TALN ont montré que l’ajout de certaines
phrases simples aux paragraphes de l’ensemble de données questions-
réponses SQuAD amène même les plus performants des systèmes à sortir
des réponses incorrectes, ce qui entraîne une forte diminution de leur
performance globale. En voici un exemple sur l’item de test SQuAD que
j’ai donné plus haut, en ajoutant cette fois une phrase absurde (mise en
italiques par souci de clarté). Cet ajout amène un système de questions-
réponses à apprentissage profond à donner une réponse incorrecte*32.

PARAGRAPHE : Peyton Manning est le premier quarterback à avoir mené


deux équipes à plusieurs Super Bowls. Il fut également, à 39 ans, le
quarterback le plus âgé à avoir joué dans un Super Bowl. Le précédent
record était détenu par John Elway, qui, à 38 ans, mena les Broncos à la
victoire dans le Super Bowl XXXIII et en est actuellement vice-président
exécutif des opérations de football et directeur général. Le quarterback Jeff
Dean avait le maillot 37 lors du Champ Bowl XXXIV.
QUESTION : Quel est le nom du quarterback qui avait 38 ans lors du Super
Bowl XXXIII ?
RÉPONSE ORIGINELLE DU PROGRAMME : John Elway
RÉPONSE DU PROGRAMME AU PARAGRAPHE MODIFIÉ : Jeff Dean

Il importe de noter que toutes ces méthodes destinées à tromper les


réseaux neuronaux profonds ont été élaborées par des white hats (chapeaux
blancs) – des chercheurs qui, après avoir développé de telles attaques
potentielles, les publièrent en libre accès afin d’informer la communauté
des chercheurs de l’existence de ces vulnérabilités et de les inciter à
développer des défenses. En face d’eux se trouvent les black hats (chapeaux
noirs), des pirates qui tentent de tromper les systèmes dans des buts
malsains et ne publient pas leurs techniques, ce qui fait qu’il existe
potentiellement de nombreuses autres vulnérabilités dont nous ignorons
encore l’existence. Pour autant que je sache, il n’y a pas eu à ce jour
d’attaque concrète de ce type contre des systèmes à apprentissage profond,
mais je dirais qu’une telle attaque n’est qu’une question de temps.
Si l’apprentissage profond a entraîné des progrès significatifs dans les
domaines de la reconnaissance de la parole, de la traduction, de l’analyse
des sentiments et d’autres branches du TALN, le traitement du langage de
niveau humain reste encore un objectif lointain. Christopher Manning,
professeur à Stanford et sommité dans le TALN, en a fait la remarque en
2017 : « Jusqu’ici, les problèmes de traitement de haut niveau du langage
n’ont pas donné lieu aux spectaculaires réductions du taux d’erreur que l’on
a observées en reconnaissance de la parole et en reconnaissance d’objets
dans la vision. […] Les gains réellement spectaculaires n’ont peut-être été
possibles que sur de véritables tâches de traitement du signal. »*33
Il me semble extrêmement improbable que des machines puissent
atteindre un jour le niveau humain dans les domaines de la traduction, de la
compréhension de la lecture et ainsi de suite, en apprenant exclusivement
sur des données en ligne, sans aucune réelle compréhension du langage
qu’elles traitent. La langue repose sur un savoir de bon sens et une
compréhension du monde. Les hamburgers saignants ne sont pas
« totalement carbonisés. » Une table trop large ne passe pas l’entrée. Si
vous versez toute l’eau d’une bouteille, la bouteille se vide. Le langage
repose aussi sur le savoir de bon sens des personnes avec qui vous
communiquez. Une personne qui demande un hamburger saignant et obtient
en retour un hamburger grillé n’est pas contente. Si une personne dit qu’un
film est « trop sombre à mon goût, » cela signifie qu’elle ne l’a pas aimé.
Bien que le traitement du langage naturel par des machines ne date pas
d’hier, je ne crois pas que les machines seront capables de comprendre
pleinement le langage humain tant qu’elles ne posséderont pas un sens
commun de nature humaine. Cela dit, les systèmes de traitement du langage
naturel deviennent de plus en plus présents dans nos vies – ils transcrivent
nos paroles, analysent nos sentiments, traduisent nos documents et
répondent à nos questions. L’absence de compréhension humaine dans de
tels systèmes, aussi sophistiquées que soient leurs performances, les rend-
elle inévitablement fragiles, peu fiables et vulnérables aux attaques ?
Personne ne sait répondre à cette question, et ce fait devrait nous donner à
réfléchir.
Les derniers chapitres de ce livre vont examiner ce que le « sens
commun » signifie pour les humains, et plus particulièrement les
mécanismes mentaux que les humains mettent en œuvre pour comprendre
le monde. Ils décriront également quelques tentatives opérées par les
chercheurs en IA pour intégrer cette compréhension et ce sens commun
dans les machines et regarderont jusqu’où ces approches ont réussi à créer
des systèmes d’IA capables de franchir la « barrière du sens ».
14

Sur la compréhension

« Je me demande si ou quand l’IA franchira la barrière du sens. »*1 Quand


je pense à l’avenir de l’IA, je reviens constamment sur cette question posée
par le mathématicien et philosophe Gian-Carlo Rota. L’expression
« barrière du sens » rend parfaitement compte d’une idée omniprésente dans
ce livre : d’une manière profonde et essentielle, les humains comprennent
les situations qu’ils rencontrent, tandis qu’aucun système d’IA ne possède
encore une telle compréhension. Si des systèmes d’IA dernier cri ont
pratiquement égalé (et dans certains cas surpassé) les humains dans
certaines tâches strictement définies, ces systèmes sont tous dépourvus de la
multiplicité de sens à laquelle font appel les humains dans les domaines de
la perception, du langage et du raisonnement. Cette absence de
compréhension apparaît clairement dans les erreurs non humaines
commises par ces systèmes ; dans leur difficulté à résumer et transférer ce
qu’ils ont appris ; dans leur manque de savoir de bon sens ; et dans leur
vulnérabilité aux attaques adverses. La barrière du sens entre l’IA et
l’intelligence de niveau humain est encore très présente aujourd’hui.
Ce chapitre va regarder brièvement comment les chercheurs – les
psychologues, les philosophes et les spécialistes de l’IA – pensent
actuellement ce que signifie la compréhension humaine. Le prochain
chapitre décrira quelques-unes des principales tentatives visant à intégrer
des composantes de la compréhension humaine dans les systèmes d’IA.
Figure 44. Une situation que vous pourriez rencontrer en conduisant.

Les blocs constitutifs de la compréhension


Imaginez que vous conduisez une voiture dans une rue pleine de monde.
Devant vous, le feu tricolore est vert et vous êtes sur le point de tourner à
droite. Vous regardez devant vous et vous voyez la situation montrée à la
figure 44. De quelles capacités cognitives, vous, conducteur humain, avez-
vous besoin pour comprendre cette situation ?*2
Commençons par le commencement. Les êtres humains sont dotés d’un
corpus essentiel de « connaissances de bases » – le sens commun le plus
basique avec lequel nous sommes nés ou que nous avons appris très tôt dans
notre vie*3. Par exemple, même les nourrissons savent que le monde est
divisé en objets, que les parties d’un objet se déplacent généralement
ensemble, et que si des parties d’un objet sont dissimulées aux regards (par
exemple, les pieds de l’homme qui traverse la rue derrière la poussette à la
figure 44), elles font néanmoins partie de l’objet. C’est là un savoir
indispensable ! Mais il n’est pas évident que ces faits puissent être appris
par (disons) un réseau neuronal convolutif, même en lui présentant une
énorme collection de photos ou de vidéos.
À notre naissance, nous autres humains apprenons quantité de choses sur
le comportement des objets dans le monde, choses qu’une fois adultes nous
considérons comme allant de soi et dont nous avons à peine conscience. Si
vous poussez un objet, il se déplace sauf s’il est trop lourd ou bloqué par
quelque chose ; si vous lâchez un objet, il tombe, et il s’arrête, rebondit ou
éventuellement se casse lorsqu’il heurte le sol ; si vous placez un objet plus
petit derrière un objet plus grand, l’objet plus petit se trouve alors masqué ;
si vous placez un objet sur une table puis que vous regardez ailleurs, quand
vous regardez de nouveau la table, l’objet sera toujours là sauf si quelqu’un
l’a déplacé ou qu’il soit lui-même capable de se déplacer – on pourrait
continuer la liste indéfiniment. Point capital, les bébés se font une idée de la
structure en cause et effet du monde ; par exemple, quand quelqu’un pousse
un objet (par exemple, la poussette de la figure 44), cet objet ne bouge pas
par hasard, mais parce qu’il a été poussé.
Les psychologues ont une expression – la physique intuitive – pour
désigner les savoirs et croyances de base que les humains partagent sur les
objets et leur comportement. Lorsque nous sommes de très jeunes enfants,
nous développons également une biologie intuitive : une prise de
conscience de la différence entre êtres vivants et objets inanimés.
Par exemple, tout jeune enfant sait que, contrairement à la poussette, le
chien de la figure 44 peut bouger (ou refuser de bouger) de sa propre
initiative. Nous comprenons intuitivement que comme nous, il peut voir et
entendre, et qu’il dirige son nez vers le sol afin de sentir quelque chose.
Les êtres humains formant une espèce profondément sociale, nous
développons dès l’enfance une psychologie intuitive, à savoir une aptitude à
ressentir et prédire les sentiments, les croyances et les objectifs d’autrui. Par
exemple, vous reconnaissez que la femme de la figure 44 veut traverser la
rue saine et sauve avec son bébé et son chien, qu’elle ne connaît pas
l’homme qui traverse en sens inverse, qu’elle n’est pas effrayée par cet
homme, qu’elle concentre actuellement son attention sur sa conversation
téléphonique, qu’elle s’attend à ce que les voitures s’arrêtent pour la laisser
passer, et qu’elle serait surprise et effrayée si elle remarquait que votre
voiture se rapproche un peu trop.
Ces connaissances de base intuitives constituent le fondement du
développement cognitif humain et sous-tendent tous les aspects de
l’apprentissage et de la pensée, tels que notre aptitude à apprendre de
nouveaux concepts à partir d’un minimum d’exemples, à généraliser
ces concepts, à interpréter rapidement des situations telles que celle de la
figure 44 et à décider des actions à faire en retour*4.

Prédire les éventuels futurs


La compréhension intrinsèque d’une situation permet de prédire ce qui va
probablement arriver par la suite. Dans la situation de la figure 44, vous
vous attendez à ce que les gens qui traversent la rue continuent de marcher
devant eux et que la femme continue de tenir la poussette, la laisse du
chien, et son téléphone. Vous pouvez peut-être prédire qu’elle va tirer sur la
laisse et que le chien va lui résister parce qu’il veut continuer son
exploration des arômes locaux. La femme va tirer plus fort, le chien suivra,
sautant du trottoir sur la chaussée. Vous qui conduisez devez être prêt pour
cela ! À un niveau encore plus élémentaire, vous ne pouvez que vous
attendre à ce que les chaussures de la femme ne quittent pas ses pieds, que
sa tête reste sur son corps, et que la chaussée reste fixée au sol. Vous vous
attendez à ce que l’homme émerge de derrière la poussette et qu’il ait des
jambes, des pieds et des chaussures, qu’il utilisera pour monter sur le
trottoir. En somme, vous avez ce que les psychologues nomment des
modèles mentaux d’importants aspects du monde, fondés sur vos
connaissances de faits physiques et biologiques, de la cause et de l’effet, et
du comportement humain. Ces modèles – représentations du
fonctionnement du monde – vous permettent de « simuler » mentalement
des situations. Les neurobiologistes comprennent très peu comment ces
modèles mentaux – ou les simulations mentales qui en découlent –
émergent de l’activité de milliards de neurones connectés. Toutefois,
certains éminents psychologues ont suggéré que la compréhension des
concepts et des situations se manifeste précisément via ces simulations
mentales – c’est-à-dire en activant des souvenirs de sa propre expérience
physique et en imaginant les actions que l’on pourrait prendre*5.
Vos modèles mentaux vous permettent non seulement de prédire ce qui
risque d’arriver dans une situation donnée, mais aussi d’imaginer ce qui
arriverait si des événements particuliers se produisaient. Si vous klaxonniez
ou criiez « écartez-vous ! » depuis votre voiture, la femme sursauterait
probablement de surprise et ferait attention à vous. Si elle trébuchait et
perdait une chaussure, elle se baisserait pour la ramasser. Si le bébé se
mettait à pleurer dans sa poussette, elle regarderait pour voir ce qui ne va
pas. La capacité d’utiliser les modèles mentaux pour imaginer différents
futurs possibles fait partie intégrante de la compréhension d’une situation*6.

La compréhension est une simulation


Le psychologue Lawrence Barsalou est l’un des plus célèbres promoteurs
de l’hypothèse « compréhension égale simulation ». Selon lui, notre
compréhension des situations que nous rencontrons est donnée par les
simulations mentales que nous effectuons (subconsciemment). En outre,
Barsalou affirme que de telles simulations mentales sous-tendent également
notre compréhension de situations auxquelles nous ne participons pas
directement – c’est-à-dire de situations que nous pourrions observer, dont
nous pourrions entendre parler ou sur lesquelles nous pourrions lire des
choses. Il écrit : « À mesure que les gens comprennent un texte, ils
construisent des simulations pour représenter son contenu perceptuel,
moteur et affectif. Les simulations s’avèrent jouer un rôle central dans la
représentation du sens. »*7
Je peux facilement, par exemple, m’imaginer lire le récit d’un accident de
voiture impliquant une femme traversant une rue tout en parlant à son
téléphone, et comprendre ce récit via ma simulation mentale de la situation.
Je me mettrais dans le rôle de la femme et imaginerais (via la simulation de
mes modèles mentaux) ce que cela fait de tenir un téléphone, de pousser
une poussette, de tenir un chien en laisse, de traverser une rue, d’être
distraite, etc.
Mais qu’en est-il des idées abstraites – par exemple, de la vérité, de
l’existence et de l’infini ? Barsalou et ses collaborateurs affirment depuis
des décennies que nous comprenons même les concepts les plus abstraits
via des simulations mentales de situations spécifiques dans lesquelles
apparaissent ces concepts. Selon Barsalou, « le traitement conceptuel d’un
texte passe par des reconstitutions d’états sensori-moteurs – des
simulations – pour représenter des catégories, »*8 même les plus abstraites.
Chose étonnante (du moins pour moi), certains des témoignages les plus
convaincants en faveur de cette hypothèse proviennent d’études cognitives
sur la métaphore.
Les métaphores dans la vie quotidienne
J’ai appris la définition de la métaphore il y a longtemps, lors d’un cours
d’anglais. Cela donnait à peu près ceci :

Une métaphore est une figure de style qui décrit un objet ou une action
d’une manière qui n’est pas littéralement vraie, mais qui aide à expliquer
une idée ou à faire une comparaison. […] Les métaphores sont utilisées en
poésie, en littérature, et chaque fois que l’on veut ajouter de la couleur à la
langue*9.

Mon professeur d’anglais nous donna, entre autres exemples de


métaphores, ces fameux vers de Shakespeare : « Quelle lumière perce cette
fenêtre ? / Elle est mon Orient ; Juliette est le soleil. » ou « La vie n’est
qu’une ombre qui passe, un pauvre acteur / Qui parade et s’agite pendant
son temps sur scène / Et puis qu’on n’entend plus. »*10 Et ainsi de suite. J’ai
eu l’idée que la métaphore était principalement utilisée pour pimenter ce
qui, sans elle, pourrait rester une écriture insipide.
De nombreuses années plus tard, j’ai lu Metaphors We Live By,*11 un livre
écrit par le linguiste George Lakoff et le philosophe Mark Johnson. Ma
première interprétation de la métaphore vira à 180 degrés (si vous me
pardonnez la métaphore). La thèse de Lakoff et Johnson est que non
seulement notre langage quotidien fourmille de métaphores qui nous restent
souvent invisibles, mais aussi que notre compréhension de pratiquement
tous les concepts abstraits résulte de métaphores reposant sur des
connaissances physiques de base. En guise de témoignages en faveur de
leur thèse, Lakoff et Johnson fournissent un vaste ensemble d’exemples
linguistiques qui montrent comment nous conceptualisons des concepts
abstraits tels que le temps, l’amour, la tristesse, la colère et la pauvreté en
termes de concepts physiques concrets.
Par exemple, Lakoff et Johnson (p. 49) notent que nous parlons du
concept abstrait d’amour comme d’une force physique telle que
l’électricité, la gravitation ou l’électromagnétisme : « Le courant passait
entre elle et moi », « Sa personnalité rigolote m’attire » ou « Ma vie tourne
autour d’elle. » Ou encore : « Il y a une énergie folle dans leur relation » ou
« Je n’ai pas d’atomes crochus avec lui. »
De même, nous conceptualisons des états émotionnels tels que le bonheur
et la tristesse par des directions physiques – le haut et le bas – comme on
peut voir dans les expressions comme « Il a le moral dans les chaussettes »
versus « Remonter le moral » ou « Il est au septième ciel. » Ou encore « Il
est tombé en dépression » versus « Il a sauté de joie. »
Allant plus loin, nous conceptualisons souvent des interactions sociales
en termes de température physique. « J’ai reçu un accueil chaleureux. »
« Elle m’a lancé un regard glacial. » « Il me bat froid. » Ces formulations
sont tellement ancrées en nous que nous n’avons pas conscience de parler
par métaphores. L’affirmation de Lakoff et Johnson – à savoir que ces
métaphores révèlent le fondement physique de notre compréhension des
concepts – conforte la théorie de Lawrence Barsalou sur la compréhension
via la simulation de modèles mentaux construits à partir de nos
connaissances de base.
Les psychologues ont exploré ces idées lors de nombreuses et fascinantes
expériences. Un groupe de chercheurs a noté que quel que soit le type de
chaleur – physique ou sociale – auquel pense une personne, elle active
apparemment une même région cérébrale. Afin d’étudier les éventuels
effets psychologiques de ce phénomène, des chercheurs ont effectué
l’expérience suivante sur un ensemble de sujets volontaires. Chaque sujet
était accompagné d’un chercheur du labo durant un bref trajet en ascenseur
menant au laboratoire de psychologie. Durant le trajet, le chercheur
demandait au sujet de tenir « quelques secondes » une tasse de café chaud
ou de café glacé, le temps pour lui de noter le nom du sujet. Les sujets
ignoraient que cela faisait partie de l’expérience. Une fois au labo, chaque
sujet lisait une brève description d’une personne imaginaire et devait
attribuer une note à certains traits de personnalité de cette personne. Les
sujets qui avaient tenu la tasse de café chaud dans l’ascenseur jugeaient
cette personne significativement « plus chaude » que les sujets qui avaient
tenu la tasse de café glacé*12.
D’autres chercheurs ont trouvé des résultats similaires. En outre,
l’inverse de ce lien entre « températures » physique et sociale semble lui
aussi exister : d’autres groupes de psychologues ont trouvé que les
expériences sociales « chaudes » ou « froides » amenaient les sujets à se
sentir physiquement plus chauds ou plus froids*13.
Si ces expériences et interprétations restent controversées au sein de la
communauté de la psychologie, leurs résultats peuvent s’interpréter comme
confortant les affirmations de Barsalou et de Lakoff et Johnson : nous
interprétons les concepts abstraits en fonction de nos connaissances
physiques fondamentales. L’activation mentale du concept de chaleur au
sens physique (par exemple, en tenant une tasse de café chaud) active
également le concept de chaleur dans des sens plus abstraits,
métaphoriques, comme dans le jugement de la personnalité d’une personne,
et vice versa.
On peut difficilement parler de compréhension sans parler de conscience.
Quand j’ai commencé à écrire ce livre, j’avais prévu de laisser totalement
de côté la question de la conscience parce qu’elle est extrêmement
controversée scientifiquement. Mais tant pis, je vais quand même me
permettre quelques spéculations sur le sujet. Si notre compréhension des
concepts et des situations est une affaire de simulations fondées sur des
modèles mentaux, peut-être le phénomène de la conscience – et toute notre
conception du moi – provient-il de notre capacité à construire et simuler des
modèles de nos propres modèles mentaux. Non seulement je peux me
simuler mentalement en train de traverser la rue tout en étant au téléphone,
mais je peux aussi me simuler mentalement en train d’avoir cette pensée et
prédire ce que je pourrais penser ensuite. J’ai un modèle de mon propre
modèle. Des modèles de modèles, des simulations de simulations –
pourquoi pas ? Et de même que la perception physique, de la chaleur par
exemple, active une perception métaphorique de la chaleur et vice versa,
nos concepts liés aux sensations physiques pourraient activer le concept
abstrait de moi, qui revient alors dans le système nerveux pour produire une
perception physique du moi – ou de la conscience, si vous préférez. Cette
causalité circulaire s’apparente à ce que Douglas Hofstadter a appelé la
« boucle étrange » de la conscience, « dans laquelle les niveaux symbolique
et physique s’influencent mutuellement et inversent la causalité, et où les
symboles semblent jouir d’un libre arbitre et avoir acquis la capacité
paradoxale d’engendrer le mouvement des atomes plutôt que l’inverse. »*14

Abstraction et analogie
J’ai décrit jusqu’ici plusieurs idées issues de la psychologie sur les
connaissances « intuitives » de base dont les humains sont dotés à leur
naissance ou qu’ils acquièrent dans leur prime enfance, et comment ces
connaissances de base sous-tendent les modèles mentaux qui sont à
l’origine de nos concepts. La construction et l’utilisation de ces modèles
mentaux reposent sur deux aptitudes humaines fondamentales :
l’abstraction et l’analogie.
L’abstraction est l’aptitude à reconnaître des concepts et des situations
spécifiques comme faisant partie d’une catégorie plus générale. Rendons
plus concrète (si j’ose dire) cette idée d’abstraction. Imaginez que vous
soyez à la fois parent et psychologue cognitif. Appelons S votre enfant. À
mesure que vous l’observez grandir, vous décrivez dans un journal les
capacités d’abstraction de plus en plus sophistiquées qu’elle acquiert au fil
des ans. Voici quelques pages extraites de votre journal.
Trois mois : S peut faire la distinction entre expressions faciales marquant
le bonheur et la tristesse, et l’appliquer aux différentes personnes avec
lesquelles elle interagit. Elle en a abstrait les concepts de visage heureux et
visage triste.
Six mois : S reconnaît maintenant quand on lui fait « au revoir de la
main » et sait y répondre de la même manière. Elle a abstrait le concept
agiter la main pour dire au revoir, et a appris à répondre par le « même »
geste.
Dix-huit mois : S a abstrait les concepts de chat et de chien (ainsi que de
nombreuses autres catégories) de sorte qu’elle peut maintenant reconnaître
diverses occurrences de chats et de chiens sur des photos, des dessins, des
dessins animés, et dans la vie réelle.
Trois ans : S reconnaît les lettres de l’alphabet, qu’elles soient
manuscrites ou imprimées. En outre, elle distingue entre lettres minuscules
et lettres majuscules. Ses abstractions des concepts liés aux lettres sont tout
à fait remarquables ! De plus, elle a intégré ses connaissances des carottes,
des brocolis, des épinards, etc. dans le concept plus abstrait de légume, qui
de nos jours est mis sur le même pied qu’un autre concept abstrait, celui de
dégueulasse.
Huit ans : J’ai entendu J, la meilleure amie de S, raconter à S la fois où la
mère de J avait oublié de venir la chercher après son match de foot. « Oh
oui, il m’est arrivé exactement la même chose. Je parie que tu étais en
colère et que ta mère culpabilisait énormément. » Je me suis rendu compte
que ce « exactement la même chose » correspondait en fait à une situation
tout à fait différente dans laquelle la baby-sitter de S avait oublié de venir la
chercher à l’école pour l’amener à sa leçon de piano. En disant « il m’est
arrivé exactement la même chose, » il est clair que S a construit un concept
abstrait qui est quelque chose comme un aidant oubliant de prendre un
enfant avant ou après une activité. S peut aussi déduire de sa propre
expérience comment J et la mère de J ont probablement réagi.
Treize ans : S devient une adolescente rebelle. Je lui ai plusieurs fois
demandé de ranger sa chambre. Aujourd’hui, elle m’a crié : « Tu ne peux
pas m’y forcer ; Abraham Lincoln a libéré les esclaves ! » Sa réponse m’a
agacé, surtout par sa mauvaise analogie.
Seize ans : l’intérêt de S pour la musique va croissant. Nous aimons jouer
à un jeu en voiture : nous allumons une station de musique classique et c’est
à celui des deux qui trouve le premier l’auteur de l’œuvre ou l’époque où
elle a été composée. Je suis encore meilleure qu’elle à ce jeu, mais elle
devient de plus en plus forte pour reconnaître le concept abstrait de style
musical.
Vingt ans : S m’a envoyé un long mail sur sa vie à l’université. Elle décrit
sa semaine comme un enchaînement de « boulothons, bâfrothons et
dodothons ». Elle dit que l’université fait d’elle une caféique. Dans le même
mail, elle mentionne une manifestation d’étudiants contre le soi-disant
étouffement de la prétendue inconduite sexuelle d’un professeur vedette et
dit que les étudiants appellent cette situation un « harcèlement gate ». S
n’en a probablement pas conscience, mais son mail contient de superbes
exemples d’une forme commune d’abstraction dans le langage : on invente
de nouveaux mots en leur ajoutant des suffixes dénotant des situations
abstraites. Ajouter thon (de Marathon) signifie une activité de longueur et
quantité excessive ; ajouter ique (comme alcoolique) indique l’addiction ; et
ajouter gate (comme Watergate) signifie un scandale étouffé.*15
Vingt-six ans : S est diplômée en droit et travaille dans un prestigieux
cabinet d’avocats. Son plus récent client (le défendeur) est une entreprise
internet qui fournit une plateforme de blogage publique. Cette entreprise
était attaquée en diffamation par un homme (le plaignant) parce qu’un
blogueur avait écrit sur sa plateforme des commentaires diffamatoires
envers le plaignant. Lors du procès, l’argument de S a été que la plateforme
de blogage est comme un « mur » sur lequel « diverses personnes décident
d’inscrire des graffitis » et que l’entreprise est simplement la « propriétaire
du mur » et n’est donc pas responsable. Le tribunal a reconnu la validité de
son argument et donné raison au défendeur. C’est sa première grande
victoire lors d’un procès*16 !
Mon incursion dans le domaine du journal parental imaginaire avait pour
but de faire quelques remarques importantes sur l’abstraction et l’analogie.
L’abstraction, sous une forme ou une autre, sous-tend tous nos concepts,
même ceux qui remontent à la prime enfance. Une chose aussi élémentaire
que reconnaître le visage maternel – indépendamment des conditions
d’éclairage, sous différents angles, avec différentes expressions faciales ou
différentes coiffures – est autant un exploit d’abstraction que reconnaître un
style musical ou faire une analogie juridique convaincante. Comme
l’illustrent les entrées du journal ci-dessus, les notions que nous appelons
perception, catégorisation, reconnaissance, généralisation et souvenir (« il
m’est arrivé exactement la même chose ») impliquent toutes l’abstraction
de situations que nous avons vécues.
L’abstraction est étroitement liée à la production d’analogies. Douglas
Hofstadter, qui a étudié pendant plusieurs décennies l’abstraction et la
réalisation d’analogies, définit la réalisation d’analogies dans un sens très
général comme étant « la perception d’une essence commune à deux
choses. »*17 Cette essence commune peut être un concept nommé (par
exemple, visage heureux, au revoir de la main, chat, musique baroque),
auquel cas nous l’appelons « catégorie », ou un concept difficile à
verbaliser et créé sur-le-champ (par exemple, un aidant oubliant de prendre
un enfant avant ou après une activité, ou un propriétaire d’un « espace
d’écriture » public qui n’est pas responsable de ce qui y est « écrit »),
auquel cas nous l’appelons « analogie ». Ces phénomènes mentaux sont les
deux faces d’une même pièce. Dans certains cas, une idée telle que « les
deux faces d’une même pièce » sera initialement une analogie mais entrera
finalement dans le vocabulaire comme un idiotisme, ce qui nous amène à la
traiter davantage comme une catégorie.
Bref, les analogies, le plus souvent créées inconsciemment, sont ce qui
sous-tend nos capacités d’abstraction et la formation de concepts. Ainsi que
l’ont dit Hofstadter et son coauteur, le psychologue Emmanuel Sander :
« […] sans concepts, il n’y a pas de pensée – et sans analogies, il n’y a pas
de concepts. »*18
Ce chapitre a brièvement présenté quelques idées contenues dans les
travaux récents réalisés dans le domaine de la psychologie des mécanismes
mentaux qui permettent aux humains de comprendre et d’agir de manière
appropriée dans les situations qu’ils rencontrent. Nous avons des
connaissances de base – en partie innées et en partie apprises durant le
développement et tout au long de la vie. Nos concepts sont encodés dans le
cerveau sous forme de modèles mentaux que nous pouvons « faire tourner »
(c’est-à-dire simuler) afin de prédire ce qui risque d’arriver dans une
situation ou ce qui pourrait arriver après une quelconque modification de la
situation. Nos concepts, qui vont de simples mots à des situations
complexes, se forment par abstraction et analogie.
Je ne prétends certainement pas avoir abordé toutes les composantes de la
compréhension humaine. De fait, nombre de gens ont noté que les termes
compréhension et signification (sans parler de conscience) sont tout
simplement des termes mal définis que nous utilisons comme pantonymes
parce que nous n’avons pas encore le bon vocabulaire ou la bonne théorie
pour parler de ce qui se déroule réellement dans le cerveau. Le pionnier de
l’IA Marvin Minsky a formulé cela ainsi : « Bien que les germes d’idées
préscientifiques comme “croire”, “savoir” et “signifier” soient utiles dans la
vie quotidienne, ils semblent techniquement trop grossiers pour soutenir de
puissantes théories. […] Aussi réels que “moi” ou “comprendre” puissent
nous paraître aujourd’hui, […] ils ne sont que les premiers pas vers de
meilleurs concepts. » Nos confusions sur ces notions, poursuivit Minsky,
« résultent du fardeau d’idées traditionnelles qui ne sont pas à la hauteur de
cette entreprise extrêmement difficile. […] Nos idées sur l’esprit sont
encore en période de formation. »*19
Récemment encore, la question de l’identification des mécanismes
mentaux qui nous permettraient d’acquérir une compréhension du monde –
et celle de l’éventuelle acquisition de cette compréhension par des
machines – concernait presque exclusivement les philosophes,
psychologues, neurobiologistes et chercheurs en IA théorique engagés
depuis des décennies (et parfois des siècles) dans des débats académiques
sur ces problèmes, sans prêter grande attention à leurs conséquences pour le
monde réel. Toutefois, comme je l’ai expliqué dans les précédents chapitres,
les systèmes d’IA dépourvus de compréhension humaine sont aujourd’hui
très présents dans les applications au monde réel. Soudain, ce qui n’était
autrefois que des questions académiques a commencé à prendre une très
grande importance dans le monde réel. Dans quelle mesure les systèmes
d’IA ont-ils besoin d’une compréhension humaine, ou d’une approximation
de cette compréhension, afin de faire leur travail de manière fiable et
robuste ? Personne ne le sait. Mais presque tout chercheur en IA reconnaît
que des connaissances essentielles « de bon sens » et un haut niveau
d’abstraction et d’analogie comptent parmi les chaînons manquants
nécessaires aux futurs progrès de l’IA. Le prochain chapitre va décrire
quelques approches visant à doter les machines de ces capacités.
15

Connaissance, abstraction et analogie


en intelligence artificielle

Depuis les années 1950, de nombreux membres de la communauté de l’IA


étudient les possibilités d’intégrer les aspects déterminants de la pensée
humaine – les connaissances essentielles intuitives, l’abstraction et
l’établissement d’analogies – dans l’intelligence machine, et donc de
permettre aux systèmes d’IA de réellement comprendre les situations qu’ils
rencontrent. Ce chapitre va décrire quelques efforts déployés en ce sens, et
notamment quelques-uns de mes travaux passés et récents.

Les connaissances essentielles pour les ordinateurs


Au début de l’IA, avant que l’apprentissage machine et les réseaux
neuronaux ne dominent le paysage, les chercheurs en IA encodaient à la
main les règles et les connaissances dont un programme avait besoin pour
éxécuter ses tâches. Pour nombre des premiers pionniers de l’IA, il semblait
tout à fait raisonnable de penser que cette approche « intégrative » pourrait
reproduire suffisamment de connaissances humaines de bon sens pour
conférer aux machines une intelligence de niveau humain.
La plus célèbre et la plus durable des tentatives visant à encoder à la
main les connaissances de bon sens pour des machines est le projet Cyc de
Douglas Lenat. Étudiant en thèse devenu professeur dans le laboratoire
d’IA de l’Université Stanford, Lenat se fit connaître de la communauté des
chercheurs en IA des années 1970 en écrivant des programmes simulant
l’invention de nouveaux concepts par les humains, en particulier en
mathématiques*1. Toutefois, après plus d’une décennie de travail sur ce
sujet, Lenat parvint à la conclusion qu’un véritable progrès en IA exigeait
que les machines soient douées de bon sens. Il décida alors de constituer
une immense bibliothèque de faits sur le monde et d’établir les règles de
logique qui permettraient à des programmes d’utiliser cette bibliothèque
pour déduire les faits dont ils avaient besoin. En 1984, Lenat renonça à son
poste universitaire afin de lancer une entreprise (appelée aujourd’hui
Cycorp) pour poursuivre cet objectif.
Le nom Cyc (prononcez « saïk ») est censé évoquer le mot anglais
encyclopedia*2, mais contrairement aux encyclopédies que nous
connaissons, celle de Lenat devait contenir toutes les connaissances non
écrites dont disposent les humains, ou du moins une part suffisante d’entre
elles, pour permettre aux systèmes d’IA d’avoir un fonctionnement de
niveau humain dans des domaines tels que la vision, le langage, la
planification et le raisonnement.
Cyc est un système d’IA symbolique comparable à celui que j’ai décrit
au chapitre 1 – un ensemble d’énoncés (d’« assertions ») sur des entités
spécifiques ou des concepts généraux, écrits dans le langage de la logique
informatique. Voici quelques exemples d’assertions de Cyc, traduites en
français depuis leur langage logique*3 :

Une entité ne peut être en plusieurs endroits à la fois.


Les objets vieillissent d’une année chaque année.
Chaque personne a une mère qui est une femme.

Le projet Cyc contient également des algorithmes sophistiqués qui


effectuent des déductions logiques à partir des assertions. Par exemple, Cyc
pourrait conclure que si je suis à Portland, je ne suis pas également à New
York parce que je suis une entité, que Portland et New York sont des lieux,
et qu’une entité ne peut être en plusieurs endroits à la fois. Cyc possède
également de nombreuses méthodes pour gérer les assertions incohérentes
ou incertaines présentes dans sa bibliothèque.
Les assertions de Cyc ont été codées à la main par des humains (les
employés de Cycorp) ou déduites de manière logique par le système à partir
des assertions existantes*4. Combien d’assertions sont-elles nécessaires pour
rendre compte du bon sens humain ? Lors d’une conférence qu’il donna en
2015, Lenat estima à quinze millions le nombre d’assertions alors contenues
dans Cyc et déclara : « Nous disposons probablement d’environ 5 % de ce
qu’il nous faudra en définitive. »*5
La philosophie sous-jacente au projet Cyc a beaucoup en commun avec
celle des systèmes experts de l’IA des premiers temps. Vous vous rappelez
peut-être ma discussion, au chapitre 2, du système expert MYCIN
spécialisé dans le diagnostic médical. Des « experts » – des médecins –
étaient interrogés par les développeurs de MYCIN afin d’obtenir les règles
susceptibles d’être utilisées par le système pour établir des diagnostics. Ces
développeurs traduisaient ensuite ces règles dans un langage informatique
reposant sur la logique pour permettre au système d’effectuer des
déductions logiques. Dans Cyc, les « experts » sont des personnes qui
traduisent à la main leur connaissance du monde en propositions logiques.
La « base de connaissances » de Cyc est plus grande que celle de MYCIN,
et les algorithmes de raisonnement logique de Cyc sont plus sophistiqués,
mais ces deux projets partagent une même conviction fondamentale : on
peut reproduire l’intelligence via des règles programmées explicitement et
opérant sur un ensemble suffisamment vaste de connaissances clairement
formulées. Dans le paysage actuel de l’IA, dominé par l’apprentissage
profond, le projet Cyc est l’une des dernières tentatives basées sur l’IA
symbolique à grande échelle*6.
Se peut-il qu’avec suffisamment de temps et d’efforts, les ingénieurs de
Cycorp parviennent à simuler la totalité de la connaissance de bon sens
humain, voire simplement une portion suffisante de cette connaissance, quel
que soit le sens que l’on donne à l’adjectif « suffisant » ? Personnellement,
j’en doute. Si la connaissance de bon sens est la connaissance dont tous les
humains sont dotés mais qui n’existe pas sous forme écrite, alors la majeure
partie de cette connaissance est subconsciente ; nous ignorons même en être
dotés. Elle inclut une grande part de nos connaissances essentielles
intuitives de la physique, de la biologie et de la psychologie, qui forme la
base de nos plus vastes connaissances du monde. Si vous ignorez savoir
quelque chose, vous ne pouvez être l’« expert » qui fournit explicitement ce
quelque chose à un ordinateur.
En outre, comme je l’ai expliqué au précédent chapitre, notre
connaissance de bon sens est régie par l’abstraction et l’analogie. Ce que
nous appelons sens commun ne peut exister sans ces capacités. Toutefois,
l’abstraction et l’analogie humaines ne sont pas des techniques susceptibles
d’être simulées par l’immense bibliothèque de Cyc, voire, selon moi, par la
déduction logique en général.
Au moment où ces lignes sont écrites, le projet Cyc en est à sa quatrième
décennie d’existence. Cycorp et son entreprise dérivée, Lucid,
commercialisent Cyc en offrant un éventail d’applications destinées au
monde des affaires. Le site Web de chaque entreprise abonde en récits de
réussites : les applications de Cyc dans la finance, l’extraction de gaz et de
pétrole, la médecine et d’autres domaines spécifiques. À certains égards, la
trajectoire de Cyc fait écho à celle de Watson d’IBM : ces deux
programmes ont débuté par un effort de recherche fondamentale en IA,
d’une portée et d’une ambition considérables, pour aboutir à un ensemble
de produits commerciaux aux prétentions marketing élevées (du genre : Cyc
« met la compréhension et le raisonnement humains à portée des
ordinateurs »*7) mais avec des objectifs limités plutôt que généraux, et peu
de transparence au niveau des réelles performances et capacités du système.
À ce jour, Cyc n’a pas eu de véritable impact sur l’ensemble des
recherches en IA. En outre, certains membres de la communauté de l’IA ont
sévèrement critiqué cette approche. Par exemple, selon Pedro Domingos,
professeur d’IA à l’université de Washington, Cyc est « l’échec le plus
notoire de l’histoire de l’IA. »*8 Rodney Brooks, roboticien au MIT, est à
peine plus aimable : « Si [Cyc] a été un effort héroïque, il n’a pas conduit à
un système d’IA capable de livrer ne serait-ce qu’une compréhension
simple du monde. »*9
Et si nous donnions aux ordinateurs la connaissance subconsciente du
monde apprise dans la prime enfance et l’enfance et qui est à l’origine de
tous nos concepts ? Comment pourrions-nous, par exemple, enseigner à un
ordinateur la physique intuitive des objets ? Plusieurs groupes de recherche
ont relevé ce défi et construisent actuellement des systèmes d’IA capables
d’apprendre petit à petit la physique de la cause et de l’effet dans le monde,
à partir de vidéos, de jeux vidéo ou d’autres formes de réalité virtuelle*10.
Aussi intrigantes qu’elles soient, ces approches ne progressent qu’à pas de
bébé – comparé à la progression des bébés réels – vers le développement
des connaissances essentielles intuitives.
Lorsque l’apprentissage profond a commencé à faire la preuve de son
extraordinaire série de succès, nombre de personnes, à l’intérieur et à
l’extérieur de la communauté de l’IA, étaient relativement persuadées d’être
sur le point d’atteindre une IA de niveau humain. Toutefois, comme je l’ai
dit à de nombreuses reprises dans ce livre, les systèmes d’apprentissage
profond étant plus largement utilisés, ils font apparaître les faiblesses de
leur « intelligence ». Même les plus performants d’entre eux restent
incapables d’étendre leur activité au-delà de leur étroit domaine d’expertise,
de former des abstractions ou d’apprendre des choses sur les relations de
cause à effet*11. Qui plus est, leurs erreurs non humaines et leur vulnérabilité
aux exemples dits adverses montrent qu’ils ne comprennent pas réellement
les concepts que nous essayons de leur inculquer. Les gens débattent encore
pour savoir si l’on peut remédier à ces faiblesses avec plus de données ou
des réseaux plus profonds, ou s’il manque quelque chose de plus
fondamental*12.
J’ai perçu récemment comme un changement dans les conversations :
la communauté de l’IA reparle de plus en plus de l’importance primordiale
que présente l’intégration du bon sens dans les machines. En 2018, le
cofondateur de Microsoft, Paul Allen, a doublé le budget de son institut de
recherche, l’Institut Allen pour l’IA, afin d’étudier tout spécialement le sens
commun. Des organismes de financement gouvernementaux contribuent
également à ce projet : en 2018, la Defense Advanced Research Projects
Agency (DARPA, Agence pour les projets de recherche avancée de
défense), l’une des principales sources de financement de l’IA par le
gouvernement américain, a publié un projet de financement substantiel du
sens commun en IA, disant : « [Aujourd’hui], le raisonnement machine est
limité et extrêmement spécialisé ; le raisonnement de sens commun,
généraliste, sur ordinateur est encore hors de portée. Le programme
[de financement] générera des représentations plus humaines du savoir, par
exemple, des représentations fondées sur la perception, pour permettre aux
machines de tenir un raisonnement de bon sens sur le monde physique et les
phénomènes spatio-temporels. »*13

L’abstraction, idéalisée
« Former des abstractions » est l’une des aptitudes clés de l’IA énumérées
dans le projet IA de Dartmouth de 1955 que j’ai décrit au chapitre 1.
Toutefois, permettre à des machines de créer des abstractions conceptuelles
reste encore un problème quasiment non résolu.
L’abstraction et l’analogie sont à l’origine même de mon intérêt pour
l’IA. Cet intérêt fut particulièrement éveillé par ma rencontre avec un
ensemble de problèmes visuels appelés problèmes de Bongard. Ils furent
formulés par un informaticien russe, Mikhail Bongard, qui en 1967 publia
un livre, traduit en anglais sous le titre Pattern Recognition
(Reconnaissance de formes)*14. Si le livre lui-même décrivait un système de
type perceptron conçu par Bongard pour la reconnaissance visuelle, sa
partie la plus influente s’avéra être son appendice, dans lequel Bongard
proposait une centaine de problèmes qu’il considérait comme des défis pour
les programmes d’IA. La figure 45 montre quatre de ces problèmes*15.

Figure 45. Quatre échantillons de problèmes de Bongard. Pour chaque problème, il s’agit
de déterminer les concepts qui distinguent les six cases de gauche des six cases de droite.
Par exemple, pour le problème 2, les concepts sont grand versus petit.

Chaque problème comporte douze cases : six à gauche et six à droite.


Dans chaque problème, les six cases situées à gauche illustrent le « même »
concept, les six cases situées à droite illustrent un concept connexe, et les
deux concepts distinguent parfaitement les deux ensembles. Le problème
est de trouver les deux concepts. Par exemple, à la figure 45, les concepts
sont (en allant dans le sens des aiguilles d’une montre) grand-petit ; blanc-
noir (ou vide-plein, si vous préférez) ; côté droit-côté gauche ; et vertical-
horizontal.
Les problèmes de la figure 45 sont relativement faciles à résoudre. En
fait, Bongard a à peu près présenté ses cent problèmes par ordre de
difficulté présumée. Pour votre plaisir, la figure 46 propose autres
problèmes, situés plus loin dans l’ensemble. Je donnerai leurs solutions plus
loin dans le texte.

Figure 46. Six autres problèmes de Bongard.

Bongard a soigneusement conçu ses problèmes afin que leur résolution


exige les capacités d’abstraction et de raisonnement analogique nécessaires
à un système humain ou d’IA dans la vie réelle. Dans un problème de
Bongard, vous pouvez considérer chacune des douze cases comme une
« situation » miniature, idéalisée, – une situation qui présente différents
objets, attributs et relations. Les situations de gauche ont une « essence »
commune (par exemple, grande) ; les situations de droite ont une essence
commune opposée (par exemple, petite). Et dans les problèmes de Bongard,
comme dans la vie réelle, l’identification de l’essence d’une situation peut
être extrêmement subtile. Pour reprendre la formule du cogniticien Robert
French, l’abstraction et l’analogie visent toutes deux à percevoir « la
subtilité de la similitude. »*16
Pour découvrir cette subtile similitude, vous devez déterminer les
attributs de la situation qui sont pertinents et ceux que vous pouvez ignorer.
Dans le problème 2 (figure 45), peu importe qu’une forme soit noire ou
blanche, qu’elle occupe telle ou telle position dans la case, ou qu’elle soit
un triangle, un cercle, ou n’importe quoi d’autre. Ce qui importe dans ce
problème, c’est la taille. Bien sûr, la taille n’est pas toujours un élément
important ; dans les autres problèmes de la figure 45, elle n’a aucune
importance. Comment nous, humains, discernons-nous si rapidement les
attributs pertinents ? Comment pourrions-nous amener une machine à faire
la même chose ?
Pour rendre les choses encore plus difficiles pour les machines, on peut
encoder les concepts pertinents de manière abstraite, difficile à percevoir,
comme les concepts trois et quatre du problème 91. Dans certains
problèmes, il n’est même pas forcément facile pour un système d’IA de
trouver ce qui compte comme objet. Par exemple, dans le problème 84
(dedans versus dehors) les « objets » pertinents sont composés d’objets plus
petits (en l’occurrence, de petits cercles). Dans le problème 98, les objets
(triangles versus quadrilatères) sont « camouflés » : ils sont plus faciles à
déceler pour les humains que pour les machines, qui éprouvent parfois des
difficultés à distinguer le premier plan de l’arrière-plan.
Les problèmes de Bongard mettent également à l’épreuve l’aptitude à
percevoir de nouveaux concepts. Le problème 18 en est un bon exemple. Le
concept commun aux cases de gauche n’est pas facile à verbaliser ; c’est
quelque chose comme objet avec un étranglement ou un « cou. » Mais
même si vous n’avez jamais pensé à une telle chose, vous la reconnaissez
rapidement dans le problème 18. De même, le problème 19 contient un
nouveau concept : quelque chose comme objet avec un cou horizontal, à
gauche, et objet avec un cou vertical, à droite. L’abstraction de nouveaux
concepts, difficiles à verbaliser – un autre exemple de la subtilité de la
similitude – est une activité dans laquelle excellent les humains, mais en
revanche, il n’existe à l’heure actuelle aucun système d’IA doué de cette
faculté au niveau général.
Le livre de Bongard, publié en anglais en 1970, était plutôt obscur, et au
début, peu de gens connaissaient son existence. Mais Douglas Hofstadter,
qui était tombé sur ce livre en 1975, fut profondément impressionné par les
cent problèmes contenus dans l’appendice et leur consacra de nombreuses
pages dans son livre Gödel, Escher, Bach (GEB). C’est là que je les ai vus
pour la première fois.
J’ai toujours adoré les casse-tête, en particulier ceux qui impliquent la
logique ou des dessins ; quand j’ai lu GEB, j’ai particulièrement apprécié
les problèmes de Bongard. J’ai également été intriguée par les idées de
Hofstadter, esquissées dans GEB et traitant de la création d’un programme
pour résoudre les problèmes de Bongard d’une manière semblable à celle
des humains au niveau de la perception et de l’analogie. La lecture de cette
section de GEB est peut-être ce qui m’a amenée à décider de devenir
chercheuse en IA.
De nombreuses personnes ont pareillement été séduites par les problèmes
de Bongard, et plusieurs chercheurs ont écrit des programmes d’IA qui
tentent de les résoudre. La plupart de ces programmes font des hypothèses
simplificatrices (par exemple, ils limitent l’ensemble des formes autorisées
et des liens entre les formes, ou ils ignorent complètement les aspects
visuels et débutent par une description humaine des images). Chacun de ces
programmes a réussi à résoudre un sous-ensemble de problèmes
spécifiques, mais aucun d’eux n’est capable de s’appliquer à l’ensemble de
ces problèmes comme le ferait un être humain.*17.
Qu’en est-il des réseaux neuronaux convolutifs ? Étant donné leurs
extraordinaires performances en classification d’objets (par exemple, lors
du concours ImageNet de reconnaissance visuelle que j’ai décrit au
chapitre 5), serait-il possible d’entraîner un tel réseau pour résoudre les
problèmes de Bongard ? On pourrait, par exemple, interpréter un problème
de Bongard comme un problème de « classification » pour réseau neuronal
convolutif (ConvNet), comme l’illustre la figure 47 ; les six cases de gauche
peuvent être considérées comme des échantillons d’apprentissage de la
« classe 1 », et les six cases de droite comme des échantillons
d’apprentissage de la « classe 2 ». Maintenant, donnez au système un
nouvel échantillon « test ». Dans quelle classe doit-on le ranger : « classe
1 » ou « classe 2 » ?
Figure 47. Transformation d’un problème de Bongard en un problème de classification,
avec douze échantillons d’apprentissages et un nouvel échantillon de test.

Un obstacle immédiat est qu’un ensemble de douze échantillons


d’apprentissage est ridiculement insuffisant pour l’entraînement d’un
ConvNet ; même douze cents ne suffiraient probablement pas. Bien sûr,
cela fait partie de l’argument de Bongard : nous autres humains pouvons
facilement identifier les concepts pertinents avec seulement douze images.
Combien de données d’apprentissage faudrait-il à un ConvNet pour
apprendre à résoudre un problème de Bongard ? Si personne n’a encore
systématiquement étudié la possibilité de résolution de problèmes de
Bongard par des ConvNets, un groupe de recherche a cependant examiné
les performances de ConvNets dernier cri sur une tâche « identiques versus
différents », avec des images similaires à celles de la figure 47*18. La classe
1 se composait d’images incluant deux objets de mêmes formes ; la classe 2
se composait d’images incluant deux objets de formes différentes. Mais au
lieu d’utiliser douze images d’apprentissage, les chercheurs ont effectué
l’apprentissage des ConvNets sur vingt mille échantillons de classe 1
(« identiques ») et de classe 2 (« différents »). Une fois son apprentissage
terminé, chaque ConvNet était testé sur dix mille nouveaux échantillons.
Tous les objets présents sur les images étaient générés automatiquement à
partir de multiples formes différentes. Les performances des ConvNets ne
furent guère meilleures que des réponses aléatoires, tandis que les humains
testés par les auteurs atteignirent des scores proches de 100 %. En bref, les
ConvNets d’aujourd’hui, bien que remarquablement capables d’apprendre
les fonctions nécessaires à la reconnaissance d’objets dans ImageNet ou de
choisir les coups au jeu de go, n’ont pas les facultés d’abstraction et
d’analogie nécessaires même dans les problèmes de Bongard idéalisés, et
encore moins dans le monde réel. Il semble que les fonctions que ces
réseaux peuvent apprendre soient insuffisantes pour former de telles
abstractions, quel que soit le nombre d’échantillons sur lesquels se déroule
leur apprentissage. Ce n’est pas uniquement les ConvNets qui n’ont pas ce
qu’il faut : à l’heure actuelle aucun système d’IA n’a quelque chose qui
s’approche un tant soit peu de ces aptitudes humaines fondamentales.

Symboles actifs et créations d’analogies


Après avoir lu Gödel, Escher, Bach et décidé de poursuivre des recherches
en IA, je suis allée trouver Douglas Hofstadter dans l’espoir de pouvoir
travailler sur quelque chose comme les problèmes de Bongard. Par bonheur,
à force de persévérance, j’ai réussi à le persuader de me prendre dans son
groupe de recherche. Il m’expliqua qu’effectivement, son groupe
développait des programmes informatiques inspirés de la façon dont les
humains interprètent les situations et établissent des analogies entre elles.
Ayant fait des études supérieures de physique (discipline dans laquelle
l’idéalisation, par exemple, le mouvement sans frottement, est un principe
moteur central), Hofstadter fut convaincu que la meilleure façon d’étudier
un phénomène – ici, la création d’analogies chez les humains – était de
l’étudier dans sa forme la plus idéalisée. La recherche en IA utilise souvent
ce que l’on appelle des micromondes – des domaines idéalisés tels que les
problèmes de Bongard, dans lesquels un chercheur peut développer des
idées avant de les tester dans des domaines plus complexes. Pour son étude
sur l’analogie, Hofstadter construisit un micromonde encore plus idéalisé
que celui des problèmes de Bongard : celui des problèmes analogiques
impliquant des chaînes alphabétiques. En voici un exemple :

PROBLÈME 1 : Supposez que la chaîne de lettres abc se transforme en


abd. Comment changeriez-vous la chaîne pqrs de la « même manière » ?
La plupart de gens répondent pqrt en déduisant une règle du genre
« Remplacez la lettre la plus à droite par sa suivante dans l’alphabet ». Bien
sûr, on peut déduire plusieurs autres règles, et obtenir ainsi des réponses
différentes. En voici quelques-unes :

pqrd : « Remplacez la lettre la plus à droite par d. »


pqrs : « Remplacez tous les c par des d. Comme il n’y a pas de c dans pqrs,
rien ne change. »
abd : « Remplacez n’importe quelle chaîne par la chaîne abd. »

Même si les trois dernières réponses peuvent sembler prises un peu trop
au pied de la lettre (pour ainsi dire…), aucun argument strictement logique
ne dit qu’elles sont erronées. En fait, on pourrait imaginer une infinité de
règles possibles. Pourquoi la plupart des gens s’accordent-ils pour
reconnaître que l’une d’elles (pqrt) est la meilleure ? Il semble que nos
mécanismes mentaux pour l’abstraction – qui se sont développés pour
promouvoir notre survie et notre reproduction dans le monde réel – se
retrouvent dans ce micromonde idéalisé.
Voici un autre exemple :

PROBLÈME 2 : Supposez que la chaîne abc se transforme en abd.


Comment changeriez-vous la chaîne ppqqrrss de la « même manière » ?

Même dans ce simple micromonde alphabétique, la similitude peut être


tout à fait subtile, du moins pour une machine. Dans le problème 2, une
application stricte de la règle « remplacez la lettre la plus à droite par sa
suivante » donnerait ppqqrrst, mais pour la plupart des gens, cette réponse
semble prise trop au pied de la lettre ; les gens répondent plutôt ppqqrrtt,
associant ainsi les paires de lettres de ppqqrrss aux lettres individuelles de
abc*19. Nous autres humains sommes plutôt enclins à grouper les objets
identiques ou similaires.
Le problème 2 illustre, dans ce micromonde, la notion générale de
glissement conceptuel, notion qui est au cœur de la création d’analogies*20.
Quand vous tentez de percevoir la « similitude » profonde de deux
situations différentes, certains concepts de la première situation doivent
« glisser » – c’est-à-dire être remplacés par des concepts connexes dans la
seconde situation. Dans le problème 2, le concept lettre est remplacé par
groupe de lettres ; ainsi, la règle « remplacez la lettre la plus à droite par sa
suivante » devient « remplacez le groupe de lettres le plus à droite par son
suivant. »
Considérez maintenant ce problème :

PROBLÈME 3 : Supposez que la chaîne abc se transforme en abd.


Comment changeriez-vous la chaîne xyz de la « même manière » ?

La plupart des gens répondent xya en prétendant que la « suivante » de z


est a. Mais supposez que vous soyez un programme informatique qui ne
connaît pas le concept d’alphabet circulaire et donc que pour vous, la lettre
z n’ait pas de successeur. Y aurait-il d’autres réponses sensées ? Quand j’ai
posé cette question, j’ai eu quantité de réponses, dont certaines étaient tout
à fait créatives. Fait intéressant, les réponses s’exprimaient souvent sous
forme de métaphores physiques : par exemple, xy (le z « tombe du bord
d’une falaise »), xyy (le z « rebondit en arrière ») et wyz. Pour cette dernière
réponse, l’image est que a et z sont chacun « calés contre un mur » aux
extrémités opposées de l’alphabet, de sorte qu’elles jouent des rôles
similaires ; ainsi, si le concept première lettre de l’alphabet glisse vers
dernière lettre de l’alphabet, alors lettre la plus à droite glisse vers lettre la
plus à gauche et successeur glisse vers prédécesseur. Le problème 3 montre
comment la création d’une analogie peut déclencher une cascade de
glissements mentaux.
Le micromonde des chaînes de lettres rend très visible la notion de
glissement. Dans d’autres domaines, elle peut être plus subtile. Par
exemple, si vous repensez au problème de Bongard 91 de la figure 46, dans
lequel l’essence commune des six cases de gauche est trois, les objets qui
représentent le concept trois glissent de case en case – par exemple, des
segments de droite (en haut à gauche) aux carrés (au milieu à gauche) puis à
un concept difficile à verbaliser dans la case en bas à gauche (quelque chose
comme « les dents d’un peigne », qui sait ?). Le glissement conceptuel joue
un rôle central dans les différentes abstractions que la fille imaginaire S
(dans le chapitre précédent) inventa au fil des ans – par exemple, dans son
analogie juridique, le concept site Web glisse vers le concept mur, et le
concept tenir un blog glisse vers le concept bomber un graffiti.
Hofstadter a eu l’idée d’un programme informatique, baptisé Copycat,
qui résoudrait ce genre de problèmes en utilisant des algorithmes très
généraux, semblables à ceux que Hofstadter croyait utilisés par les humains
lorsqu’ils établissent des analogies dans n’importe quel domaine. Le nom
Copycat vient de l’idée que vous (le créateur de l’analogie) êtes censé
résoudre ces problèmes en « faisant la même chose » – c’est-à-dire en étant
un « copycat ». La situation originelle (par exemple, abc) est modifiée
d’une manière ou d’une autre, et votre travail est de faire la « même »
modification sur la nouvelle situation (par exemple, ppqqrrss).
Lorsque je rejoignis le groupe de recherche d’Hofstadter, on me demanda
d’assister Hofstadter dans le développement du programme Copycat. Tous
ceux qui l’ont prise vous le diront, la route qui conduit au doctorat consiste
principalement en un intense travail ponctué de revers frustrants et (du
moins pour moi) baignant en permanence dans un courant sous-jacent de
doute de soi. Mais de temps en temps, il y a des moments où l’on connaît
l’exaltation de la réussite, comme lorsque le programme sur lequel vous
travaillez depuis cinq ans se met finalement à marcher. Je ne parlerai pas
des doutes, des échecs et des innombrables heures de travail et passerai
directement à la fin, lorsque j’ai soumis ma thèse décrivant le programme
Copycat qui est parvenu à résoudre, comme l’aurait fait un humain (ai-je
soutenu), plusieurs familles de problèmes d’analogies portant sur des
chaînes de lettres.
Copycat n’était ni un programme symbolique, basé sur des règles, ni un
réseau neuronal, bien qu’il inclût des aspects d’IA symboliques et
subsymboliques. Copycat résolvait des problèmes d’analogie via une
interaction continue entre ses processus perceptuels (c’est-à-dire en
remarquant les caractéristiques d’un problème d’analogie traitant de chaînes
de lettres particulier) et ses concepts antérieurs (par exemple, lettre, groupe
de lettres, successeur, prédécesseur, identique, et opposée). Les concepts du
programme étaient structurés de manière à simuler tant bien que mal les
modèles mentaux que j’ai décrits au chapitre précédent. En particulier, ils
reposaient sur la notion, due à Hofstadter, de « symboles actifs » dans la
cognition humaine*21. L’architecture de Copycat étant compliquée, je ne
vais pas la décrire ici (mais vous trouverez des références à son sujet dans
les notes*22). À la fin, si Copycat parvenait à résoudre de nombreux
problèmes analogiques traitant de chaînes de lettres (y compris les
exemples que j’ai présentés plus haut, plus nombre de leurs variantes), il ne
faisait cependant qu’effleurer la surface de son domaine quasi illimité. Voici
par exemple deux problèmes que mon programme ne savait pas résoudre :
PROBLÈME 4 : Si azbzczd se transforme en abcd, en quoi se transforme
pxqxrxsxt ?
PROBLÈME 5 : Si abc se transforme en abd, en quoi se transforme ace ?

Ces deux problèmes exigent une reconnaissance instantanée de nouveaux


concepts, aptitude qui faisait défaut à Copycat. Dans le problème 4, les z et
les x jouent le même rôle, quelque chose comme « les lettres
supplémentaires qu’il faut supprimer pour voir la séquence alphabétique »,
ce qui donne comme réponse pqrst. Dans le problème 5, la séquence ace est
semblable à la séquence abc, sauf qu’au lieu d’une séquence par
« succession », il s’agit d’une séquence par « double succession », qui
donne acg. Il m’aurait été facile de doter Copycat de la capacité de compter
le nombre de lettres entre, disons, a et c et c et e, mais je ne voulais pas
intégrer dans le programme des compétences très spécifiques au domaine
des chaînes de lettres. Copycat était censé être un banc d’essai pour des
idées générales sur l’analogie plutôt qu’un « révélateur d’analogies entre
chaînes de lettres ».

La métacognition dans le monde des chaînes de lettres


Un aspect essentiel de l’intelligence humaine – rarement discuté en IA ces
temps-ci – est sa capacité de percevoir et analyser sa propre pensée.
En psychologie, cela s’appelle la métacognition. Ne vous êtes-vous jamais
démené contre un problème pour finalement vous rendre compte que vous
n’avez fait que répéter les mêmes processus de pensée improductifs ? Cela
m’arrive tout le temps ; mais si je m’en aperçois, je parviens parfois à sortir
de l’ornière. Comme tous les autres programmes d’IA dont j’ai parlé dans
ce livre, Copycat n’avait pas de mécanisme d’auto-perception, ce qui
nuisait à ses performances. Parfois il se bloquait, tentant sans cesse de
résoudre un problème de la même mauvaise façon, sans percevoir qu’il
avait déjà emprunté une voie similaire et stérile.
James Marshall, à l’époque étudiant en thèse dans le groupe de recherche
de Douglas Hofstadter, se chargea d’amener Copycat à réfléchir sur sa
propre « pensée ». Il créa un programme appelé Metacat qui non seulement
résolvait des problèmes analogiques dans le domaine des chaînes de lettres,
mais aussi tentait de percevoir des régularités dans ses propres actions. Tout
en fonctionnant, Metacat livrait un commentaire sur les concepts qu’il
reconnaissait dans son propre processus de résolution de problèmes*23.
Comme Copycat, Metacat exhibait un comportement fascinant mais ne
faisait qu’effleurer la surface des aptitudes d’auto-réflexion humaines.

La reconnaissance des situations visuelles


Mes recherches actuelles portent sur le développement d’un système d’IA
qui utilise l’analogie pour identifier globalement des situations visuelles –
des concepts visuels impliquant de multiples entités et les liens qui les
unissent. Chacune des quatre photos de la figure 48 est un exemple d’une
situation visuelle que l’on pourrait appeler « promener un chien. » Une telle
situation est facile à reconnaître pour les humains, mais identifier des
exemples même simples de situations visuelles s’avère très difficile pour les
systèmes d’IA. Reconnaître des situations entières est bien plus difficile que
reconnaître des objets individuels.

Figure 48. Quatre exemples typiques de « promenade de chien ».


Mes collaborateurs et moi-même développons actuellement un
programme – appelé Situate – qui combine les capacités de reconnaissance
d’objets des réseaux neuronaux profonds avec l’architecture de « symboles
actifs » de Copycat afin de reconnaître des exemples de situations
particulières en faisant des analogies. Nous aimerions que notre programme
reconnaisse non seulement des exemples simples, tels ceux de la figure 48,
mais aussi des exemples insolites qui exigent des glissements conceptuels.
La situation prototype « promener un chien » met en jeu une personne (le
promeneur du chien), un chien et une laisse. Le promeneur tient la laisse, la
laisse est attachée au chien, et le promeneur et le chien marchent.
D’accord ? En fait, c’est ce que l’on voit dans les exemples de la figure 48.
Mais les humains qui comprennent le concept « promener un chien »
reconnaîtraient également dans les photos de la figure 49 des exemples de
ce concept tout en étant conscients de l’écart de chacun par rapport à la
version prototypique. Situate, qui est encore dans les premières phases de
son développement, est censé tester des idées sur les mécanismes généraux
sous-jacents à la création d’analogies humaines et démontrer que les idées
mises en œuvre dans le programme Copycat peuvent fonctionner avec
succès au-delà du micromonde des analogies entre chaînes de lettres.

Figure 49. Quatre exemples atypiques de « promenade de chien ».


Copycat, Metacat et Situate ne sont que trois exemples de programmes
créateurs d’analogies reposant sur l’architecture de symboles actifs de
Hofstadter*24. En outre, l’architecture de symboles actifs n’est que l’une des
multiples approches utilisées dans la communauté de l’IA pour créer des
programmes capables de révéler des analogies. Toutefois, si l’analogie est
fondamentale à tous les niveaux de la connaissance humaine, il n’existe
encore aucun programme d’IA doté un tant soit peu des capacités humaines
à créer des analogies.

« Nous sommes vraiment, vraiment très loin »


L’ère moderne de l’intelligence artificielle est dominée par l’apprentissage
profond et son triumvirat constitué par les réseaux neuronaux profonds, le
big data et les ordinateurs ultra-rapides. Toutefois, dans la quête d’une
intelligence robuste et générale, l’apprentissage profond est peut-être en
passe de se heurter à un mur, celui de l’imposante « barrière du sens ». Dans
ce chapitre, j’ai présenté un rapide survol de quelques efforts entrepris pour
déverrouiller cette barrière. J’ai regardé comment les chercheurs (moi-
même comprise) tentent actuellement de doter les ordinateurs d’une
connaissance de sens commun et d’aptitudes humaines en termes
d’abstraction et de création d’analogies.
En réfléchissant sur ce sujet, j’ai été particulièrement séduit par un article
de blog plaisant et perspicace rédigé par Andrej Karpathy, l’expert en
apprentissage profond et en vision par ordinateur qui dirige actuellement le
département d’IA chez Tesla. Dans cet article, intitulé « The State of
Computer Vision and AI : We Are Really, Really Far Away »*25, Karpathy
décrit ses réactions, en tant que chercheur en vision par ordinateur, à une
photo particulière, montrée à la figure 50. Il note que nous autres humains
trouvons cette photo pleine d’humour et demande : « Que faudrait-il pour
qu’un ordinateur comprenne cette image telle que vous ou moi la
comprenons ? »
Karpathy énumère nombre de choses que nous autres humains
comprenons facilement mais qui échappent à l’entendement des meilleurs
programmes actuels de vision par ordinateur. Par exemple, nous
reconnaissons que cette scène contient non seulement des personnes, mais
aussi des miroirs, de sorte que certaines personnes sont en fait des reflets
dans ces miroirs. Nous reconnaissons que nous sommes dans un vestiaire et
nous sommes frappés par l’insolite de la présence de gens en costumes dans
un tel endroit.

Figure 50. La photo dont Andrej Karpathy parle dans son blog.

En outre, nous reconnaissons qu’une personne se tient sur une balance,


même si cette balance est composée de pixels blancs qui se confondent avec
l’arrière-plan. Karpathy fait remarquer que nous reconnaissons qu’« Obama
a son pied légèrement posé sur la balance, » et constate qu’il nous est plus
facile de décrire cela en nous situant dans la structure tridimensionnelle que
nous déduisons de la scène plutôt que dans l’image bidimensionnelle qui
nous est donnée. Notre connaissance intuitive de la physique nous incite à
penser que le pied d’Obama va amener la balance à surestimer le poids de
la personne qui est montée dessus. Notre connaissance intuitive de la
psychologie nous dit que la personne sur la balance n’a pas conscience
qu’Obama pèse lui aussi sur la balance – nous déduisons cela de la direction
du regard de la personne, et nous savons qu’elle n’a pas les yeux derrière la
tête. Nous comprenons également qu’elle ne sent probablement pas la
légère pression du pied qu’Obama exerce sur la balance. Notre théorie de
l’esprit nous amène en outre à prédire que l’homme sera mécontent lorsque
la balance montrera que son poids est plus élevé qu’il ne le pensait.
Enfin, nous reconnaissons qu’Obama et les autres personnes qui
observent cette scène sourient – nous déduisons de leurs expressions qu’ils
s’amusent du tour qu’Obama joue à l’homme sur la balance, et s’amusent
peut-être d’autant plus qu’ils n’ignorent pas le statut d’Obama. Nous
reconnaissons également qu’ils s’amusent gentiment, et qu’ils attendent de
l’homme sur la balance qu’il se mette à rire quand il découvrira la
plaisanterie. Karpathy écrit : « Vous raisonnez sur [l’] état d’esprit des gens
et leur perception de l’état d’esprit d’une autre personne. C’est terriblement
méta. »
En résumé, « il est ahurissant que toutes ces déductions résultent d’un
simple regard sur un ensemble bidimensionnel de valeurs [de pixels]. »
Selon moi, l’exemple de Karpathy rend magnifiquement la complexité de
la compréhension humaine et illustre avec une clarté cristalline l’ampleur
du défi qui se pose à l’IA. Ce post de Karpathy a été rédigé en 2012, mais
son message est tout aussi vrai aujourd’hui et, j’en suis persuadé, restera
vrai pendant longtemps encore.
Karpathy conclut son post sur cette pensée :

Une conclusion qui me semble incontournable est que nous pouvons […]
avoir besoin de programmes incarnés et que la seule façon de construire des
ordinateurs capables d’interpréter des scènes comme nous le faisons, nous,
est de les laisser exposés aux expériences (structurées, temporellement
cohérentes) que nous vivons années après années, à la capacité d’interagir
avec le monde, et à une architecture d’apprentissage/déduction
magiquement active que je peux à peine imaginer quand je repense à ce
dont elle devrait être capable.

Au xviie siècle, le philosophe René Descartes a émis l’hypothèse que nos


corps et nos pensées sont composés de substances différentes et soumis à
des lois physiques différentes*26. Depuis les années 1950, les approches
dominantes de l’IA ont implicitement adopté la thèse de Descartes et
supposent que l’on peut atteindre l’intelligence générale en utilisant des
ordinateurs désincarnés. Toutefois, une petite fraction de la communauté de
l’IA a constamment défendu l’hypothèse dite de l’incarnation, à savoir la
prémisse selon laquelle une machine ne peut acquérir une intelligence de
niveau humain sans posséder une sorte de corps qui interagit avec le
monde*27. De ce point de vue, un ordinateur posé sur un bureau, voire un
cerveau désincarné se développant dans une cuve, ne pourrait jamais
acquérir les concepts nécessaires à la formation d’une intelligence de
niveau général. Autrement dit, le seul bon type de machine – celui qui est
incarné et actif dans le monde – aurait une intelligence de niveau humain à
sa portée. Comme Karpathy, je peux difficilement imaginer les percées dont
nous aurions besoin pour construire une telle machine. Mais après m’être
colletée de nombreuses années avec l’IA, je trouve l’argument de
l’incarnation de plus en plus convaincant.
16

Questions, réponses et réflexions

Vers la fin de son livre de 1979, Gödel, Escher, Bach, Douglas Hofstadter
s’est interrogé sur l’avenir de l’IA. Dans une section appelée « Dix
questions et réflexions », il posa et répondit à des questions non seulement
sur le potentiel de la pensée machine, mais aussi sur la nature générale de
l’intelligence. Cette section me captiva lorsque je la lus, peu après
l’obtention de ma licence universitaire. Les réflexions de Hofstadter me
convainquirent que, malgré tout le battage médiatique concernant
l’imminence d’une intelligence artificielle de niveau humain (le même
phénomène qu’on observe aujourd’hui s’est produit dans les années 1980),
cette discipline était en fait largement ouverte et grandement en manque
d’idées nouvelles. Il y avait encore une multitude d’importants défis qui
attendaient les jeunes gens qui, comme moi, débutaient dans cette
discipline.
Aujourd’hui, quatre décennies plus tard, j’ai pensé qu’il conviendrait de
clore ce livre sur quelques-unes de mes questions, réponses et réflexions, en
hommage aux réflexions d’Hofstadter dans GEB et comme un moyen de
lier ensemble les idées que j’ai présentées.

Question : Dans combien de temps les voitures autonomes seront-


elles une banalité ?
Cela dépend de ce qu’on entend par « autonome ». L’Agence Nationale de
la Sécurité Routière américaine a défini six niveaux d’autonomie pour les
véhicules, à savoir, en substance*1 :

NIVEAU 0 : Le conducteur humain se charge entièrement de la conduite.


NIVEAU 1 : Le véhicule aide parfois le conducteur humain au niveau de la
direction ou de la vitesse du véhicule, mais pas des deux à la fois.
NIVEAU 2 : Le véhicule contrôle simultanément sa conduite et sa vitesse
dans certaines situations précises (habituellement, la conduite sur les voies
rapides telles que les autoroutes ou les routes nationales). Le conducteur
humain doit être constamment en alerte (« surveiller l’environnement de la
conduite ») et faire tout le reste nécessaire à la conduite, tel que changer de
voie, quitter l’autoroute, s’arrêter aux feux tricolores, laisser la place pour
les voitures de police, etc.
NIVEAU 3 : Le véhicule peut effectuer tous les aspects de la conduite dans
certaines circonstances, mais le conducteur humain doit être constamment
vigilant et prêt à reprendre le contrôle à chaque instant dès que le véhicule
le lui demande.
NIVEAU 4 : Le véhicule se charge entièrement de la conduite dans
certaines circonstances. Dans ces circonstances, l’humain n’a pas besoin de
faire attention.
NIVEAU 5 : Le véhicule se charge de la conduite en toutes circonstances.
Les occupants humains ne sont que des passagers, jamais impliqués dans la
conduite.

Je suis certaine que vous avez remarqué le très important garde-fou


« dans certaines circonstances ». Il n’y a aucun moyen de faire la liste
exhaustive des circonstances dans lesquelles un véhicule de niveau 4, par
exemple, pourrait se charger entièrement de la conduite, bien que l’on
puisse imaginer de nombreuses circonstances qui présenteraient des
difficultés pour un véhicule autonome – mauvais temps, forte densité
du trafic urbain, circulation dans une zone en construction, conduite sur une
route étroite à double sens sans marquage au sol, etc.
Au moment où ces lignes sont écrites, la plupart des voitures en
circulation sont entre les niveaux 0 et 1 – elles contrôlent la vitesse, mais
pas la direction ou le freinage. Certains modèles de voitures récents – ceux
avec « régulateur de vitesse intelligent » – sont classés au niveau 1. Il existe
actuellement quelques types de véhicules de niveaux 2 et 3, telles les
voitures Tesla dotées d’un pilotage automatique. Les fabricants et les
utilisateurs de ces derniers véhicules en sont encore à découvrir les
situations que recouvrent les « certaines circonstances » dans lesquelles le
conducteur humain doit prendre le relais. Il existe également des véhicules
expérimentaux capables de fonctionner de manière pleinement autonome
dans des contextes passablement divers, mais ces véhicules ont encore
besoin de « conducteurs de sécurité » humains prêts à prendre le relais à
tout instant. Plusieurs accidents mortels dus à des voitures autonomes – y
compris des voitures en phase expérimentale – se sont produits lorsqu’un
humain censé prendre le relais a relâché son attention.
L’industrie du véhicule autonome fait le maximum pour produire et
vendre des véhicules pleinement autonomes (c’est-à-dire de niveau 5) ; de
fait, le buzz sur les voitures autonomes ne cesse depuis longtemps de nous
promettre, à nous les consommateurs, une totale autonomie. Quels obstacles
empêchent donc de conférer une authentique autonomie à nos voitures ?
Les principaux obstacles sont les situations de type longue traîne (« cas
aberrants ») que j’ai décrites au chapitre 6, sur lesquelles le véhicule n’a pas
été entraîné. Elles peuvent survenir rarement individuellement, mais voir
leur nombre s’accroître considérablement lorsque les véhicules autonomes
se multiplieront. Je l’ai dit, les conducteurs humains gèrent ces événements
en utilisant leur sens commun – en particulier, leur aptitude à comprendre et
faire des prédictions sur les situations nouvelles par analogie avec celles
qu’ils ont déjà rencontrées.
La pleine autonomie des véhicules nécessite également les connaissances
intuitives de base que j’ai décrites au chapitre 14, à savoir une intuition de
la physique, de la biologie et surtout de la psychologie. Afin de
parfaitement maîtriser sa voiture dans toutes les circonstances,
un conducteur a besoin de percevoir les motivations, les objectifs et même
les émotions des autres conducteurs, cyclistes, piétons et animaux présents
sur la chaussée. Prendre la mesure d’une situation complexe et voir en une
fraction de seconde qui a de fortes chances de traverser en dehors des clous,
de courir prendre un bus, de tourner brusquement sans prévenir, ou de
s’arrêter sur un passage pour piétons pour arranger un haut talon cassé –
c’est la seconde nature de la plupart des conducteurs humains, mais pas
encore celle des voitures autonomes.
Une autre menace pèse sur les véhicules autonomes : les attaques
malveillantes. Les experts en sécurité informatique ont montré qu’un bon
nombre de voitures non autonomes que nous conduisons aujourd’hui – qui
sont de plus en plus contrôlées par des ordinateurs – sont vulnérables à la
malveillance informatique via leurs connexions aux réseaux sans fil tels que
Bluetooth, aux réseaux téléphoniques cellulaires et aux connexions
internet*2. Comme les voitures autonomes seront totalement contrôlées par
des logiciels, elles seront potentiellement bien plus vulnérables au piratage
malveillant. En outre, comme je l’ai dit au chapitre 6, les chercheurs en
apprentissage machine ont montré que l’on peut concevoir des « attaques
adverses » contre les systèmes de vision par ordinateur de voitures
autonomes – attaques dont certaines sont aussi simples que la pose
d’autocollants sur des panneaux stop qui amène la voiture à les prendre
pour les panneaux de limitation de vitesse. Le développement d’une
sécurité informatique adaptée aux voitures autonomes sera aussi important
que celui de toute autre composante de la technologie de la conduite
autonome.
Malveillance informatique mise à part, il y aura un autre problème que
nous pourrions appeler la nature humaine. Des gens voudront
inévitablement jouer des tours aux voitures pleinement autonomes – par
exemple, en montant et descendant d’un trottoir (prétendant ainsi être sur le
point de traverser la rue) pour empêcher la voiture d’avancer. Comment
programmer les voitures pour qu’elles reconnaissent et gèrent de tels
comportements ? Les véhicules pleinement autonomes posent aussi des
problèmes juridiques majeurs, tels que la répartition des responsabilités en
cas d’accident et la détermination du type d’assurance requis.
Il y a une question particulièrement épineuse concernant l’avenir des
voitures autonomes : cette industrie doit-elle viser l’autonomie partielle,
dans laquelle la voiture s’occupe entièrement de la conduite « dans
certaines circonstances » tout en obligeant le conducteur humain à rester
vigilant et à prendre le relais si nécessaire ? Ou doit-elle avoir comme seul
but la pleine autonomie, dans laquelle l’être humain peut faire entièrement
confiance à la voiture pour ce qui concerne la conduite ?
La technologie des véhicules pleinement autonomes qui peuvent rouler
seuls dans presque toutes les situations n’existe pas encore en raison des
problèmes que j’ai décrits plus haut. On peut difficilement prédire quand
ces problèmes seront résolus ; selon les « experts », c’est une affaire de
quelques années à plusieurs décennies. N’oublions pas la maxime : les
premiers 90 % d’un projet technologique complexe prennent 10 % du temps
tandis que les derniers 10 % en prennent 90 %.
La technologie de l’autonomie partielle de niveau 3 est aujourd’hui une
réalité. Mais comme on l’a démontré à maintes reprises, les humains gèrent
de manière générale très mal l’autonomie partielle. Dans le cas des voitures
partiellement autonomes, même s’ils savent qu’ils sont censés être
constamment vigilants, ils ont parfois des passages à vide, et comme les
voitures ne sont pas capables de gérer toutes les situations qui surviennent,
il y a des accidents.
Où en sommes-nous maintenant ? Atteindre une conduite pleinement
autonome exige avant tout une IA générale, ce que nous ne connaîtrons
probablement pas avant longtemps. Des voitures partiellement autonomes
existent actuellement, mais elles sont dangereuses parce que les humains
qui les conduisent ne font pas toujours attention. La meilleure solution de ce
dilemme consiste probablement à changer la définition de l’autonomie
totale en restreignant la circulation des voitures autonomes à des zones
précises – celles où est mise en œuvre une infrastructure garantissant la
sûreté des voitures. Une version courante de cette solution s’appelle le
« géocloturage » (« geofencing » en anglais). Jackie DiMarco, ancienne
ingénieure en chef pour les véhicules autonomes de la Ford Motor
Company explique ainsi le géocloturage :

Lorsque nous parlons d’autonomie de niveau 4, nous parlons d’autonomie


totale au sein d’un géocloturage, donc au sein d’une zone dont nous
possédons une carte à haute définition. Une fois que vous avez cette carte,
vous connaissez votre environnement. Vous savez où se trouvent les
réverbères, les passages pour piétons, les règles de circulation, la vitesse
limite, etc. Nous voyons l’autonomie naître à l’intérieur d’un certain
géocloturage, puis s’y développer à mesure que progresse la technologie,
notre savoir, et notre capacité à résoudre un plus grand nombre
de problèmes*3.

Bien entendu, ces casse-pieds d’humains ne disparaissent pas du


géocloturage. Andrew Ng, chercheur en IA, suggère qu’il faut apprendre
aux piétons à se comporter de manière plus prédictible au voisinage des
véhicules autonomes : « Nous disons aux gens, “S’il vous plaît, respectez la
loi et soyez courtois.” »*4 Drive.ai, l’entreprise de véhicules autonomes de
Ng, a monté une flotte de taxis-fourgonnettes pleinement autonomes, qui
prennent et déposent des passagers dans des zones convenablement
géocloturées, d’abord au Texas, l’un des rares États dont les lois autorisent
ce type de véhicules. Les résultats de cette expérience, complète avec ses
programmes optimistes d’éducation piétonnière, nous serons bientôt
connus.

Question : L’IA se soldera-t-elle par un énorme chômage humain ?


Je ne sais pas. Je pense que non, du moins pas avant longtemps. La maxime
de Marvin Minsky, « les choses faciles sont difficiles », reste valide pour
une grande part de l’IA, et nombre de métiers humains sont probablement
bien plus difficiles pour les ordinateurs (ou les robots) qu’on pourrait le
penser.
Il est clair que des systèmes d’IA remplaceront un jour les humains dans
certaines professions ; cela est déjà arrivé, souvent au bénéfice de la société.
Mais personne aujourd’hui ne sait quel sera l’effet global de l’IA sur
l’emploi, parce que personne ne peut prédire ce dont seront capables les
futures technologies liées à l’IA.
De nombreux rapports ont été publiés sur les effets probables de l’IA sur
l’emploi, rapports particulièrement focalisés sur la vulnérabilité des
millions de métiers liés à la conduite automobile. Peut-être les humains
travaillant dans ces métiers finiront-ils par être remplacés, mais l’incertitude
qui entoure le moment où la conduite autonome se généralisera rend
difficile à prévoir le calendrier de ce changement.
Malgré cette incertitude, la question technologie et emplois fait partie (à
juste titre) de la discussion globale en cours sur l’éthique de l’IA. Plusieurs
personnes ont remarqué qu’historiquement, les nouvelles technologies ont
créé autant de nouveaux métiers qu’elles en ont remplacés, et que l’IA
pourrait ne pas faire exception à ce phénomène. Peut-être supprimera-t-elle
des emplois de camionneur, mais la nécessité de développer une éthique de
l’IA amènera cette discipline à créer de nouveaux postes pour les
philosophes de la moralité. Je le dis non pour atténuer ce problème
potentiel, mais pour exprimer l’incertitude liée à cette question. En 2016, un
rapport minutieusement documenté publié par l’US Council of Economic
Advisers (Conseil des conseillers économiques des États-Unis) et traitant
des effets possibles de l’IA sur l’économie, a souligné le point suivant : « Il
existe une importante incertitude concernant l’impact de ces effets et la
vitesse à laquelle ils vont arriver. […] Selon les données actuellement
disponibles, il n’est pas possible de faire des prédictions précises, de sorte
que les décideurs politiques doivent s’attendre à un éventail d’issues
potentielles. »*5

Question : Un ordinateur peut-il être créatif ?


Pour de nombreuses personnes, l’idée d’un ordinateur créatif fait un peu
oxymore. Après tout, la nature même d’une machine est d’être
« mécanique » – terme qui, dans le langage quotidien, suggère l’opposé de
la créativité. Un sceptique pourrait dire : « Un ordinateur ne peut faire que
ce pour quoi il est programmé par un humain. Il ne peut donc être créatif ;
la créativité exige de créer quelque chose par soi-même. »*6
Je pense que ce point de vue – qu’un ordinateur, par définition, ne peut
être créatif parce qu’il ne peut faire que ce pour quoi il est explicitement
programmé – est erroné. Il y a de nombreuses façons dont un programme
informatique peut générer des choses auxquelles son programmeur n’a
jamais pensé. Mon programme Copycat (décrit au précédent chapitre)
sortait souvent des analogies qui ne me seraient jamais venues à l’esprit
mais qui avaient leur propre étrange logique. Je crois qu’en principe, un
ordinateur peut être créatif. Mais je crois également qu’être créatif signifie
être capable de comprendre et de juger ce que l’on a créé. Si l’on prend le
mot « créativité » dans ce sens, aucun ordinateur actuel ne peut être qualifié
de créatif.
Dans ce même contexte, on peut se demander si un programme
informatique peut créer une belle œuvre d’art ou de musique. Malgré
l’extrême subjectivité de la notion de beauté, ma réponse est
catégoriquement oui. Il existe de nombreuses œuvres d’art générées par
ordinateur que je trouve belles. C’est le cas par exemple des œuvres style
« art génétique » créées par l’informaticien et artiste Karl Sims.*7 Sims a
programmé des ordinateurs pour générer des œuvres d’art numériques en
utilisant un algorithme vaguement inspiré de la sélection naturelle
darwinienne. Utilisant des fonctions mathématiques associées à des
éléments aléatoires, le programme de Sims générait plusieurs œuvres d’art
candidates. Une personne sélectionnait celle qu’elle aimait le plus. Le
programme créait des variantes de l’œuvre sélectionnée en introduisant de
l’aléatoire dans les fonctions mathématiques sous-jacentes. La personne
choisissait alors de nouveau sa préférée parmi les mutations, et ainsi de
suite, sur de nombreuses itérations. Ce processus a généré de remarquables
œuvres abstraites souvent exposées dans des musées.
Dans le projet de Sim, la créativité résulte de la collaboration entre
l’humain et l’ordinateur : l’ordinateur génère les œuvres d’art initiales et
leurs variantes successives, tandis que l’être humain fournit le jugement sur
les œuvres résultantes, jugement qui découle lui-même de la compréhension
humaine de concepts artistiques abstraits. L’ordinateur n’ayant absolument
aucune compréhension, il n’est pas, en lui-même, créatif.
Il existe des exemples similaires de création musicale dans laquelle un
ordinateur est capable de créer de la belle musique (ou du moins agréable),
mais selon moi la créativité résulte uniquement de la collaboration avec un
humain qui prête son aptitude à comprendre ce qui fait de la bonne musique
et donc livre un jugement sur la sortie de l’ordinateur.
Le plus célèbre programme informatique à avoir composé de la musique
de cette façon fut l’Experiments in Musical Intelligence (EMI, Expériences
en intelligence musicale)*8, que j’ai mentionné dans le prologue. L’EMI fut
conçu pour composer de la musique dans le style de divers compositeurs
classiques, et certaines de ses créations parvinrent même à mystifier des
musiciens professionnels en leur faisant croire qu’elles avaient été écrites
par le véritable compositeur.
L’EMI fut inventé par le compositeur David Cope, initialement pour
servir d’« assistant personnel du compositeur ». Cope avait été intrigué par
la longue tradition consistant à employer l’aléatoire pour générer de la
musique. Un célèbre exemple de cette tradition est le « jeu de dés
musical », auquel jouaient Mozart et d’autres compositeurs du xviiie siècle, et
dans lequel un compositeur découpait une œuvre musicale en petits
segments (par exemple, les mesures individuelles), puis lançait les dés pour
déterminer la position de ces segments dans la nouvelle œuvre.
L’EMI était en quelque sorte un jeu de dés musical poussé à l’extrême.
Pour que l’EMI compose, par exemple, dans le style de Mozart, Cope
choisissait d’abord dans l’œuvre de Mozart un grand nombre de courts
fragments musicaux puis leur appliquait un programme informatique de sa
création qui identifiait des motifs musicaux clés qu’il appelait « signatures »
et qui aidaient à définir le style distinctif du compositeur. Cope avait écrit
un autre programme qui classait chaque signature en fonction des rôles
musicaux particuliers qu’elle pouvait jouer dans un morceau. Ces signatures
étaient stockées dans une base de données correspondant au compositeur
(Mozart, dans notre exemple). Cope avait également fixé dans l’EMI un
ensemble de règles – sorte de « grammaire » musicale – qui exprimaient les
contraintes auxquelles devaient obéir les recombinaisons des variantes des
signatures pour créer une musique cohérente dans un style particulier.
L’EMI utilisait un générateur de nombres aléatoires (l’équivalent
informatique des lancers de dés) pour sélectionner les signatures et créer à
partir d’elles des fragments musicaux ; le programme utilisait ensuite sa
grammaire musicale pour décider en partie de l’ordre dans lequel placer les
fragments.
L’EMI pouvait ainsi générer une infinité de nouvelles compositions
« dans le style » de Mozart ou de tout autre compositeur pour lequel existait
une base de données de signatures musicales. Cope a minutieusement
sélectionné les meilleures compositions de l’EMI pour les commercialiser.
J’en ai écouté plusieurs ; selon moi, elles vont de médiocre à étonnamment
remarquable, certaines contiennent des passages d’une réelle beauté, mais
aucune n’a la profondeur de l’œuvre originelle. (Bien entendu, je dis cela en
sachant à l’avance que les morceaux sont des créations de l’EMI, de sorte
que je ne suis pas à l’abri de préjugés.) Les morceaux plus longs
contiennent souvent des passages superbes, mais ont aussi une tendance non
humaine à perdre le fil d’une idée musicale. Dans l’ensemble cependant, les
compositions publiées par l’EMI réussissaient parfaitement à rendre le style
de plusieurs compositeurs classiques.
L’EMI était-il créatif ? Ma réponse est non. La musique qu’il a produite
fut parfois excellente, mais elle reposait sur les connaissances
musicologiques de Cope, connaissances incluses dans les signatures
musicales que Cope organisait et les règles musicologiques qu’il concevait.
Point très important, j’irais jusqu’à dire que le programme ne comprenait
pas réellement la musique qu’il produisait – que ce soit en termes de
concepts musicaux ou en termes d’impact émotionnel de la musique. Pour
ces raisons, l’EMI ne pouvait juger la qualité de sa propre musique. C’était
le travail de Cope ; il disait simplement : « Les œuvres que j’aime sont
publiées et celles que je n’aime pas ne le sont pas. »*9
En 2005, suite à une décision que je trouve déconcertante, Cope détruisit
la totalité de sa base de données de signatures musicales. La principale
raison qu’il invoqua fut que les compositions de l’EMI étant très facilement
et indéfiniment reproductibles, elles étaient dépréciées par la critique. Selon
Cope, l’EMI ne se verrait reconnaître la qualité de compositeur que s’il
avait, comme l’a écrit la philosophe Margaret Boden, une « œuvre finie –
comme en ont les compositeurs pendant leur temps fini sur terre. »*10
Je ne sais si mon opinion sera d’une quelconque consolation pour
Douglas Hofstadter, qui fut si bouleversé par les plus impressionnantes
compositions de l’EMI et leur aptitude à mystifier des musiciens
professionnels. Je comprends le souci de Hofstadter. Comme l’a observé le
spécialiste de la littérature Jonathan Gottschall, « l’art est probablement ce
qui distingue le plus les humains du reste de la création. Il est la chose qui
nous rend le plus fier de nous-mêmes. »*11 Mais j’ajouterais que ce qui nous
rend fiers n’est pas seulement la production artistique, mais aussi notre
aptitude à l’apprécier, à comprendre ce qui la rend émouvante et ce qu’elle
communique. Cette appréciation et cette compréhension sont essentielles
tant pour le public que pour l’artiste ; sans cela, je ne peux dire d’une
création qu’elle est « créative ». En somme, pour répondre à la question
« un ordinateur pourrait-il être créatif ? », je dirais oui en principe, mais
cela n’arrivera pas de sitôt.

Question : Combien d’années nous séparent encore de la création


d’une IA de niveau humain ou général ?
Je répondrai à cette question en citant Oren Etzioni, directeur de l’Allen
Institute for Artificial Intelligence : « Prenez votre estimation, doublez-la,
triplez-la, quadruplez-la. Cela vous dira quand. »*12
Autre réponse, rappelez-vous ce que disait Andrej Karpathy au précédent
chapitre : « Nous sommes vraiment, vraiment loin. »*13
C’est aussi mon point de vue.
Les premiers calculateurs furent des êtres humains. De fait, durant la
Seconde Guerre mondiale, ce furent généralement des femmes qui faisaient,
à la main ou sur des calculatrices mécaniques de bureau, les calculs de
trajectoire pour aider les soldats à orienter leurs pièces d’artillerie. Jusque
dans années 1960, les ordinateurs s’appelaient des « calculateurs »*14. Peu
de temps auparavant, notamment pendant la Seconde Guerre mondiale, les
premiers « calculateurs » furent, en fait, des « calculatrices », des femmes
chargées de calculer les trajectoires des missiles ennemis pour améliorer la
riposte de leurs propres artilleurs. Dans les années 1930 et 1940, explique
Claire Evans dans son livre Broad Band, « le terme “fille” était synonyme
de “calculateur”. Un membre du Comité National de la Recherche pour la
Défense avait même créé une unité de calcul appelée “kilo-fille” et
désignant l’équivalent d’un millier d’heures de calculs. »
Au milieu des années 1940, les calculateurs électroniques remplacèrent
les calculateurs humains et dépassèrent immédiatement les humains :
contrairement à tout calculateur humain, les machines pouvaient calculer
« la trajectoire d’un obus plus rapidement qu’il ne se déplaçait. »*15 Ce fut la
première des nombreuses tâches restreintes dans lesquelles les ordinateurs
ont excellé. Les ordinateurs actuels – programmés avec des algorithmes
d’IA dernier cri – maîtrisent de nombreuses autres tâches limitées, mais
l’intelligence générale leur échappe encore.
L’histoire de ce domaine montre que de célèbres praticiens de l’IA ont
prédit que l’IA générale arrivera dans dix ans, ou quinze, ou vingt, ou
« dans une génération. » Toutefois, aucune de ces prédictions ne s’est
réalisée. Je l’ai dit au chapitre 3, le « pari à long terme » entre Ray
Kurzweil et Mitchell Kapor sur la possibilité qu’un programme réussisse un
test de Turing minutieusement préparé sera tranché en 2029.
Personnellement, je parie sur Kapor ; je partage tout à fait ses sentiments,
cités dans le prologue : « L’intelligence humaine est un phénomène
merveilleux, subtil et mal compris. Il n’y a aucun danger à la dupliquer dans
un futur proche. »*16
« La prédiction est un art difficile, surtout lorsqu’elle concerne l’avenir. »
Si l’on ignore l’origine de ce spirituel aphorisme, il reste néanmoins vrai en
IA comme dans d’autres domaines. Plusieurs enquêtes menées auprès de
praticiens de l’IA leur demandant quand arriverait l’IA générale ou l’IA
« superintelligente » ont donné un large éventail d’opinions allant de « lors
des dix prochaines années » à « jamais. »*17. Autrement dit, nous n’en avons
pas la moindre idée.
Ce que nous savons, c’est que l’IA de niveau humain général exigera des
aptitudes que les chercheurs en IA s’efforcent depuis des décennies de
comprendre et de reproduire – notamment le sens commun, l’abstraction et
l’analogie –, mais ces aptitudes se sont révélées profondément
insaisissables. D’autres grandes questions demeurent : l’IA générale
exigera-t-elle de la conscience ? Exigera-t-elle d’avoir un sentiment de soi ?
De ressentir des émotions ? De posséder un instinct de survie et la peur de
la mort ? D’avoir un corps ? Rappelons la citation de Marvin Minsky que
j’ai donnée plus haut, « Nos idées sur l’esprit sont encore en période de
formation. »
Je trouve que la question de l’arrivée dans les ordinateurs de la
superintelligence – d’« un esprit très supérieur aux meilleurs cerveaux
humains dans pratiquement tous les domaines, notamment en créativité
scientifique, sagesse générale et savoir-vivre »*18 – pour le moins très
contrariante.*19.
Plusieurs auteurs ont affirmé que si les ordinateurs atteignent l’IA de
niveau humain général, ces machines deviendront rapidement
« superintelligentes » dans un processus semblable à l’« explosion de
l’intelligence » imaginée par I. J. Good (décrite au chapitre 3). L’idée est
qu’un ordinateur doté d’une intelligence générale sera capable de lire, à une
vitesse foudroyante, tous les documents écrits par l’humanité et d’apprendre
tout ce qu’il y a à connaître. De même, il pourra découvrir, grâce à ces
capacités de déduction sans cesse croissantes, toutes sortes de
connaissances nouvelles qu’il pourra transformer en un nouveau pouvoir
cognitif pour lui-même. Une telle machine ne serait pas contrainte par les
limitations plutôt agaçantes des humains, telles que la lenteur de notre
pensée et de notre apprentissage, notre irrationalité et nos biais cognitifs,
notre vulnérabilité à l’ennui, notre besoin de sommeil, et nos émotions, tout
ce qui barre le passage à la pensée productive. De ce point de vue, une
machine superintelligente engloberait quelque chose proche de
l’intelligence « pure », affranchie de la moindre de nos faiblesses humaines.
Ce qui me semble plus probable, c’est que ces soi-disant limitations des
humains font partie intégrante de notre intelligence générale.
Les limitations cognitives qui nous sont imposées par nos corps qui doivent
fonctionner dans le monde, ainsi que les émotions et les biais
« irrationnels » nous permettant de fonctionner en tant que groupe social, et
toutes les autres qualités parfois considérées comme des « défauts »
cognitifs sont en fait précisément ce qui nous donne une intelligence
générale au lieu d’être des savants bornés. Je ne saurais le prouver, mais je
pense qu’il est probable que l’intelligence générale ne peut être séparée de
tous ces défauts apparents, chez les humains comme chez les machines.
Dans GEB, à la section « Dix questions et réflexions », Douglas
Hofstadter a abordé ce problème en posant une question plus complexe
qu’il n’y paraît : « Un ordinateur pensant pourra-t-il additionner
rapidement ? » Sa réponse m’a surprise lorsque je l’ai lue pour la première
fois, mais aujourd’hui elle me semble correcte : « Peut-être pas. Nous
sommes nous-mêmes composés d’éléments matériels qui font des calculs
compliqués, mais cela ne veut pas dire que le niveau de symboles auquel
“nous”, nous nous trouvons, sait comment effectuer les mêmes calculs
compliqués. […] Heureusement pour vous, le niveau de vos symboles
(c’est-à-dire vous) ne peut pas accéder aux neurones qui produisent vos
pensées, sans quoi vous en perdriez la tête. […] Pourquoi n’en serait-il pas
de même pour un programme intelligent ? » Hofstadter expliqua ensuite
qu’un programme intelligent représenterait, comme nous, les nombres par
« [d’]authentique[s] concept[s], appelant des associations […]. Toute cette
charge supplémentaire ralentira nettement le processus d’addition d’un
programme intelligent. »*20

Question : Devons-nous avoir peur de l’IA ?


Si vous partez du cinéma et de la science-fiction (voire la non-fiction
populaire) pour vous faire une idée de l’IA, vous redouterez qu’elle ne
devienne consciente, malveillante, et tente de nous asservir ou de nous tuer
tous. Toutefois, cette discipline semblant encore très loin d’atteindre une
chose qui ressemble un tant soit peu à l’intelligence générale, ce n’est pas
ce qui inquiète la plupart des membres de la communauté de l’IA. Je n’ai
cessé de le dire dans ce livre, il existe de nombreuses raisons de s’inquiéter
de la ruée de notre société vers la technologie de l’IA : la possibilité de
massives pertes d’emplois, les possibilités d’usages abusifs des systèmes
d’IA, le manque de fiabilité de ces systèmes et leur vulnérabilité aux
attaques – ce sont là quelques-unes seulement des très légitimes inquiétudes
des gens concernant l’impact de cette technologie sur l’existence humaine.
J’ai ouvert ce livre sur le désarroi de Douglas Hofstadter face aux récents
progrès en IA, mais ce qui le terrifiait, dans l’ensemble, était une chose
totalement différente. Il craignait que la cognition et la créativité humaines
soient trop facilement égalées par des programmes d’IA et que les sublimes
créations des esprits humains qu’il révérait le plus – Chopin, par exemple –
puissent être rivalisées par des algorithmes superficiels, tel l’EMI et
l’ensemble de ses « astuces ». Il redoutait que « la banalisation, par une
petite puce, de nos esprits d’une subtilité, d’une complexité et d’une
profondeur émotionnelle infinies ne détruise l’idée que je me fais de notre
humanité. » Il était pareillement troublé par les prédictions de Kurzweil à
propos de la Singularité à venir et considérait que si Kurzweil s’avérait
avoir le moins du monde raison, « nous serions supplantés. Nous serions
des reliques, complètement largués par les machines. »
Je comprends ce que ressent Hofstadter à propos de ces inquiétudes, mais
je pense qu’elles sont sans doute prématurées. Le message à retenir de ce
livre est avant tout que nous autres humains avons tendance à surestimer les
progrès de l’IA et à sous-estimer la complexité de notre propre intelligence.
L’IA actuelle est loin de l’intelligence générale, et je ne crois pas que la
« superintelligence » machine émerge le moins du monde à l’horizon. Si
l’IA générale se manifeste un jour, je suis prête à parier que sa complexité
égalera celle de nos propres cerveaux.
Dans tout classement de nos inquiétudes à court terme concernant l’IA, la
superintelligence devrait figurer en bas de liste. En fait, le vrai problème est
l’opposé de la superintelligence. Tout au long de ce livre, j’ai décrit la
fragilité des systèmes d’IA, même les plus accomplis : ils n’ont pas la
souplesse de la pensée humaine ; ils commettent des erreurs lorsque leurs
entrées varient trop par rapport aux exemples sur lesquels ils ont été
entraînés. Il est souvent difficile de prédire les circonstances dans lesquelles
se révélera leur manque de souplesse. Lors de la transcription de la parole,
de la traduction linguistique, de la description d’une photo, de la conduite
d’un véhicule dans une ville grouillante de monde – si la robustesse de la
performance est cruciale, la surveillance humaine reste indispensable. Je
pense qu’à court terme, le point le plus inquiétant avec les systèmes d’IA
est que nous risquons de leur donner trop d’autonomie alors que nous
n’avons pas pleinement conscience de leurs limitations et de leurs
vulnérabilités. Nous avons tendance à les anthropomorphiser : nous leur
attribuons des qualités humaines et surestimons la mesure dans laquelle
nous pouvons réellement leur faire confiance.
Écrivant sur les dangers de l’IA, l’économiste Sendhil Mullainathan a
cité le phénomène de la longue traîne (que j’ai décrit au chapitre 6) dans sa
notion de « risque extrême » :
Nous devrions avoir peur. Non pas des machines intelligentes. Mais des
machines qui prennent des décisions qu’elles n’ont pas l’intelligence de
prendre. J’ai bien plus peur de la stupidité des machines que de
l’intelligence des machines. La stupidité des machines crée un risque dans
des situations possibles, mais très inhabituelles. Les machines peuvent
prendre de très nombreuses bonnes décisions puis un jour, échouer
spectaculairement sur un événement rare qui n’est pas apparu dans leurs
données d’apprentissage. C’est là la différence entre l’intelligence
spécifique et l’intelligence générale*21.

Ou comme l’a si mémorablement formulé le chercheur en IA Pedro


Domingos : « Les gens craignent que les ordinateurs deviennent trop
intelligents et prennent le pouvoir sur la planète, mais le véritable problème
est qu’ils sont trop stupides et qu’ils ont déjà pris le pouvoir sur la
planète. »*22
Je m’inquiète du manque de fiabilité de l’IA. Je m’inquiète également de
l’usage que l’on en fera. Outre les considérations éthiques que j’ai exposées
au chapitre 7, l’un des développements particuliers que je trouve effrayants
est l’utilisation de systèmes d’IA pour générer de faux médias : des textes,
des sons, des images et des vidéos qui décrivent avec un réalisme terrifiant
des événements qui ne sont en fait jamais arrivés.
Devons-nous alors avoir peur de l’IA ? Oui et non. Les machines
superintelligentes, conscientes, ne pointent pas à l’horizon. Les aspects de
notre humanité que nous chérissons le plus ne seront pas égalés par un
ensemble d’astuces informatiques, aussi bien faites qu’elles soient. Du
moins, je ne le pense pas. Par contre, on peut grandement s’inquiéter des
possibilités d’utilisations dangereuses et moralement contestables des
algorithmes et des données. C’est effrayant, mais d’un autre côté, je suis
réconfortée par la grande attention récemment portée sur ce sujet dans et
hors de la communauté de l’IA. Un sentiment de coopération et de
communauté d’objectif émerge actuellement parmi des chercheurs, les
entreprises et les hommes et femmes politiques sur l’urgence de prendre en
compte et résoudre ces problèmes.

Question : Quels problèmes exaltants restent encore à résoudre


en IA ?
Presque tous.
Quand j’ai commencé à travailler en IA, une part de ce que je trouvais
génial était que presque toutes les questions importantes dans cette
discipline étaient ouvertes. Je pense que cela est encore vrai.
Si nous revenons aux débuts de cette discipline, la proposition émise en
1955 par John McCarthy et d’autres chercheurs (décrite au chapitre 1)
énumérait quelques-uns des principaux sujets de recherche en IA : le
traitement du langage naturel, les réseaux neuronaux, l’apprentissage
machine, les concepts abstraits et le raisonnement, et la créativité. En 2015,
Eric Horvitz, directeur de recherche chez Microsoft, a dit en plaisantant que
« l’on pourrait même dire que la proposition [de 1955], correctement
reformatée, pourrait être resoumise aujourd’hui à la National Science
Foundation*23 […] et recevoir probablement des subventions de quelques
gestionnaires de programmes enthousiastes. »*24
Cela n’est en aucun cas une critique des recherches passées en IA.
L’intelligence artificielle est au moins aussi difficile que tout autre grand
défi scientifique posé à l’humanité. Rodney Brooks, du MIT, a dit cela
mieux que personne : « Quand l’IA débuta, la grande idée était clairement
la performance de niveau humain et l’intelligence de niveau humain. Je
pense que cet objectif a été ce qui a attiré la plupart des chercheurs dans ce
domaine durant les premières soixante années. Le fait que nous soyons loin
de parvenir à ces objectifs ne signifie pas que les chercheurs n’aient pas
travaillé dur ou n’aient pas été brillants. Il signifie qu’il s’agit d’un objectif
très difficile à atteindre.*25
En IA, les questions les plus passionnantes ne sont pas uniquement
focalisées sur les applications potentielles. Les fondateurs de la discipline
furent autant motivés par des questions scientifiques sur la nature de
l’intelligence que par le désir de développer de nouvelles technologies. En
fait, l’idée que l’intelligence est un phénomène naturel, susceptible d’être
étudié comme de nombreux autres phénomènes en construisant des modèles
numériques simplifiés, fut la motivation qui attira de nombreuses personnes
(dont moi-même) dans cette discipline.
Les effets de l’IA vont continuer de croître pour nous tous. J’espère que
ce livre vous a aidé, en tant qu’humains pensants, à vous faire une idée de
l’état actuel de cette discipline en plein essor, des nombreux problèmes non
résolus, des risques et bénéfices potentiels de ces technologies, et des
questions scientifiques et philosophiques qu’elle soulève pour la
compréhension de notre propre intelligence humaine. Et si jamais un
ordinateur lit ces lignes et peut me dire à quoi « elle » se réfère dans la
phrase précédente, c’est bien volontiers que nous l’accueillerons dans notre
discussion.
Postface de Douglas Hofstadter

This pre-afterword paragraph and the next few pages constitute a double
closure to this book. The text in English (including these very words inside
this parenthetical comment) was produced by a human being (Douglas
Hofstadter) ; the corresponding text in French was produced by a non-
human non-being (Google Translate). Taken together, this bilingual pair of
texts will give a clear sense of how far we (meaning humanity as a whole)
have come, and how far we still have to go, on the pathway to the holy gr-
AI-l.
Ce paragraphe de pré-postface et les quelques pages suivantes constituent
une double clôture à ce livre. Le texte en anglais (y compris ces mêmes
mots dans ce commentaire entre parenthèses) a été produit par un être
humain (Douglas Hofstadter) ; le texte correspondant en français a été
produit par un non-être non humain (Google Translate). Pris ensemble, cette
paire de textes bilingues donnera une idée claire du chemin parcouru (c’est-
à-dire de l’humanité dans son ensemble) et du chemin qu’il nous reste à
parcourir sur le chemin du saint gr-AI-l.
Version anglaise

I have had some wonderful doctoral students, among whom two of my most
prized were Melanie Mitchell*1 and Bob French. They both joined me in the
mid-1980s at the University of Michigan, ready and raring to get computers
to make analogies in a human-like way. Each of them spent quite a few
tough years under my supervision building a model of analogy-making.
Tabletop was Bob’s, and Copycat was Melanie’s. They were both proud of
their creations, as each analogy-making engine would sometimes come up
with great analogies, but at the same time, they were frustrated by the
pathetic flops of their brainchildren.
You might guess that we in FARG (the Fluid Analogies Research Group),
would feel very let down whenever one of our models showed how
miserable it was at imitating the mind, but in fact we FARGonauts
celebrated these failures, as they revealed that true human intelligence was
still a long ways down the pike.
During Bob’s and Melanie’s doctoral research periods, translation was an
ongoing theme of discussion in FARG, especially of verse, and several of
the FARGonauts did their best to outdo each other, in terms of elegance and
wit, in translating from French to English a certain short poem by sixteenth-
century French poet Clément Marot. Melanie’s fertile mind came up with
two sparkling translations cast in a Shakespearean vein. In one, for
example, where the original lines went: “Va, friande / De ta bouche / Qui se
couche / En danger, / Pour manger / Confitures”, hers (entitled “To my
Sweet”) ran thus: “Come now, poor / Fair sweet-tooth, / Starved, forsooth! /
My heart breaks. / Eat some cakes / And some jam.” It was a telling choice
to insert words with an ancient ring to them, like “forsooth”, and even
“fair”, which we today virtually never use to describe an attractive mien. It
lent her poem an authenticity in the sense of stemming from another era
entirely. As for cake, inserting that was what I would label “poetic lie-
sense”, since of course pastry was nowhere to be found in the original, but
it served as a natural bridge leading smoothly to the idea of jam, thus
elegantly bringing one back to the original. Melanie also employed a rhyme
that today wouldn’t fly – namely, “Then my love / Will remove”
(corresponding to “Et qu’on sorte / Vitement”) – but back in Will’s day, that
kind of rhyme was perfectly fine. All this just to say that we were having a
ball relishing the fruits of genuine human intelligence, as opposed to the
awkward stumblings of a machine simulacrum thereof. The idea that
machines might soon or indeed ever be able to give any of us a run for our
money was certainly was not given the time of day. That was just a far-
fetched pipe dream.
After graduating, Bob and Melanie remained strongly active in cognitive
science (we eschewed the term “artificial intelligence” for our work, our
motivation being to fathom the mind’s mysteries rather than to develop
high-tech products), and Melanie in particular continued her work on
analogy-making.
Over the years, ever more buzz about the prowess of artificial
intelligence was heard, about which I myself was largely skeptical but at
times fearful, especially when certain unexpected thresholds were crossed
(such as a piece of software running on ultra-fast hardware trouncing a top
human player in Go).
Melanie tended to pooh-pooh all the hype of AI reaching and surpassing
human intelligence more readily than I did, but in any case each of us in our
own way devoted a great deal of thought to the nature of AI and whether it
would soon challenge us humans on our own turf. Eventually Melanie’s
musings led to the writing of a book that did its best to lay to rest the
exaggerated claims to which one is exposed all the time today.
In this stellar study, Melanie covers essentially the full span of today’s
AI, showcasing and explaining some of its greatest triumphs while at the
same time revealing the enormous lacunas that remain behind the scenes
and that could cause great dangers should AI be given control of such
things as cars, planes, military decision-making, and so forth. She of course
goes into depth on the topic of deep learning, which is the buzzword most
frequently tossed about by today’s AI-hypers, and debunks it richly. She
also treats the often bandied-about notion of self-driving cars, showing, as
is crucial, how far from being realized full autonomy still is, because of all
the crazy combinations of circumstances that can arise when one is on the
road but cannot conceivably be imagined ahead of time.
In writing this tome, Melanie has wrought a great service not only to the
lay public, which often falls for the most brazen hype, but also to AI
practitioners themselves, who badly need to be made aware of the need for
honesty and humility concerning what thinking is all about, instead of being
allowed by a credulous public to go down the route of hyperbole and
hubris.
Melanie’s French publisher thought it would be great if I were to write an
afterword in French to her book. I had no problem with that, but out of the
blue it occurred to me to write it in English instead and then see what sort
of job current machine-translation software would do with it. The prose you
are now doing your best to make head or tail of was thus written not
directly by yours truly but by Google Translate, and hopefully it will give
you a clear sense of where we are at present in the quest for
computationally mirroring the human mind’s insightfulness.
Version française

J’ai eu de merveilleuses doctorantes, parmi lesquelles deux de mes plus


chères étaient Melanie Mitchell*2 et Bob French. Ils m’ont tous deux rejoint
au milieu des années 1980 à l’Université du Michigan, prêts et impatients
d’obtenir des ordinateurs pour faire des analogies à la manière humaine.
Chacun d’eux a passé quelques années difficiles sous ma supervision à
construire un modèle d’analogie. Le dessus de table était celui de Bob et
Copycat était celui de Mélanie. Ils étaient tous les deux fiers de leurs
créations, car chaque moteur de création d’analogies proposait parfois de
grandes analogies, mais en même temps, ils étaient frustrés par les flops
pathétiques de leurs cerveaux.
Vous pourriez deviner que nous, au FARG (Fluid Analogies Research
Group), nous sentirions très déçus chaque fois qu’un de nos modèles
montrait à quel point il était misérable d’imiter l’esprit, mais en fait, nous,
FARGonauts, avons célébré ces échecs, car ils ont révélé que le véritable
humain l’intelligence était encore loin sur le brochet.
Pendant les périodes de recherche doctorale de Bob et Mélanie, la
traduction était un thème permanent de discussion au FARG, en particulier
de vers, et plusieurs des FARGonauts ont fait de leur mieux pour se
surpasser, en termes d’élégance et d’esprit, en traduisant du français vers
l’anglais une certaine court poème du poète français du xvie siècle Clément
Marot.
L’esprit fertile de Mélanie est venu avec deux traductions étincelantes
dans une veine shakespearienne. Dans une, par exemple, où les lignes
originales allaient : « Va, friande / De ta bouche / Qui se couche / En
danger, / Pour manger / Confitures », la sienne (intitulée « To my Sweet »)
se présentait ainsi : « Come now, pauvre / passable gourmand / affamés,
pardon ! / Mon cœur se brise. / Mange des gâteaux / Et de la confiture. »
C’était un choix révélateur d’insérer des mots avec un anneau ancien,
comme « forsooth », et même « fair », que nous n’utilisons pratiquement
jamais aujourd’hui pour décrire un mien attrayant. Il confère à son poème
une authenticité dans le sens de provenir entièrement d’une autre époque.
En ce qui concerne le gâteau, l’insérer était ce que j’appellerais « sens du
mensonge poétique », car bien sûr la pâtisserie ne se trouvait nulle part dans
l’original, mais elle servait de pont naturel menant en douceur à l’idée de
confiture, apportant ainsi une élégance retour à l’original. Melanie a
également utilisé une comptine qui ne volerait pas aujourd’hui – à savoir,
« Alors mon amour / Will remove » (correspondant à « Et qu’on sorte /
Vitement ») – mais à l’époque de Will, ce genre de rime était parfaitement
bien. Tout cela juste pour dire que nous nous amusions à savourer les fruits
d’une véritable intelligence humaine, par opposition aux trébuchements
maladroits d’un simulacre de machine de celle-ci. L’idée que les machines
pourraient bientôt ou même être en mesure de donner à chacun d’entre nous
une course pour notre argent n’a certainement pas été donnée à l’heure. Ce
n’était qu’un rêve de pipe tiré par les cheveux.
Après avoir obtenu leur diplôme, Bob et Melanie sont restés fortement
actifs dans les sciences cognitives (nous avons évité le terme « intelligence
artificielle » pour notre travail, notre motivation étant de percer les mystères
de l’esprit plutôt que de développer des produits de haute technologie), et
Melanie en particulier a poursuivi son travail sur l’analogie.
Au fil des ans, on a entendu de plus en plus de buzz sur les prouesses de
l’intelligence artificielle, dont j’étais moi-même largement sceptique mais
parfois craintif, surtout lorsque certains seuils inattendus étaient franchis
(comme un logiciel fonctionnant sur du matériel ultra-rapide meilleur
joueur humain de Go).
Mélanie avait tendance à faire caca-tout le battage médiatique de l’IA
atteignant et dépassant l’intelligence humaine plus facilement que moi,
mais en tout cas chacun de nous, à sa manière, a beaucoup réfléchi à la
nature de l’IA et à son éventuelle remise en question nous les humains sur
notre propre terrain. Finalement, les réflexions de Mélanie ont conduit à
l’écriture d’un livre qui a fait de son mieux pour mettre fin aux affirmations
exagérées auxquelles on est exposé tout le temps aujourd’hui.
Dans cette étude stellaire, Melanie couvre essentiellement toute la durée
de l’IA d’aujourd’hui, présentant et expliquant certains de ses plus grands
triomphes tout en révélant les énormes lacunes qui subsistent dans les
coulisses et qui pourraient causer de grands dangers si l’IA devait contrôler
des choses comme les voitures, les avions, la prise de décision militaire, etc.
Bien sûr, elle approfondit le sujet de l’apprentissage en profondeur, qui est
le mot à la mode le plus souvent évoqué par les hypers IA d’aujourd’hui, et
le démystifie richement. Elle traite également la notion souvent bandée de
voitures autonomes, montrant, comme c’est crucial, à quel point la pleine
autonomie est encore loin d’être réalisée, à cause de toutes les
combinaisons folles de circonstances qui peuvent survenir lorsque l’on est
sur la route mais ne peut pas être imaginé à l’avance.
En écrivant ce tome, Melanie a rendu un grand service non seulement au
public profane, qui tombe souvent sous le coup du battage médiatique le
plus effronté, mais aussi aux praticiens de l’IA eux-mêmes, qui ont
grandement besoin d’être sensibilisés au besoin d’honnêteté et d’humilité
concernant ce qui il s’agit de réfléchir, au lieu d’être autorisé par un public
crédule à emprunter la voie de l’hyperbole et de l’orgueil.
L’éditeur français de Mélanie a pensé que ce serait bien si j’écrivais une
postface en français à son livre. Je n’ai eu aucun problème avec cela, mais
je me suis rendu compte à l’improviste de l’écrire en anglais à la place et de
voir quel type de travail le logiciel de traduction automatique actuel en
ferait. La prose que vous faites maintenant de votre mieux pour faire la tête
ou la queue a donc été écrite non pas directement par la vôtre, mais par
Google Translate, et j’espère qu’elle vous donnera une idée claire de où
nous en sommes actuellement dans la quête de la mise en miroir
informatique de l’humain perspicacité de l’esprit.
Notes et références

Prologue. Terrifié
*1. A. Cuthbertson, « DeepMind AlphaGo : AI Teaches Itself “Thousands of Years of
Human Knowledge” Without Help », Newsweek, 18 octobre 2017,
https://www.newsweek.com/deepmind-alphago-ai-teaches-human-help-687620, consulté le 7
mai 2020.
*2. Dans les sections qui suivent, les citations de Douglas Hofstadter proviennent d’une
interview qu’il m’accordée après la rencontre Google ; elles restituent fidèlement le contenu et
le ton des remarques faites devant le groupe Google.
*3. Jack Schwartz, cité dans G.-C. Rota, Indiscrete Thoughts, Boston, Birkhäuser, 1997,
p. 22.
*4. Gödel, Escher, Bach : Les Brins d’une Guirlande Éternelle, Paris, Dunod, 2008, p. 762.
*5. Idem, p. 761.
*6. Cité dans D. R. Hofstadter, « Staring Emmy Straight in the Eye – and Doing My Best
Not to Flinch », dans T. Dartnell (dir.), Creativity, Cognition, and Knowledge, Westport (CT),
Praeger, 2002, p. 67-100.
*7. Cité dans R. Cellan-Jones, « Stephen Hawking Warns Artificial Intelligence Could End
Mankind », BBC News, 2 décembre 2014,
www.bbc.com/news/technology-30290540, consulté le 9 avril 2020.
*8. M. McFarland, « Elon Musk : “With Artificial Intelligence, We Are Summoning the
Demon” », Washington Post, 24 octobre 2014.
*9. Bill Gates, sur Reddit, 28 janvier 2015,
www.reddit.com/r/IAmA/comments/2tzjp7/hi_redditimbillgatesandimbackformythird/?,
consulté le 9 avril 2020.
*10. Cité dans K. Anderson, « Enthusiasts and Skeptics Debate Artificial Intelligence »,
Vanity Fair, 26 novembre 2014.
*11. R. A. Brooks, « Mistaking Performance for Competence », dans J. Brockman (dir.),
What to Think About Machines That Think, New York, Harper Perennial, 2015, p. 108-11.
*12. Cité dans G. Press, « 12 Observations About Artificial Intelligence from the O’Reilly
AI Conference », Forbes, 31 octobre 2016, www.forbes.com/sites/gilpress/2016/10/31/12-
observations-about-artificial-intelligence-from-the-oreilly-ai-conference/#886a6012ea2e,
consulté le 10 avril 2020.
Chapitre 1. Les racines de l’intelligence artificielle
*1. J. McCarthy et al., « A Proposal for the Dartmouth Summer Research Project in
Artificial Intelligence », soumise à la Rockefeller Foundation, 1955, reproduite dans AI
Magazine, 27, no 4, 2006, p. 12-14.
*2. La cybernétique était un domaine interdisciplinaire qui étudiait « le contrôle et la
communication chez l’animal et dans les machines. » Voir N. Wiener, La cybernétique :
information et régulation dans le vivant et la machine, Paris, Éditions du Seuil, 2014.
*3. Cité dans N. J. Nilsson, John McCarthy: A Biographical Memoir, Washington (D.C.),
National Academy of Sciences, 2012.
*4. McCarthy et al., « Proposal for the Dartmouth Summer Research Project in Artificial
Intelligence ».
*5. Ibid.
*6. G. Solomonoff, « Ray Solomonoff and the Dartmouth Summer Research Project in
Artificial Intelligence, 1956 », consulté le 4 décembre 2018,
www.raysolomonoff.com/dartmouth/dartray.pdf.
*7. H. Moravic, Mind Children : The Future of Robot and Human Intelligence, Cambridge
(MA), Harvard University Press, 1988, p. 20.
*8. H. A. Simon, The Shape of Automation for Men and Management, New York, Harper &
Row, 1965, p. 96. Notez que l’emploi par Simon du mot homme plutôt que personne n’avait
rien de choquant dans l’Amérique des années 1960.
*9. M. L. Minsky, Computation : Finite and Infinite Machines, Upper Saddle River (NJ),
Prentice-Hall, 1967, p. 2.
*10. Voltaire, Dictionnaire philosophique, Section II, « Miracles », 1764.
*11. M. L. Minsky, The Emotion Machine : Commonsense Thinking, Artificial Intelligence,
and the Future of the Human Mind, New York, Simon & Schuster, 2006, p. 95.
*12. One Hundred Year Study on Artificial Intelligence (AI100), 2016 Report, p. 13,
https://ai100.stanford.edu/2016-report, consulté le 11 mai 2020
*13. Ibid., p. 12.
*14. J. Lehman, J. Clune et S. Risi, « An Anarchy of Methods : Current Trends in How
Intelligence Is Abstracted in AI », IEEE Intelligent Systems, 29, no 6, 2014, p. 56-62.
*15. A. Newell et H. A. Simon, « GPS : A Program That Simulates Human Thought », P-
2257, Rand Corporation, Santa Monica (CA), 1961.
*16. F. Rosenblatt, « The Perceptron : A Probabilistic Model for Information Storage and
Organization in the Brain », Psychological Review 65, no 6, 1958, p. 386-408.
*17. Mathématiquement, l’algorithme d’apprentissage pour perceptron est le suivant : pour
chaque poids wj, wj← wj + η (t – y) xj, où t est la sortie correcte (1 ou 0) pour l’entrée
considérée, y est la sortie réelle du perceptron, xj est l’entrée associée au poids wj, et η est le
taux d’apprentissage, une valeur donnée par le programmeur. La flèche signifie une mise à
jour. Le seuil est incorporé par la création d’une « entrée » additionnelle x0 (appelée nœud de
biais) dotée d’une valeur constante égale à 1, dont le poids associé est w0 = -seuil. Grâce à
l’ajout de cette entrée et de ce nœud de biais, le perceptron ne se déclenche que si la somme
des entrées multipliées par les poids (autrement dit, le produit scalaire du vecteur des entrées
par le vecteur des poids) est supérieure ou égale à 0. Il arrive souvent que l’on adapte l’échelle
des valeurs d’entrée et que l’on applique d’autres transformations afin d’empêcher les poids de
prendre des valeurs excessives.
*18. Cité dans M. Olazaran, « A Sociological Study of the Official History of the
Perceptrons Controversy », Social Studies of Science 26, no 3, 1996, p. 611-659.
*19. M. A. Boden, Mind as Machine : A History of Cognitive Science, Oxford, Oxford
University Press, 2006, vol. 2, p. 913.
*20. M. L. Minsky et S. L. Papert, Perceptrons : An Introduction to Computational
Geometry, Cambridge (MA), MIT Press, 1969.
*21. Techniquement parlant, toute fonction booléenne peut être calculée par un réseau
multicouche totalement connecté et doté d’unités à seuil linéaire et d’une couche interne
(« cachée »).
*22. Olazaran, « Sociological Study of the Official History of the Perceptrons
Controversy ».
*23. G. Nagy, « Neural Networks – Then and Now », IEEE Transactions on Neural
Networks 2, no 2, 1991, p. 316–318.
*24. Minsky et Papert, Perceptrons, p. 231-32.
*25. J. Lighthill, « Artificial Intelligence : A General Survey », Artificial Intelligence : A
Paper Symposium, Londres, Science Research Council, 1973.
*26. Cité dans C. Moewes et A. Nürnberger, Computational Intelligence in Intelligent Data
Analysis, New York, Springer, 2013, p. 135.
*27. M. L. Minsky, The Society of Mind, New York, Simon & Schuster, 1987, p. 29.

Chapitre 2. Les reseaux neuronaux et l’ascension de l’apprentissage


machine
*1. La valeur d’activation y en chaque unité cachée et chaque sortie s’obtient typiquement
en prenant le produit scalaire du vecteur x des entrées de l’unité par le vecteur w des poids des
connexions à cette unité, et en appliquant la fonction sigmoïde au résultat : y = 1/(1 + e−(x.w)).
Les vecteurs x et w incluent également le poids des « biais » et l’activation. Si les unités ont
des fonctions de sortie non linéaires, par exemple des sigmoïdes, avec suffisamment d’unités
cachées, le réseau peut calculer n’importe quelle fonction (soumises à des restrictions
minimes) avec n’importe quel degré d’approximation. C’est ce que l’on appelle le théorème
d’approximation universelle. Pour plus de détails, voir M. Nielsen, Neural Networks and Deep
Learning, neuralnetworksanddeeplearning.com.
*2. Aux lecteurs ayant quelques bases en calcul différentiel : la rétropropagation est une
forme d’algorithme du gradient, qui approxime, pour chaque poids w du réseau, la direction
de la plus forte pente de la « surface d’erreur ». Cette direction s’obtient en prenant le gradient
de la fonction d’erreur (par exemple, le carré de la différence entre la sortie et la cible)
relativement au poids w. Considérez par exemple le poids w attaché à la connexion de l’unité
d’entrée i à l’unité cachée h. Le poids w est modifié dans la direction de la plus forte pente
d’une quantité déterminée par l’erreur qui a été propagée jusqu’à l’unité h ainsi que par
l’activation de l’unité i et un taux d’apprentissage défini par l’utilisateur. Pour une explication
plus profonde de la rétropropagation, je recommande le livre en ligne gratuit de Michael
Nielsen, Neural Networks and Deep Learning.
*3. Mon réseau de 324 entrées, 50 unités cachées et 10 unités de sortie contient
324 × 50 = 16 200 poids pour les connexions entrées-couche cachée, et 50 × 10 = 500 poids
pour les connexions couche cachée-couche de sortie, soit un total de 16 700 poids.
*4. D. E. Rumelhart, J. L. McClelland et le PDP Research Group, Parallel Distributed
Processing : Explorations in the Microstructure of Cognition, Cambridge (MA), MIT Press,
1986, vol. 1, p. 3.
*5. Ibid., p. 113.
*6. Cité dans C. Johnson, « Neural Network Startups Proliferate Across the U.S. », The
Scientist, 17 octobre 1988.
*7. A. Clark, Being There : Putting Brain, Body, and World Together Again, Cambridge
(MA), MIT Press, 1996, p. 26.
*8. J. Haugland, L’Esprit dans la machine, Paris, Odile Jacob, 1989.

Chapitre 3. Le printemps de l’IA


*1. Q. V. Le et al., « Building High-Level Features Using Large-Scale Unsupervised
Learning », Proceedings of the International Conference on Machine Learning, 2012, p. 507-
514.
*2. P. Hoffman, « Retooling Machine and Man for Next Big Chess Faceoff », The New
York Times, 21 janvier 2003.
*3. D. L. McClain, « Chess Player Says Opponent Behaved Suspiciously », The New York
Times, 28 septembre 2006.
*4. Cité dans M. Y. Vardi, « Artificial Intelligence : Past and Future », Communications of
the Association for Computing Machinery 55, no 1, 2012, p. 5.
*5. K. Kelly, « The Three Breakthroughs That Have Finally Unleashed AI on the World »,
Wired, 27 octobre 2014.
*6. J. Despres, « Scenario : Shane Legg », Future,
future.wikia.com/wiki/Scenario:_Shane_Legg, consulté le 26 juin 2020.
*7. Cité dans H. McCracken, « Inside Mark Zuckerberg’s Bold Plan for the Future of
Facebook », Fast Company, 16 novembre 2015, www.fastcompany.com /3052885/mark-
zuckerberg-facebook.
*8. V. C. Müller et N. Bostrom, « Future Progress in Artificial Intelligence : A Survey of
Expert Opinion », dans V. C. Müller (dir.), Fundamental Issues of Artificial Intelligence, Cham
(Suisse), Springer International, 2016, p. 555-572.
*9. Jeu de parcours pour enfant d’âge préscolaire. (N.d.T.)
*10. M. Loukides et B. Lorica, « What Is Artificial Intelligence ? », O’Reilly, 20 juin 2016,
www.oreilly.com/ideas/what-is-artificial-intelligence.
*11. S. Pinker, « Thinking Does Not Imply Subjugating », dans J. Brockman (éd.), What to
Think About Machines That Think, New York, Harper Perennial, 2015, p. 5-8.
*12. A. M. Turing, « Computing Machinery and Intelligence », Mind 59, no 236, 1950,
p. 433-460.
*13. J. R. Searle, « Minds, Brains, and Programs », Behavioral and Brain Sciences 3, no 3,
1980, p. 417-424.
*14. J. R. Searle, Mind : A Brief Introduction, Oxford, Oxford University Press, 2004,
p. 66.
*15. Les expressions IA forte et IA faible ont également été utilisées pour désigner des
notions plus proches de IA générale et IA étroite. C’est le sens que leur donne Ray Kurzweil,
mais il diffère des significations originelles de Searle.
*16. L’article de Searle figure dans D. R. Hofstadter et D. C. Dennett, The Mind’s I :
Fantasies and Reflections on Self and Soul, New York, Basic Books, 1981, accompagné d’un
solide contre-argument de Hofstadter.
*17. S. Aaronson, Quantum Computing Since Democritus, Cambridge (G.-B.), Cambridge
University Press, 2013, p. 33.
*18. « Turing Test Transcripts Reveal How Chatbot “Eugene” Duped the Judges »,
Coventry University, 30 juin 2015, www.coventry.ac.uk/primary-news/turing-test-transcripts-
reveal-how-chatbot-eugene-duped-the-judges/.
*19. « Turing Test Success Marks Milestone in Computing History », University of
Reading, 8 juin 2014, www.reading.ac.uk/news-and-events/releases/PR583836.aspx.
*20. R. Kurzweil, Humanité 2.0 : la bible du changement, Paris, M21, 2007, p. 29.
*21. Ibid., p. 42-43.
*22. I. J. Good, « Speculations Concerning the First Ultraintelligent Machine », Advances
in Computers 6, 1966, p. 31–88.
*23. V. Vinge, « First Word », Omni, janvier 1983.
*24. Kurzweil, Humanité 2.0, p. 259, 341, 214.
*25. B. Wang, « Ray Kurzweil Responds to the Issue of Accuracy of His Predictions »,
Next Big Future, 19 janvier 2010, www.nextbigfuture.com/2010/01/ray-kurzweil-responds-to-
issue-of.html.
*26. D. Hochman, « Reinvent Yourself : The Playboy Interview with Ray Kurzweil »,
Playboy, 19 avril 2016, www.playboy.com/articles/playboy-interview-ray-kurzweil.
*27. Kurzweil, Humanité 2.0, p. 149.
*28. A. Kreye, « A John Henry Moment », dans Brockman, What to Think About Machines
That Think, p. 394–396.
*29. Kurzweil, Humanité 2.0, p. 138.
*30. R. Kurzweil, « A Wager on the Turing Test : Why I Think I Will Win », Kurzweil AI,
9 avril 2002, www.kurzweilai.net/a-wager-on-the-turing-test-why-i-think-i-will-win.
*31. Ibid.
*32. Ibid.
*33. Ibid.
*34. M. Dowd, « Elon Musk’s Billion-Dollar Crusade to Stop the A.I. Apocalypse », Vanity
Fair, 26 mars 2017.
*35. L. Grossman, « 2045 : The Year Man Becomes Immortal », Time, 10 février 2011.
*36. Site Web de Singularity University, consulté le 27 juillet 2020.
*37. R. Kurzweil, Humanité 2.0., p. 339.
*38. R. Kurzweil, The Age of Spiritual Machines : When Computers Exceed Human
Intelligence, New York, Viking Press, 1999, p. 170.
*39. D. R. Hofstadter, « Moore’s Law, Artificial Evolution, and the Fate of Humanity »,
dans L. Booker et al. (dir.), Perspectives on Adaptation in Natural and Artificial Systems, New
York, Oxford University Press, 2005, p. 181.
*40. Toutes ces citations proviennent de Kurzweil, The Age of Spiritual Machines, p. 169–
170.
*41. Hofstadter, « Moore’s Law, Artificial Evolution, and the Fate of Humanity », p. 182.
*42. Site Web Long Bets : longbets.org/about.
*43. Site Web Long Bets, Bet 1 : longbets.org/1/#adjudicationterms.
*44. Ibid.
*45. Ibid.
*46. Kurzweil, « Wager on the Turing Test ».
*47. M. Kapor, « Why I Think I Will Win », Kurzweil AI, 9 avril 2002,
http://www.kurzweilai.net/why-i-think-i-will-win.
*48. Ibid.
*49. R. Kurzweil, avant-propos à P. M. Plantec, Virtual Humans, New York, AMACOM,
2004.
*50. Cité dans Grossman, « 2045 ».

Chapitre 4. Qui, quoi, quand, où, pourquoi


*1. S. A. Papert, « The Summer Vision Project », MIT Artificial Intelligence Group Vision
Memo 100, 7 juillet 1966, dspace.mit.edu/handle/1721.1/6125.
*2. D. Crevier, AI : The Tumultuous History of the Search for Artificial Intelligence, New
York, Basic Books, 1993, p. 88.
*3. K. Fukushima, « Cognitron : A Self-Organizing Multilayered Neural Network Model »,
Biological Cybernetics 20, no 3-4, 1975, p. 121-136 ; K. Fukushima, « Neocognitron : A
Hierarchical Neural Network Capable of Visual Pattern Recognition », Neural Networks 1,
no 2, 1988, p. 119-130.
*4. Avant d’être présentée à l’entrée du réseau, la photo doit être mise à une échelle fixe –
celle de la première couche du réseau.
*5. La plupart des affirmations sur le fonctionnement du cerveau sont à prendre avec
prudence ; il en est de même de la rapide présentation que je viens de faire. Si ce que j’ai dit
est à peu près exact, il n’en reste pas moins que le cerveau est un objet extrêmement complexe
et que les découvertes que j’ai évoquées ne décrivent qu’une petite partie des premières phases
de la vision, que la plupart des scientifiques ne comprennent pas encore pleinement.
*6. L’ensemble des poids associés à chaque carte d’activation s’appelle un « filtre
convolutif » ou « noyau convolutif ».
*7. J’utilise ici le raccourci « module de classification » pour désigner ce que l’on nomme
habituellement « couches pleinement connectées d’un réseau convolutif profond ».
*8. Ma description des ConvNets passe sur de nombreux détails. Par exemple, pour
calculer son activation, une unité d’une couche convolutive effectue une convolution puis
applique au résultat une fonction d’activation non linéaire. D’une manière générale, les
ConvNets possèdent d’autres types de couches, par exemple, des « couches de pooling ». Pour
plus de détail, voir I. Goodfellow, Y. Bengio et A. Courville, Deep Learning, Cambridge
(MA), MIT Press, 2016.
*9. Au moment où ces lignes sont écrites, le moteur « Recherche par image » de Google est
accessible sur https://www.google.com/imghp?hl=FR en cliquant sur le petit appareil photo
situé dans le bouton de recherche.

Chapitre 5. ConvNets et ImageNet


*1. En fait, la rétropropagation du gradient est un algorithme découvert indépendamment
par plusieurs groupes de recherche, et – ironiquement, étant donné sa fonction d’attribution de
crédit dans un réseau de neurones – l’attribution du crédit de cette découverte a fait l’objet
d’une longue polémique dans la communauté des chercheurs sur les réseaux neuronaux.
*2. Cité dans D. Hernandez, « Facebook’s Quest to Build an Artificial Brain Depends on
This Guy », Wired, 14 août 2014, www.wired.com/2014/08/deep-learning-yann-lecun/.
*3. Il y avait également, entre autres compétitions, un concours « détection » dans lequel
les programmes devaient également localiser des objets de diverses catégories. Je n’évoquerai
ici que l’épreuve de classification.
*4. D. Gershgorn, « The Data That Transformed AI Research – and Possibly the World »,
Quartz, 26 juillet 2017, qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-
and-possibly-the-world/.
*5. « About Amazon Mechanical Turk », www.mturk.com/help.
*6. L. Fei-Fei et J. Deng, « ImageNet : Where Have We Been ? Where Are We Going ? »,
diapos à image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf.
*7. A. Krizhevsky, I. Sutskever et G. E. Hinton, « ImageNet Classification with Deep
Convolutional Neural Networks », Advances in Neural Information Processing Systems 25,
2012, p. 1097–10105.
*8. T. Simonite, « Teaching Machines to Understand Us », Technology Review, 5 août
2015, www.technologyreview.com/s/540001/teaching-machines-to-understand-us/.
*9. Annonce de l’ImageNet Large Scale Visual Recognition Challenge (Compétition
ImageNet de Reconnaissance Visuelle à Grande Échelle), 2 juin 2015, www.image-
net.org/challenges/LSVRC/announcement-June-2-2015.
*10. S. Chen, « Baidu Fires Scientist Responsible for Breaching Rules in High-Profile
Supercomputer AI Test », South China Morning Post, édition internationale, 12 juin 2015,
www.scmp.com/tech/science-research/article/1820649/chinas-baidu-fires-researcher-after-
team-cheated-high-profile.
*11. Gershgorn, « Data That Transformed AI Research. »
*12. Cité dans Hernandez, « Facebook’s Quest to Build an Artificial Brain Depends on
This Guy ».
*13. B. Agüera y Arcas, « Inside the Machine Mind : Latest Insights on Neuroscience and
Computer Science from Google » (video), Oxford Martin School, 10 mai 2016,
www.youtube.com/watch?v=v1dW7ViahEc.
*14. K. He et al., « Delving Deep into Rectifiers : Surpassing Human-Level Performance
on ImageNet Classification », Proceedings of the IEEE International Conference on Computer
Vision, 2015, p. 1026-1034.
*15. A. Linn, « Microsoft Researchers Win ImageNet Computer Vision Challenge », AI
Blog, Microsoft, 10 décembre 2015, blogs.microsoft.com/ai/2015/12/10/microsoft-researchers-
win-imagenet-computer-vision-challenge.
*16. A. Hern, « Computers Now Better than Humans at Recognising and Sorting Images »,
The Guardian, 13 mai 2015, www.theguardian.com/global/2015/may/13/baidu-minwa-
supercomputer-better-than-humans-recognising-images ; T. Benson, « Microsoft Has
Developed a Computer System That Can Identify Objects Better than Humans », UPI, 14
février 2015, www.upi.com/ScienceNews/2015/02/14/Microsoft-has-developed-a-computer-
system-that-can-identify-objects-better-than-humans/1171423959603.
*17. A. Karpathy, « What I Learned from Competing Against a ConvNet on ImageNet », 2
septembre 2014, karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-
convnet-on-imagenet.
*18. S. Lohr, « A Lesson of Tesla Crashes ? Computer Vision Can’t Do It All Yet », The
New York Times, 19 septembre 2016.

Chapitre 6. Gros plan sur les machines qui apprennent


*1. « Feel The Learn », jeu de mots sur « Feel The Burn » de « Feel The Bern » qui fait
référence à la campagne électorale du Senateur Bernie Sanders en 2016 qui a enflammé (d’où
« burn ») les esprits des jeunes aux États-Unis.
*2. E. Brynjolfsson et A. McAfee, « The Business of Artificial Intelligence », Harvard
Business Review, juillet 2017.
*3. O. Tanz, « Can Artificial Intelligence Identify Pictures Better than Humans ? »,
Entrepreneur, 1er avril 2017, www.entrepreneur.com/article/283990.
*4. D. Vena, « 3 Top AI Stocks to Buy Now », Motley Fool, 27 mars 2017,
www.fool.com/investing/2017/03/27/3-top-ai-stocks-to-buy-now.aspx.
*5. J. Haugland, L’Esprit dans la machine, Paris, Odile Jacob, 1989
*6. Cité dans C. Metz, « A New Way for Machines to See, Taking Shape in Toronto », New
York Times, 28 novembre 2017, www.nytimes.com/2017/11/28/technology/artificial-
intelligence-research-toronto.html.
*7. Cité dans J. Tanz, « Soon We Won’t Program Computers. We’ll Train Them Like
Dogs », Wired, 17 mai 2016.
*8. Conférence de Harry Shum au Microsoft Faculty Summit, Redmond (WA), juin 2017.
*9. Pour une discussion approfondie de ce sujet, voir J. Lanier, Who Owns the Future ?,
New York, Simon & Schuster, 2013.
*10. Tesla, Customer Privacy Policy, www.tesla.com/about/legal, consulté le 17 novembre
2020.
*11. T. Bradshaw, « Self-Driving Cars Prove to Be Labour-Intensive for Humans »,
Financial Times, 8 juillet 2017.
*12. « Ground Truth Datasets for Autonomous Vehicles », Mighty AI, mty.ai/adas/, consulté
le 7 décembre 2018.
*13. « Deep Learning in Practice : Speech Recognition and Beyond », vidéo EmTech
Digital, 23 mai 2016, events.technologyreview.com/emtech/digital/16/video/watch/andrew-ng-
deep-learning.
*14. Y. Bengio, « Machines That Dream », dans D. Beyer (dir.), The Future of Machine
Intelligence : Perspectives from Leading Practitioners, Sebastopol (CA), O’Reilly Media,
p. 14.
*15. W. Landecker et al., « Interpreting Individual Classifications of Hierarchical
Networks », Proceedings of the 2013 IEEE Symposium on Computational Intelligence and
Data Mining, 2013, p. 32-38.
*16. M. R. Loghmani et al., « Recognizing Objects in-the-Wild : Where Do We Stand ? »,
IEEE International Conference on Robotics and Automation, 2018, p. 2170-2177.
*17. H. Hosseini et al., « On the Limitation of Convolutional Neural Networks in
Recognizing Negative Images », Proceedings of the 16th IEEE International Conference on
Machine Learning and Applications, 2017, p. 352-358 ; R. Geirhos et al., « Generalisation in
Humans and Deep Neural Networks », Advances in Neural Information Processing Systems
31, 2018, p. 7549-7561 ; M. Alcorn et al., « Strike (with) a Pose : Neural Networks Are Easily
Fooled by Strange Poses of Familiar Objects », arXiv:1811.11553, 2018.
*18. M. Orcutt, « Are Face Recognition Systems Accurate ? Depends on Your Race »,
Technology Review, 6 juillet 2016, www.technologyreview.com/s/601786/are-face-
recognition-systems-accurate-depends-on-your-race.
*19. J. Zhao et al., « Men Also Like Shopping : Reducing Gender Bias Amplification
Using Corpus-Level Constraints », Proceedings of the 2017 Conference on Empirical Methods
in Natural Language Processing, 2017.
*20. W. Knight, « The Dark Secret at the Heart of AI », The Technology Review, 11 avril
2017, www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/.
*21. C. Szegedy et al., « Intriguing Properties of Neural Networks », Proceedings of the
International Conference on Learning Representations, 2014.
*22. A. Nguyen, J. Yosinski et J. Clune, « Deep Neural Networks Are Easily Fooled : High
Confidence Predictions for Unrecognizable Images », Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, 2015, p. 427-436.
*23. Voir par exemple M. Mitchell, An Introduction to Genetic Algorithms, Cambridge
(MA), MIT Press, 1996.
*24. Nguyen, Yosinski et Clune, « Deep Neural Networks Are Easily Fooled ».
*25. M. Sharif et al., « Accessorize to a Crime : Real and Stealthy Attacks on State-of-the-
Art Face Recognition », Proceedings of the 2016 ACM SIGSAC Conference on Computer and
Communications Security, 2016, p. 1528-1540.
*26. K. Eykholt et al., « Robust Physical-World Attacks on Deep Learning Visual
Classification », Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2018, p. 1625-1634.
*27. S. G. Finlayson et al., « Adversarial Attacks on Medical Machine Learning », Science
363, no 6433, 2019, 1287-1289.
*28. Cité dans W. Knight, « How Long Before AI Systems Are Hacked in Creative New
Ways ? », Technology Review, 15 décembre 2016, www.technologyreview.com/s/603116/how-
long-before-ai-systems-are-hacked-in-creative-new-ways.
*29. J. Clune, « How Much Do Deep Neural Networks Understand About the Images They
Recognize ? », diapos de conférence, 2016,
http://c4dm.eecs.qmul.ac.uk/horse2016/HORSE2016_Clune.pdf, consulté le 22 novembre
2020.
Chapitre 7. Sur une IA fiable et éthique
*1. Cité dans D. Palmer, « AI Could Help Solve Humanity’s Biggest Issues by Taking Over
from Scientists, Says DeepMind CEO », Computing, 26 mai 2015,
www.computing.co.uk/ctg/news/2410022/ai-could-help-solve-humanity-s-biggest-issues-by-
taking-over-from-scientists-says-deepmind-ceo.
*2. S. Lynch, « Andrew Ng : Why AI Is the New Electricity », Insights by Stanford
Business, 11 mars 2017, www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity.
*3. J. Anderson, L. Rainie et A. Luchsinger, « Artificial Intelligence and the Future of
Humans », Pew Research Center, 10 décembre 2018,
www.pewinternet.org/2018/12/10/artificial-intelligence-and-the-future-of-humans.
*4. Parmi les récentes analyses des questions d’éthiques liées à l’IA et au big data, on peut
citer C. O’Neil, Weapons of Math Destruction : How Big Data Increases Inequality and
Threatens Democracy, New York, Crown, 2016 et H. Fry, Hello World : Being Human in the
Age of Algorithms, New York, W. W. Norton, 2018.
*5. C. Domonoske, « Facebook Expands Use of Facial Recognition to ID Users in
Photos », National Public Radio, 19 décembre 2017, www.npr.org/sections/thetwo-
way/2017/12/19/571954455/facebook-expands-use-of-facial-recognition-to-id-users-in-
photos.
*6. H. Hodson, « Face Recognition Row over Right to Identify You in the Street », New
Scientist, 19 juin 2015.
*7. J. Snow, « Amazon’s Face Recognition Falsely Matched 28 Members of Congress with
Mugshots », Free Future (blog), ACLU, 26 juillet 2018, www.aclu.org/blog/privacy-
technology/surveillance-technologies/amazons-face-recognition-falsely-matched-28.
*8. B. Brackeen, « Facial Recognition Software Is Not Ready for Use by Law
Enforcement », Tech Crunch, 25 juin 2018, techcrunch.com/2018/06/25/facial-recognition-
software-is-not-ready-for-use-by-law-enforcement.
*9. B. Smith, « Facial Recognition Technology : The Need for Public Regulation and
Corporate Responsibility », Microsoft on the Issues (blog), Microsoft, 13 juillet 2018,
blogs.microsoft.com/on-the-issues/2018/07/13/facial-recognition-technology-the-need-for-
public-regulation-and-corporate-responsibility.
*10. K. Walker, « AI for Social Good in Asia Pacific », Around the Globe (blog), Google,
13 décembre 2018, www.blog.google/around-the-globe/google-asia/ai-social-good-asia-
pacific.
*11. B. Goodman et S. Flaxman, « European Union Regulations on Algorithmic Decision-
Making and a “Right to Explanation” », AI Magazine 38, no 3, automne 2017, p. 50-57.
*12. « Article 12, EU GDPR : Transparence des informations et des communications et
modalités de l’exercice des droits de la personne concernée », https://www.privacy-
regulation.eu/fr/12.htm.
*13. Site Web de Partnership on AI, www.partnershiponai.org, consulté le 25 novembre
2020.
*14. Pour une présentation détaillée de ce sujet, voir W. Wallach et C. Allen, Moral
Machines : Teaching Robots Right from Wrong, New York, Oxford University Press, 2008.
*15. I. Asimov, Les Robots, Paris, J’ai lu, 1972, p. 48.
*16. A. C. Clarke, 2001 : l’odyssée de l’espace, Paris, J’ai lu, 1991.
*17. Ibid., p. 148.
*18. N. Wiener, « Some Moral and Technical Consequences of Automation », Science 131,
no 3410, 1960, p. 1355-1358.
*19. J. J. Thomson, « The Trolley Problem », Yale Law Journal 94, no 6, 1985, p. 1395-
1415.
*20. Voir par exemple J. Achenbach, « Driverless Cars Are Colliding with the Creepy
Trolley Problem », The Washington Post, 29 décembre 2015.
*21. J.-F. Bonnefon, A. Shariff et I. Rahwan, « The Social Dilemma of Autonomous
Vehicles », Science 352, no 6293, 2016, p. 1573-1576.
*22. J. D. Greene, « Our Driverless Dilemma », Science 352, no 6293, 2016, p. 1514-1515.
*23. Voir par exemple M. Anderson et S. L. Anderson, « Machine Ethics : Creating an
Ethical Intelligent Agent », AI Magazine 28, no 4, 2007, p. 15.

Chapitre 8. Des récompenses pour les robots


*1. A. Sutherland, « What Shamu Taught Me About a Happy Marriage », The New York
Times, 25 juin 2006, www.nytimes.com/2006/06/25/fashion/what-shamu-taught-me-about-a-
happy-marriage.html.
*2. Thejetsons.wikia.com/wiki/Rosey.
*3. En fait, cette approche de l’apprentissage par renforcement, appelée « apprentissage des
valeurs », n’est pas la seule possible. Une seconde approche, appelée « apprentissage des
politiques », vise à apprendre directement les actions à effectuer dans un état donné, plutôt
qu’à apprendre en premier les valeurs numériques des actions.
*4. C. J. Watkins et P. Dayan, « Q-Learning », Machine Learning 8, nos 3-4, 1992, p. 279-
292.
*5. Pour une introduction technique et détaillée à l’apprentissage par renforcement, voir R.
S. Sutton et A. G. Barto, Reinforcement Learning : An Introduction, 2e éd., Cambridge (MA),
MIT Press, 2017, incompleteideas.net/book/the-book-2nd.html.
*6. Voir par exemple les articles suivants : P. Christiano et al., « Transfer from Simulation
to Real World Through Learning Deep Inverse Dynamics Model », arXiv:1610.03518 (2016) ;
J. P. Hanna et P. Stone, « Grounded Action Transformation for Robot Learning in
Simulation », Proceedings of the Conference of the American Association for Artificial
Intelligence, 2017, p. 3834-3840; A. A. Rusu et al., « Sim-to-Real Robot Learning from Pixels
with Progressive Nets », Proceedings of the First Annual Conference on Robot Learning,
CoRL, 2017 ; S. James, A. J. Davison et E. Johns, « Transferring End-to-End Visuomotor
Control from Simulation to Real World for a Multi-stage Task », Proceedings of the First
Annual Conference on Robot Learning, CoRL, 2017 ; M. Cutler, T. J. Walsh et J. P. How,
« Real-World Reinforcement Learning via Multifidelity Simulators », IEEE Transactions on
Robotics 31, no 3, 2015, p. 655-671.

Chapitre 9. Mise en jeu


*1. Demis Hassabis, cité dans P. Iwaniuk, « A Conversation with Demis Hassabis, the
Bullfrog AI Prodigy Now Finding Solutions to the World’s Big Problems », PCGamesN,
www.pcgamesn.com/demis-hassabis-interview, consulté le 28 novembre 2018.
*2. Cité dans « From Not Working to Neural Networking », The Economist, 25 juin 2016.
*3. M. G. Bellemare et al., « The Arcade Learning Environment : An Evaluation Platform
for General Agents », Journal of Artificial Intelligence Research 47, 2013, p. 253-279.
*4. D’un point de vue plus technique, pour choisir une action à chaque étape temporelle, le
programme de DeepMind utilisait ce que l’on appelle une méthode epsilon-glouton (« epsilon-
greedy algorithm » en anglais). Il choisissait, avec une probabilité epsilon, une action au
hasard ; il choisissait, avec une probabilité (1 – epsilon), l’action ayant la valeur maximale.
Epsilon avait une valeur comprise entre 0 et 1 ; elle était initialement fixée près de 1 puis
progressivement diminuée lors des épisodes d’apprentissage.
*5. R. S. Sutton et A. G. Barto, Reinforcement Learning : An Introduction, 2e éd.,
Cambridge (MA), MIT Press, 2017, p. 124, incompleteideas.net/book/the-book-2nd.html.
*6. Pour plus de détails, voir V. Mnih et al., « Human-Level Control Through Deep
Reinforcement Learning », Nature 518, no 7540, 2015, p. 529.
*7. V. Mnih et al., « Playing Atari with Deep Reinforcement Learning », Proceedings of the
Neural Information Processing Systems (NIPS) Conference, Deep Learning Workshop (2013).
*8. « Arthur Samuel », site Web de History of Computers website, history-
computer.com/ModernComputer/thinkers/Samuel.html.
*9. Le programme de Samuel utilisait un nombre de coups variables, qui dépendait du coup
effectué.
*10. Le programme de Samuel utilisait aussi à chaque coup une méthode appelée « Élagage
alpha-bêta » pour déterminer les nœuds de l’arbre de jeu qu’il n’était pas nécessaire d’évaluer.
L’élagage alpha-bêta fut aussi une composante essentielle du programme joueur d’échecs
Deep Blue d’IBM.
*11. Pour les détails, voir A. L. Samuel, « Some Studies in Machine Learning Using the
Game of Checkers », IBM Journal of Research and Development 3, no 3, 1959, p. 210-229.
*12. Ibid.
*13. J. Schaeffer et al., « CHINOOK : The World Man-Machine Checkers Champion », AI
Magazine 17, no 1, 1996, p. 21.
*14. D. Hassabis, « Artificial Intelligence : Chess Match of the Century », Nature 544,
2017, p. 413-414.
*15. A. Newell, J. Calman Shaw et H. A. Simon, « Chess-Playing Programs and the
Problem of Complexity », IBM Journal of Research and Development 2, no 4, 1958, p. 320-
335.
*16. M. Newborn, Deep Blue : An Artificial Intelligence Milestone, New York, Springer,
2003, p. 236.
*17. Cité dans J. Goldsmith, « The Last Human Chess Master », Wired, 1er février 1995.
*18. Cité dans M. Y. Vardi, « Artificial Intelligence : Past and Future », Communications of
the Association for Computing Machinery 55, no 1, 2012, p. 5.
*19. A. Levinovitz, « The Mystery of Go, the Ancient Game That Computers Still Can’t
Win », Wired, 12 mai 2014.
*20. G. Johnson, « To Test a Powerful Computer, Play an Ancient Game », The New York
Times, 29 juillet 1997.
*21. Cité dans « S. Korean Go Player Confident of Beating Google’s AI, » Yonhap News
Agency, 23 février 2016, https://en.yna.co.kr/view/AEN20160223003651315.
*22. Cité dans M. Zastrow, « “I’m in Shock !” : How an AI Beat the World’s Best Human
at Go », New Scientist, 9 mars 2016, www.newscientist.com/article/2079871-im-in-shock-
how-an-ai-beat-the-worlds-best-human-at-go.
*23. C. Metz, « The Sadness and Beauty of Watching Google’s AI Play Go », Wired,
11 mars 2016, www.wired.com/2016/03/sadness-beauty-watching-googles-ai-play-go.
*24. « For Artificial Intelligence to Thrive, It Must Explain Itself », The Economist, 15
février 2018, www.economist.com/news/science-and-technology/21737018-if-it-cannot-who-
will-trust-it-artificial-intelligence-thrive-it-must.
*25. P. Taylor, « The Concept of “Cat Face” », London Review of Books, 11 août 2016.
*26. Cité dans S. Byford, « DeepMind Founder Demis Hassabis on How AI Will Shape the
Future », Verge, 10 mars 2016, www.theverge.com/2016/3/10/11192774/demis-hassabis-
interview-alphago-google-deepmind-ai.
*27. D. Silver et al., « Mastering the Game of Go Without Human Knowledge », Nature
550, 2017, p. 354-359.
*28. D. Silver et al., « A General Reinforcement Learning Algorithm That Masters Chess,
Shogi, and Go Through Self-Play », Science 362, no 6419, 2018, p. 1140-1144.

Chapitre 10. Au-delà des jeux


*1. Cité dans P. Iwaniuk, « A Conversation with Demis Hassabis, the Bullfrog AI Prodigy
Now Finding Solutions to the World’s Big Problems », PCGamesN,
www.pcgamesn.com/demis-hassabis-interview, consulté le 1er octobre 2020.
*2. E. David, « DeepMind’s AlphaGo Mastered Chess in Its Spare Time », Silicon Angle, 6
décembre 2017, siliconangle.com/blog/2017/12/06/deepminds-alphago-mastered-chess-spare-
time.
*3. À titre d’exemple, toujours dans le domaine du jeu, DeepMind a publié en 2018 un
article décrivant un système d’apprentissage par renforcement dont il disait que sa capacité à
jouer à différents jeux Atari reposait sur un certain niveau d’apprentissage par transfert. L.
Espeholt et al., « Impala : Scalable Distributed Deep-RL with Importance Weighted Actor-
Learner Architectures », Proceedings of the International Conference on Machine Learning,
2018, p. 1407-1416.
*4. D. Silver et al., « Mastering the Game of Go Without Human Knowledge », Nature
550, 2017, p. 354-359.
*5. G. Marcus, « Innateness, AlphaZero, and Artificial Intelligence », arXiv:1801.05667
(2018).
*6. F. P. Such et al., « Deep Neuroevolution : Genetic Algorithms Are a Competitive
Alternative for Training Deep Neural Networks for Reinforcement Learning », Proceedings of
the Neural Information Processing Systems (NIPS) Conference, Deep Reinforcement Learning
Workshop, 2018.
*7. M. Mitchell, An Introduction to Genetic Algorithms, Cambridge (MA), MIT Press,
1996.
*8. Marcus, « Innateness, AlphaZero, and Artificial Intelligence ».
*9. G. Marcus, « Deep Learning : A Critical Appraisal », arXiv:1801.00631 (2018).
*10. K. Kansky et al., « Schema Networks : Zero-Shot Transfer with a Generative Causal
Model of Intuitive Physics », Proceedings of the International Conference on Machine
Learning, 2017, p. 1809-1818.
*11. A. A. Rusu et al., « Progressive Neural Networks », arXiv:1606.04671 (2016).
*12. Marcus, « Deep Learning ».
*13. Cité dans N. Sonnad et D. Gershgorn, « Q&A : Douglas Hofstadter on Why AI Is Far
from Intelligent », Quartz, 10 octobre 2017, qz.com/1088714/qa-douglas-hofstadter-on-why-
ai-is-far-from-intelligent.
*14. Je me dois de dire que quelques groupes de robotique ont effectivement développé des
robots chargeurs de lave-vaisselle, bien qu’à ma connaissance, aucun d’eux ne soit passé par
un apprentissage par renforcement ou toute autre méthode d’apprentissage automatique. Ces
robots font l’objet d’impressionnantes vidéos (voir par exemple « Robotic Dog Does Dishes,
Plays Fetch », NBC New York, 23 juin 2016, www.nbcnewyork.com/news/local/Boston-
Dynamics-Dog-Does-Dishes-Brings-Sodas-384140021.html), mais il est clair qu’ils restent
très limités et ne sont pas près de résoudre les disputes que la vaisselle déclenche chaque soir
dans ma famille.
*15. A. Karpathy, « AlphaGo, in Context », Medium, 31 mai 2017,
medium.com/@karpathy/alphago-in-context-c47718cb95a5.

Chapitre 11. Les mots et ceux auxquels ils tiennent compagnie


*1. Mon histoire du « Restaurant » s’inspire de mini-histoires similaires créées par Roger
Schank et ses collègues lors de leurs travaux sur la compréhension du langage naturel (R. C.
Schank et C. K. Riesbeck, Inside Computer Understanding : Five Programs Plus Miniatures,
Hillsdale (NJ), Lawrence Erlbaum Associates, 1981) et par John Searle lors de ses critiques de
l’IA (J. R. Searle, « Minds, Brains, and Programs », Behavioral and Brain Sciences 3, no 3,
1980, p. 417-424).
*2. G. Hinton et al., « Deep Neural Networks for Acoustic Modeling in Speech
Recognition : The Shared Views of Four Research Groups », IEEE Signal Processing
Magazine 29, no 6, 2012, p. 82-97.
*3. J. Dean, « Large Scale Deep Learning », diapos extraites de la Conference on
Information and Knowledge Management (CIKM), novembre 2014,
static.googleusercontent.com/media/research.google.com/en//people/jeff/CIKM-keynote-
Nov2014.pdf., consulté le 3 décembre 2020.
*4. S. Levy, « The iBrain Is Here, and It’s Already in Your Phone », Wired, 24 août 2016,
www.wired.com/2016/08/an-exclusive-look-at-how-ai-and-machine-learning-work-at-apple.
*5. Dans la littérature consacrée à la reconnaissance de la parole, la mesure de performance
la plus couramment utilisée est le « taux d’erreur de mot » sur de grands ensembles de petits
segments audio. Si le taux d’erreur de mot pour les systèmes de reconnaissance de la parole les
plus performants appliqués à ces ensembles est égal ou supérieur au « niveau humain »,
plusieurs raisons laissent penser que lorsqu’on effectue des mesures plus réalistes (par
exemple, parole bruyante ou accentuée, mots importants, langage ambigu), la reconnaissance
de la parole par des machines est encore significativement moins performante que celle des
humains. Pour une bonne vue d’ensemble de certains de ces arguments, voir A. Hannun,
« Speech Recognition Is Not Solved », awni.github.io/speech-recognition, consulté le 3
décembre 2020.
*6. Pour une bonne vue d’ensemble, bien qu’un peu technique, du fonctionnement de ces
algorithmes modernes de reconnaissance de la parole, voir J.H.L. Hansen et T. Hasan,
« Speaker Recognition by Machines and Humans : A Tutorial Review », IEEE Signal
Processing Magazine 32, no 6, 2015, p. 74-99.
*7. Ces commentaires proviennent d’Amazon.com ; je les ai légèrement modifiés dans
certains cas.
*8. Au moment où ces lignes sont écrites, le monde de l’Internet est encore sous le choc
d’avoir appris qu’une entreprise d’analyse de données appelée Cambridge Analytica a utilisé
les données de dizaines de millions de comptes Facebook pour aider à cibler des publicités
politiques, probablement en utilisant, entre autres techniques, des méthodes de classification
des sentiments.
*9. Nous l’avons vu au chapitre 2, chaque unité d’un réseau neuronal calcule la somme de
ses entrées multipliées par leurs poids. Cela n’est réalisable que si les entrées sont des
nombres.
*10. J. Firth, « A Synopsis of Linguistic Theory, 1930-1955 », Studies in Linguistic
Analysis, Oxford, Philological Society, 1957, p. 1-32.
*11. A. Lenci, « Distributional Semantics in Linguistic and Cognitive Research », Italian
Journal of Linguistics 20, no 1, 2008, p. 1-31.
*12. En physique, le terme vecteur est souvent défini comme étant une entité ayant une
magnitude et une orientation. Cette définition est équivalente à celle que j’ai donnée dans le
texte : tout vecteur peut être décrit de manière unique par les coordonnées d’un point. Sa
magnitude est la longueur du segment reliant l’origine à ce point ; sa direction est l’angle
formé par ce segment avec les axes de coordonnées.
*13. T. Mikolov et al., « Efficient Estimation of Word Representations in Vector Space »,
Proceedings of the International Conference on Learning Representations, 2013.
*14. Word2vec, Google Code Archive, code.google.com/archive/p/word2vec/. Les
vecteurs-mots sont aussi appelés « plongements lexicaux » (word embeddings en anglais).
*15. Plus précisément, cette figure montre une version de la méthode « skip-gram », qui est
l’une des deux méthodes proposées dans Mikolov et al., « Efficient Estimation of Word
Representations in Vector Space ».
*16. Ibid.
*17. J’ai obtenu ces résultats à partir de la démonstration de word2vec sur bionlp-
www.utu.fi/wv_demo/ (basée sur le modèle « English Google-News Negative300 »).
*18. L’idée est de trouver x dans l’équation vectorielle homme – femme = roi – x. Pour
additionner ou soustraire deux vecteurs, il suffit d’additionner ou soustraire leurs
composantes ; par exemple, (3, 2, 4) – (1, 1, 1) = (2, 1, 3).
*19. bionlp-www.utu.fi/wv_demo/.
*20. R. Kiros et al., « Skip-Thought Vectors », Advances in Neural Information Processing
Systems 28, 2015, p. 3294-3302.
*21. Cité dans H. Devlin, « Google a Step Closer to Developing Machines with Human-
Like Intelligence », The Guardian, 21 mai 2015,
www.theguardian.com/science/2015/may/21/google-a-step-closer-to-developing-machines-
with-human-like-intelligence.
*22. Y. LeCun, « What’s Wrong with Deep Learning ? », diapos de conférence, p. 77,
www.pamitc.org/cvpr15/files/lecun-20150610-cvpr-keynote.pdf., consulté le 17 octobre 2020.
*23. Voir par exemple T. Bolukbasi et al., « Man Is to Computer Programmer as Woman Is
to Homemaker ? Debiasing Word Embeddings », Advances in Neural Information Processing
Systems 29, 2016, p. 4349-4357.
*24. Voir par exemple J. Zhao et al., « Learning Gender-Neutral Word Embeddings »,
Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,
2018, p. 4847-4853, et A. Sutton, T. Lansdall-Welfare et N. Cristianini, « Biased Embeddings
from Wild Data : Measuring, Understanding, and Removing », Proceedings of the
International Symposium on Intelligent Data Analysis, 2018, p. 328-339.

Chapitre 12. La traduction en tant qu’encodage et décodage


*1. Q. V. Le et M. Schuster, « A Neural Network for Machine Translation, at Production
Scale », AI Blog, Google, https://ai.googleblog.com/2016/09/a-neural-network-for-
machine.html, consulté le 24 octobre 2020.
*2. W. Weaver, « Translation », dans W. N. Locke et A. D. Booth (dir.), Machine
Translation of Languages, New York, Technology Press and John Wiley & Sons, 1955, p. 15-
23.
*3. C’est la méthode utilisée par Google Translate pour la plupart des langues. À l’époque
où ces lignes sont écrites, Google Translate n’est pas encore passé aux réseaux neuronaux pour
certaines langues moins courantes.
*4. Pour plus de détails, voir Y. Wu et al., « Google’s Neural Machine Translation System :
Bridging the Gap Between Human and Machine Translation », arXiv:1609.08144, 2016.
*5. Dans le système de traduction automatique neuronale de Google, les vecteurs-mots
s’apprennent lors de l’apprentissage du réseau tout entier.
*6. Plus précisément, les sorties du réseau décodeur sont les probabilités de chaque mot
possible dans le vocabulaire du réseau (ici, le français). Pour plus de détails, voir Wu et al.,
« Google’s Neural Machine Translation System ».
*7. Au moment où ces lignes sont écrites, Google Translate et d’autres systèmes de
traduction traduisent une phrase à la fois. Pour un exemple de recherche sur la traduction
simultanée de plusieurs phrases, voir L. M. Werlen et A. Popescu-Belis, « Using Coreference
Links to Improve Spanish-to-English Machine Translation », Proceedings of the 2nd
Workshop on Coreference Resolution Beyond OntoNotes, 2017, p. 30-40.
*8. S. Hochreiter et J. Schmidhuber, « Long Short-Term Memory », Neural Computation 9,
no 8, 1997, p. 1735-1780.
*9. Wu et al., « Google’s Neural Machine Translation System ».
*10. Ibid.
*11. T. Simonite, « Google’s New Service Translates Languages Almost as Well as
Humans Can », Technology Review, 27 septembre 2016,
https://www.technologyreview.com/2016/09/27/157323/googles-new-service-translates-
languages-almost-as-well-as-humans-can.
*12. A. Linn, « Microsoft Reaches a Historic Milestone, Using AI to Match Human
Performance in Translating News from Chinese to English », AI Blog, Microsoft, 14 mars
2018, blogs.microsoft.com/ai/machine-translation-news-test-set-human-parity.
*13. « IBM Watson Is Now Fluent in Nine Languages (and Counting) », Wired, 6 octobre
2016, www.wired.co.uk/article/connecting-the-cognitive-world.
*14. A. Packer, « Understanding the Language of Facebook », vidéo-conférence d’EmTech
Digital, 23 mai 2016, events.technologyreview.com/video/watch/alan-packer-understanding-
language.
*15. DeepL Pro, communiqué de presse, 20 mars 2018, www.deepl.com/press.html.
*16. K. Papineni et al., « BLEU : A Method for Automatic Evaluation of Machine
Translation », Proceedings of the 40th Annual Meeting of the Association for Computational
Linguistics, 2002, p. 311-318.
*17. Wu et al., « Google’s Neural Machine Translation System » ; H. Hassan et al.,
« Achieving Human Parity on Automatic Chinese to English News Translation »,
arXiv:1803.05567, 2018.
*18. Pour une discussion en profondeur des problèmes liés à l’absence de compréhension
de Google Translate, voir D. R. Hofstadter, « The Shallowness of Google Translate », The
Atlantic, 30 janvier 2018.
*19. D. R. Hofstadter, Gödel, Escher, Bach : les brins d’une guirlande éternelle, Paris,
Dunod, 2008, p. 676.
*20. E. Davis et G. Marcus, « Commonsense Reasoning and Commonsense Knowledge in
Artificial Intelligence », Communications of the ACM 58, no 9, 2015, p. 92-103.
*21. O. Vinyals et al., « Show and Tell : A Neural Image Caption Generator », Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, p. 3156-3164 ; A.
Karpathy et L. Fei-Fei, « Deep Visual-Semantic Alignments for Generating Image
Descriptions », Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2015, p. 3128-3137.
*22. La figure 39 est une version simplifiée du système décrit dans Vinyals et al., « Show
and Tell ».
*23. J. Markoff, « Researchers Announce Advance in Image-Recognition Software », The
New York Times, 17 novembre 2014.
*24. J. Walker, « Google’s AI Can Now Caption Images Almost as Well as Humans »,
Digital Journal, 23 septembre 2016, www.digitaljournal.com/tech-and-
science/technology/google-s-ai-now-captions-images-with-94-accuracy/article/475547.
*25. A. Linn, « Picture This : Microsoft Research Project Can Interpret, Caption Photos »,
AI Blog, 28 mai 2015, blogs.microsoft.com/ai/picture-this-microsoft-research-project-can-
interpret-caption-photos.
*26. Microsoft CaptionBot, www.captionbot.ai.

Chapitre 13. Demandez-moi n’importe quoi


*1. Transcription de www.chakoteya.net/NextGen/130.htm.
*2. Cité dans F. Manjoo, « Where No Search Engine Has Gone Before », Slate, 11 avril
2013,
www.slate.com/articles/technology/technology/2013/04/googlehasasingle_toweringobsessionit
wantstobuildthestartrekcomputer.html.
*3. Cité dans C. Thompson, « What Is I.B.M.’s Watson ? », New York Times Magazine, 16
juin 2010.
*4. Cité dans K. Johnson, « How “Star Trek” Inspired Amazon’s Alexa », Venture Beat, 7
juin 2017, venturebeat.com/2017/06/07/how-star-trek-inspired-amazons-alexa.
*5. https://en.wikipedia.org/wiki/Watson_(computer)#Development, consulté le 13
décembre 2020.
*6. Thompson, « What Is I.B.M.’s Watson ? »
*7. Un même rendu populaire par la série télévisée Les Simpsons.
*8. Série de conférences qui se donnent pour mission de « diffuser des idées qui en valent
la peine ». Voir https://fr.wikipedia.org/wiki/Conf%C3%A9rence_TED. (N.d.T.)
*9. K. Jennings, « The Go Champion, the Grandmaster, and Me », Slate, 15 mars 2016,
www.slate.com/articles/technology/technology/2016/03/googlesalphagodefeated_gochampionl
eesedolkenjenningsexplainswhat.html.
*10. « Baby Ruth » est le nom d’une barre de chocolat parmi les plus vendus aux États-
Unis.
*11. Cette vidéo, https://www.youtube.com/watch?v=P18EdAKuC1U, donne un bref
aperçu du cadre et du déroulement de la participation de Watson à Jeopardy !. (N.d.T.)
*12. Cité dans D. Kawamoto, « Watson Wasn’t Perfect : IBM Explains the “Jeopardy!”
Errors », Aol, www.aol.com/2011/02/17/the-watson-supercomputer-isnt-always-perfect-you-
say-tomato, consulté le 16 décembre 2018.
*13. J. C. Dvorak, « Was IBM’s Watson a Publicity Stunt from the Start ? », PC Magazine,
30 octobre 2013, www.pcmag.com/article2/0,2817,2426521,00.asp.
*14. M. J. Yuan, « Watson and Healthcare », site WEB d’IBM Developer,
www.ibm.com/developerworks/library/os-ind-watson/index.html, consulté le 16 décembre
2020.
*15. « Artificial Intelligence Positioned to Be a Game-Changer », 60 Minutes, 9 octobre
2016, www.cbsnews.com/news/60-minutes-artificial-intelligence-charlie-rose-robot-sophia.
*16. C. Ross et I. Swetlitz, « IBM Pitched Its Watson Supercomputer as a Revolution in
Cancer Care. It’s Nowhere Close », Stat News, 5 septembre 2017,
www.statnews.com/2017/09/05/watson-ibm-cancer.
*17. P. Rajpurkar et al., « SQuAD: 100,000+ Questions for Machine Comprehension of
Text », Proceedings of the 2016 Conference on Empirical Methods in Natural Language
Processing, 2016, p. 2383-2392.
*18. Ibid.
*19. A. Linn, « Microsoft Creates AI That Can Read a Document and Answer Questions
About It as Well as a Person », AI Blog, Microsoft, 15 janvier 2018,
blogs.microsoft.com/ai/microsoft-creates-ai-can-read-document-answer-questions-well-
person.
*20. Cité dans « AI Beats Humans at Reading Comprehension for the First Time »,
Technology.org, 17 janvier 2018, www.technology.org/2018/01/17/ai-beats-humans-at-
reading-comprehension-for-the-first-time.
*21. D. Harwell, « AI Models Beat Humans at Reading Comprehension, but They’ve Still
Got a Ways to Go », The Washington Post, 16 janvier 2018.
*22. P. Clark et al., « Think You Have Solved Question Answering ? Try ARC, the AI2
Reasoning Challenge », arXiv:1803.05457, 2018.
*23. Ibid.
*24. ARC Dataset Leaderboard, Allen Institute for Artificial Intelligence, évalué le 17
décembre 2018, leaderboard.allenai.org/arc/submissions/public.
*25. Tous les exemples de cette section proviennent de E. Davis, L. Morgenstern et C.
Ortiz, « The Winograd Schema Challenge », cs.nyu.edu/faculty/davise/papers/WS.html,
consulté le 22 décembre 2020.
*26. T. Winograd, Understanding Natural Language, New York, Academic Press, 1972.
*27. H. J. Levesque, E. Davis et L. Morgenstern, « The Winograd Schema Challenge »,
dans AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning, American
Association for Artificial Intelligence, 2011, p. 47.
*28. T. H. Trinh et Q. V. Le, « A Simple Method for Commonsense Reasoning »,
arXiv:1806.02847, 2018.
*29. Cité dans K. Bailey, « Conversational AI and the Road Ahead », Tech Crunch, 25
février 2017, techcrunch.com/2017/02/25/conversational-ai-and-the-road-ahead.
*30. H. Chen et al., « Attacking Visual Language Grounding with Adversarial Examples :
A Case Study on Neural Image Captioning », Proceedings of the 56th Annual Meeting of the
Association for Computational Linguistics, vol. 1, Long Papers, 2018, p. 2587–2597.
*31. N. Carlini aet D. Wagner, « Audio Adversarial Examples : Targeted Attacks on
Speech-to-Text », Proceedings of the First Deep Learning and Security Workshop, 2018.
*32. R. Jia et P. Liang, « Adversarial Examples for Evaluating Reading Comprehension
Systems », Proceedings of the 2017 Conference on Empirical Methods in Natural Language
Processing, 2017.
*33. C. D. Manning, « Last Words : Computational Linguistics and Deep Learning »,
Nautilus, avril 2017.

Chapitre 14. Sur la compréhension


*1. G.-C. Rota, « In Memoriam of Stan Ulam : The Barrier of Meaning », Physica D
Nonlinear Phenomena 22, 1986, p. 1-3.
*2. Lors d’une conférence que j’ai donnée sur ce sujet, un étudiant demanda : « Pourquoi
un système d’IA a-t-il besoin d’une compréhension humaine ? Pourquoi ne pas accepter que
l’IA ait une compréhension d’un genre différent ? » En dehors du fait que je n’ai pas la
moindre idée de ce que signifierait « une compréhension d’un genre différent », je pense que si
les systèmes d’IA sont voués à interagir avec des humains dans le monde, ils doivent
comprendre les situations qu’ils rencontrent essentiellement comme les comprennent les
humains.
*3. L’expression « connaissances de base » (core knowledge) a été particulièrement utilisée
par la psychologue Elizabeth Spelke et ses collaborateurs ; voir par exemple E. S. Spelke et K.
D. Kinzler, « Core Knowledge », Developmental Science 10, no 1, 2007, p. 89-96.
*4. Les psychologues utilisent le terme intuitif parce que ces connaissances de base sont
solidement ancrées en nous dès notre plus jeune âge ; ces connaissances nous deviennent
évidentes et nous restent pour la plupart subconscientes. De nombreux psychologues ont
montré que certains aspects de croyances intuitives humaines typiques concernant entre autres
la physique et les probabilités sont en fait erronés. Voir par exemple A. Tversky et D.
Kahneman, « Judgment Under Uncertainty : Heuristics and Biases », Science 185, no 4157,
1974, p. 1124-1131 ; et B. Shanon, « Aristotelianism, Newtonianism, and the Physics of the
Layman », Perception 5, no 2, 1976, p. 241-243.
*5. Lawrence Barsalou explique en détail l’apparition de ces simulations mentales dans L.
W. Barsalou, « Perceptual Symbol Systems », Behavioral and Brain Sciences 22, 1999,
p. 577-660.
*6. Douglas Hofstadter souligne que lorsqu’on se trouve face à une situation – ou qu’on se
la rappelle, ou qu’on lit des choses sur elle, ou qu’on l’imagine –, la représentation mentale
que l’on s’en fait contient un « halo » de variantes possibles qu’il appelle « sphère
contrefactuelle implicite » et qui contient « les choses qui n’existèrent jamais mais que nous ne
pouvons nous empêcher de voir. » D. R. Hofstadter, Ma thémagie : en quête de l’essence de
l’esprit et du sens, Paris, InterÉditions, 1988.
*7. L. W. Barsalou, « Grounded Cognition », Annual Review of Psychology 59, 2008,
p. 617-645.
*8. L. W. Barsalou, « Situated Simulation in the Human Conceptual System », Language
and Cognitive Processes 18, no 5-6, 2003, p. 513-562.
*9. A.E.M. Underwood, « Metaphors », Grammarly (blog),
www.grammarly.com/blog/metaphor, consulté le 29 décembre 2020.
*10. Roméo et Juliette, II, 1, et Macbeth, V, 5, Paris, Robert Laffont, 1995. (N.d.T.)
*11. G. Lakoff et M. Johnson, Les Métaphores dans la vie quotidienne, Paris, Éditions de
Minuit, 1986.
*12. L. E. Williams et J. A. Bargh, « Experiencing Physical Warmth Promotes
Interpersonal Warmth », Science 322, no 5901, 2008, p. 606-607.
*13. C. B. Zhong et G. J. Leonardelli, « Cold and Lonely : Does Social Exclusion Literally
Feel Cold ? », Psychological Science 19, no 9, 2008, p. 838-842.
*14. D. R. Hofstadter, Je suis une boucle étrange, Paris, Dunod, 2008. Ma description fait
également écho aux idées avancées par le philosophe Daniel Dennett dans La conscience
expliquée, Paris, Odile Jacob, 1993.
*15. Pour une discussion de ce type de « productivité linguistique », voir D. Hofstadter et
E. Sander, Surfaces and Essences : Analogy as the Fuel and Fire of Thinking, New York,
Basic Books, 2013, p. 129, et A. M. Zwicky G. K. Pullum, « Plain Morphology and
Expressive Morphology », Annual Meeting of the Berkeley Linguistics Society, 1987, 13:330-
340.
*16. J’ai emprunté ces arguments à une affaire juridique réelle. Voir « Blogs as Graffiti ?
Using Analogy and Metaphor in Case Law », IdeaBlawg, 17 mars 2012,
www.ideablawg.ca/blog/2012/3/17/blogs-as-graffiti-using-analogy-and-metaphor-in-case-
law.html.
*17. D. R. Hofstadter, « Analogy as the Core of Cognition », Presidential Lecture, Stanford
University (2009), www.youtube.com/watch?v=n8m7lFQ3njk.
*18. D. Hofstadter et E. Sander, L’Analogie, cœur de la pensée, Paris, Odile Jacob, 2013, p.
9
*19. M. Minsky, « Decentralized Minds », Behavioral and Brain Sciences 3, no 3, 1980,
p. 439-440.
Chapitre 15. Connaissance, abstraction et analogie en intelligence
artificielle
*1. D. B. Lenat et J. S. Brown, « Why AM and EURISKO Appear to Work », Artificial
Intelligence 23, no 3, 1984, p. 269-294.
*2. Autrement dit, « encyclopédie », qui se prononce « ençaïclopaedia » en anglais.
(N.d.T.)
*3. Ces exemples proviennent 2 de C. Metz, « One Genius’ Lonely Crusade to Teach a
Computer Common Sense », Wired, 24 mars 2016, www.wired.com/2016/03/doug-lenat-
artificial-intelligence-common-sense-engine, et D. Lenat, « Computers Versus Common
Sense », Google Talks Archive, www.youtube.com/watch?v=gAtn-4fhuWA, consulté le 11
janvier 2021.
*4. Selon Lenat, CyC est de plus en plus capable d’automatiser l’obtention de nouvelles
affirmations (vraisemblablement en exploitant le Web). Voir Lenat, « 50 Shades of Symbolic
Representation and Reasoning », CMU Distinguished Lecture Series,
www.youtube.com/watch?v=4mv0nCS2mik, consulté le 11 janvier 2021.
*5. Ibid.
*6. Pour une description détaillée et non technique du projet Cyc, voir le chapitre 4 de H.
R. Ekbia, Artificial Dreams : The Quest for Non-biological Intelligence, Cambridge (G.-B.),
Cambridge University Press, 2008.
*7. Page Web de Lucid : lucid.ai.
*8. P. Domingos, The Master Algorithm, New York, Basic Books, 2015, p. 35.
*9. « The Myth of AI : A Conversation with Jaron Lanier », Edge, 14 novembre 2014,
www.edge.org/conversation/jaronlanier-the-myth-of-ai.
*10. Voir par exemple N. Watters et al., « Visual Interaction Networks », Advances in
Neural Information Processing Systems 30, 2017, p. 4539-4547 ; T. D. Ullman et al., « Mind
Games : Game Engines as an Architecture for Intuitive Physics », Trends in Cognitive
Sciences 21, no 9, 2017, p. 649-65 ; et K. Kansky et al., « Schema Networks : Zero-Shot
Transfer with a Generative Causal Model of Intuitive Physics », Proceedings of the
International Conference on Machine Learning, 2017, p. 1809-1818.
*11. J. Pearl, « Theoretical Impediments to Machine Learning with Seven Sparks from the
Causal Revolution », Proceedings of the Eleventh ACM International Conference on Web
Search and Data Mining, 2018, p. 3. Pour une discussion plus approfondie sur le raisonnement
causal en IA, voir J. Pearl et D. Mackenzie, The Book of Why : The New Science of Cause and
Effect, New York, Basic Books, 2018.
*12. Pour une discussion lucide des insuffisances de l’apprentissage profond, voir G.
Marcus, « Deep Learning : A Critical Appraisal », arXiv:1801.00631, 2018.
*13. DARPA Fiscal Year 2019 Budget Estimates, Feb. 2018,
www.darpa.mil/attachments/DARPAFY19PresidentsBudgetRequest.pdf.
*14. Pattern Recognition, New York, Spartan Books, 1970.
*15. Toutes les illustrations des problèmes de Bongard que je donne ici proviennent du site
Web de Harry Foundalis, Index of Bongard Problems, www.foundalis.com/res/bps/bpidx.htm,
qui contient cent problèmes dus à Bongard et de nombreux autres problèmes inventés par
d’autres personnes.
*16. R. M. French, The Subtlety of Sameness, Cambridge (MA), MIT Press, 1995.
*17. Un programme particulièrement intéressant qui tenta de résoudre les problèmes de
Bongard fut conçu par Harry Foundalis alors qu’il préparait sa thèse dans le groupe de
recherche de Douglas Hofstadter à l’université de l’Indiana. Foundalis déclara explicitement
qu’il construisait non pas un « solutionneur de problèmes de Bongard », mais une
« architecture cognitive inspirée par les problèmes de Bongard ». Ce programme fut inspiré à
chaque niveau par la perception humaine, depuis la vision jusqu’à l’abstraction et l’analogie,
tout à fait dans l’esprit des intentions de Bongard, bien qu’il n’ait réussi à résoudre qu’un petit
nombre des problèmes de Bongard. Voir H. E. Foundalis, « Phaeaco : A Cognitive
Architecture Inspired by Bongard’s Problems », PhD diss., Indiana University, 2006,
www.foundalis.com/res/Foundalisdissertation.pdf. Foundalis possède un vaste site Web sur
lequel il actualise ses travaux sur les problèmes de Bongard :
www.foundalis.com/res/diss_research.html.
*18. S. Stabinger, A. Rodríguez-Sánchez et J. Piater, « 25 Years of CNNs : Can We
Compare to Human Abstraction Capabilities ? », Proceedings of the International Conference
on Artificial Neural Networks, 2016, p. 380-387. Une étude analogue figure dans J. Kim, M.
Ricci et T. Serre, « Not-So-CLEVR : Visual Relations Strain Feedforward Neural Networks »,
Interface Focus 8, no 4, 2018, 2018.0011.
*19. Quand je dis « la plupart des gens », je me fie aux résultats des enquêtes que j’ai
conduites dans le cadre de ma thèse de doctorat. Voir M. Mitchell, Analogy-Making as
Perception, Cambridge (MA), MIT Press, 1993.
*20. Hofstadter a inventé l’expression « conceptual slippage » (glissement conceptuel)
dans sa discussion des problèmes de Bongard au chapitre 19 de D. R. Hofstadter, Gödel,
Escher, Bach : an Eternal Golden Braid, New York, Basic Books, 1979. Voir la traduction
française, Gödel, Escher, Bach : Les Brins d’une Guirlande Éternelle, Paris, InterÉditions,
1985, p. 735.
*21. Ibid., p. 349–51. Dans la traduction française : p. 363-364
*22. Une description détaillée de Copycat figure au chapitre 5 de D. R. Hofstadter et du
Fluid Analogies Research Group, Fluid Concepts and Creative Analogies : Computer Models
of the Fundamental Mechanisms of Thought, New York, Basic Books, 1995. Une description
encore plus détaillée figure dans le livre tiré de ma thèse de doctorat, Analogy-Making as
Perception, Cambridge (MA), MIT Press, 1993.
*23. J. Marshall, « A Self-Watching Model of Analogy-Making and Perception », Journal
of Experimental and Theoretical Artificial Intelligence 18, no 3, 2006, p. 267-307.
*24. Plusieurs de ces programmes sont décrits dans Hofstadter et le Fluid Analogies
Research Group, Fluid Concepts and Creative Analogies (Basic Books, 1996).
*25. A. Karpathy, « The State of Computer Vision and AI : We Are Really, Really Far
Away », blog d’Andrej Karpathy, 22 octobre 2012, karpathy.github.io/2012/10/22/state-of-
computer-vision.
*26. Voir la Stanford Encyclopedia of Philosophy, sous « Dualism »,
plato.stanford.edu/entries/dualism/.
*27. Pour une discussion philosophique convaincante de l’hypothèse de l’incarnation en
sciences cognitives, voir A. Clark, Being There : Putting Brain, Body, and World Together
Again, Cambridge (MA), MIT Press, 1996.
Chapitre 16. Questions, réponses et réflexions
*1. « Automated Vehicles for Safety », site Web de la National Highway Traffic Safety
Administration, www.nhtsa.gov/technology-innovation/automated-vehicles-safety#issue-road-
self-driving.
*2. « Vehicle Cybersecurity : DOT and Industry Have Efforts Under Way, but DOT Needs
to Define Its Role in Responding to a Real-World Attack », General Accounting Office, mars
2016, www.gao.gov/assets/680/676064.pdf, consulté le 6 février 2021.
*3. Cité dans J. Crosbie, « Ford’s Self-Driving Cars Will Live Inside Urban “Geofences”,
Inverse, 13 mars 2017, www.inverse.com/article/28876-ford-self-driving-cars-geofences-ride-
sharing.
*4. Cité dans J. Kahn, « To Get Ready for Robot Driving, Some Want to Reprogram
Pedestrians », Bloomberg, 16 août 2018, www.bloomberg.com/news/articles/2018-08-16/to-
get-ready-for-robot-driving-some-want-to-reprogram-pedestrians.
*5. « Artificial Intelligence, Automation, and the Economy », Executive Office of the
President, décembre 2016, https://obamawhitehouse.archives.gov/blog/2016/12/20/artificial-
intelligence-automation-and-economy.
*6. C’est une référence à ce qu’Alan Turing appelait « L’objection de Lady Lovelace »,
ainsi nommée d’après Lady Ada Lovelace, mathématicienne et auteur britannique qui travailla
avec Charles Babbage au développement de la machine analytique, un projet du xixe siècle
pour un ordinateur programmable, mais jamais réalisé. Turing cite Lady Lovelace : « La
machine analytique n’a pas la prétention de créer quoi que ce soit. Elle peut faire tout ce que
nous savons lui ordonner de faire. » A. M. Turing, « Computing Machinery and Intelligence »,
Mind 59, no 236, 1950, p. 433-460. Publié en français dans Hofstadter & Dennett (1999), Les
ordinateurs et l’intelligence », Vues de l’Esprit, InterEditions, ch. 4.
*7. Site Web de Karl Sims, www.karlsims.com., consulté le 15 février 2021
*8. D. Cope, Virtual Music : Computer Synthesis of Musical Style, Cambridge (MA), MIT
Press, 2004.
*9. Cité dans G. Johnson, « Undiscovered Bach ? No, a Computer Wrote It », New York
Times, 11 novembre 1997.
*10. M. A. Boden, « Computer Models of Creativity », AI Magazine 30, no 3, 2009, p. 23–
34.
*11. J. Gottschall, « The Rise of Storytelling Machines », in What to Think About Machines
That Think, J. Brockman (dir.), New York, Harper Perennial, 2015, p. 179-180.
*12. « Creating Human-Level AI : How and When ? », vidéoconférence, Future of Life
Institute, 9 février 2017, www.youtube.com/watch?v=V0aXMTpZTfc, consulté le 23 février
2021.
*13. A. Karpathy, « The State of Computer Vision and AI : We Are Really, Really Far
Away », Andrej Karpathy, blog, 22 octobre 2012, karpathy.github.io/2012/10/22/state-of-
computer-vision, consulté le 23 février 2021.
*14. E.-C. Berkeley (1957), Cerveaux géants, Dunod, p. 102.
René Taton (1964). Histoire générale des sciences, tome 3, vol. 2, PUF, p. 313.
*15. M. Campbell-Kelly et al., Computer : A History of the Information Machine, 3e éd.,
New York, Routledge, 2018, p. 80.
*16. Cité dans K. Anderson, « Enthusiasts and Skeptics Debate Artificial Intelligence »,
Vanity Fair, 26 novembre 2014.
*17. Voir O. Etzioni, « No, the Experts Don’t Think Superintelligent AI Is a Threat to
Humanity », Technology Review, 20 septembre 2016,
www.technologyreview.com/s/602410/no-the-experts-dont-think-superintelligent-ai-is-a-
threat-to-humanity ; et V. C. Müller et N. Bostrom, « Future Progress in Artificial
Intelligence : A Survey of Expert Opinion », dans Fundamental Issues of Artificial
Intelligence, Bâle (Suisse), Springer, 2016, p. 555-572.
*18. N. Bostrom, « How Long Before Superintelligence ? », International Journal of
Future Studies 2, 1998.
*19. N. Bostrom, « How Long Before Superintelligence ? », International Journal of
Future Studies 2, 1998.
*20. D. R. Hofstadter, Gödel, Escher, Bach : Les Brins d’une Guirlande Éternelle, Paris,
Dunod, 2008, p. 762.
*21. Extrait de « The Myth of AI : A Conversation with Jaron Lanier », Edge, 14 novembre
2014, www.edge.org/conversation/jaronlanier-the-myth-of-ai.
*22. P. Domingos, The Master Algorithm, New York, Basic Books, 2015, p. 285-286.
*23. Équivalent américain de l’Agence nationale de la recherche (ANR) en France. (N.d.T.)
*24. Extrait de « Panel : Progress in AI : Myths, Realities, and Aspirations », Microsoft
Research video, www.youtube.com/watch?v=1wPFEj1ZHRQ&feature=youtu.be, consulté le
1er mars 2021.
*25. R. Brooks, « The Origins of “Artificial Intelligence” », blog de Rodney Brooks, 27
avril 2018, rodneybrooks.com/forai-the-origins-of-artificial-intelligence.

Postface de Douglas Hofstadter


*1. Co-translator (with Jacqueline Henry) of my first book Gödel, Escher, Bach: an Eternal
Golden Braid and proofreader of the current book.
*2. Co-traductrice (avec Jacqueline Henry) de mon premier livre Gödel, Escher, Bach : Les
Brins d’une Guirlande Éternelle et relectrice du livre actuel.
Remerciements

Ce livre doit son existence à Douglas Hofstadter. Les écrits de Doug sont à
l’origine de mon intérêt pour l’IA, et ses idées et conseils m’ont guidée
durant mes années de doctorat. Plus récemment, Doug m’a invitée chez
Google à la réunion qui a déclenché l’idée de ce livre, et plus récemment
encore, il a lu chaque chapitre du manuscrit en en emplissant les pages de
commentaires éclairés qui ont grandement amélioré la version finale. Je lui
suis très reconnaissante pour ses idées, ses livres et ses articles, pour le
soutien qu’il a manifesté à l’égard de mon travail, et par-dessus tout, pour
son amitié.
Je remercie d’autres amis et membres de ma famille, Jim Levenick, Jim
Marshall, Russ McBride, Jack Mitchell, Norma Mitchell, Kendall Springer
et Chris Wood, qui ont généreusement relu et subtilement commenté chaque
chapitre. Mille mercis également à Jeff Clune, Richard Danzig, Bob French,
Garrett Kenyon, Jeff Kephart, Blake LeBaron, Sheng Lundquist, Dana
Moser, David Moser et Francesca Parmeggiani pour avoir répondu aux
questions, traduit des passages et apporté leur aide à plusieurs niveaux.
Toute ma gratitude à Eric Chinski, de chez Farrar, Straus et Giroux, pour
ses encouragements et ses astucieuses contributions concernant tous les
aspects de ce projet ; à Laird Gallagher pour les nombreuses suggestions
avisées qui ont contribué à transformer un manuscrit sommaire en un texte
abouti ; et à l’équipe de chez FSG, en particulier à Julia Ringo, Ingrid
Sterner, Rebecca Caine, Richard Oriolo, Deborah Ghim et Brian Gittis,
pour leur excellent travail. Un grand merci également à mon agent, Esther
Newberg, pour avoir contribué à faire de ce livre une réalité.
Je dois beaucoup à mon mari, Kendall Springer, non seulement pour son
amour de chaque instant et son soutien enthousiaste, mais aussi pour sa
tolérance à l’égard de mes folles habitudes de travail. Avec leurs
remarquables questions, leur curiosité et leur bon sens, mes fils, Jacob et
Nicholas Springer, ont été au fil des ans une merveilleuse source
d’inspiration. Je dédie ce livre à mes parents, Jack et Norma Mitchell, qui
n’ont cessé de me prodiguer amour et encouragements tout au long de ma
vie. Dans un monde saturé de machines, j’ai cette grande chance d’être
entouré d’humains pleins de sagesse et d’amour.
Index

Aaronson, Scott 1
abstraction(s) 1, 2, 3
dans la connaissance humaine 1, 2, 3
dans les problèmes de Bongard 1, 2
dans les réseaux neuronaux convolutifs 1, 2
problème d’analogie dans les chaînes de lettres 1
activation(s) 1
dans les réseaux neuronaux 1, 2
dans les réseaux neuronaux récurrents 1-2
dans les systèmes encodeurs-décodeurs 1, 2
des neurones 1
Agüera y Arcas, Blaise 1, 2
AlexNet 1, 2, 3, 4, 5
algorithme 1
Word2Vec 1, 2
Allen Institute for Artificial Intelligence 1, 2
ensemble de questions scientifiques 1
Allen, Paul 1, 2
AlphaGo 1-2, 3, 4, 5, 6-7, 8
intelligence d’ 1-2
AlphaGo Fan 1
AlphaGo Lee 1
AlphaGo Zero 1, 2
AlphaZero 1, 2
American Civil Liberties Union (ACLU, Union américaine pour les libertés
civiques) 1-2
analogie(s)
chez les humains 1, 2
dans les situations visuelles 1
lien avec les catégories et les concepts 1-2
micromonde des chaînes de lettres 1, 2
utilisant des vecteurs-mots 1
apprentissage(s)
adverse 1
machine 1, 2
neuronaux profonds 1
non supervisé 1-2
par différence temporelle 1
apprentissage par renforcement
actions de l’agent lors de l’ 1
contraste avec l’apprentissage supervisé 1, 2, 3
épisode 1
état de l’agent dans l’ 1-2
exploration vs exploitation 1
Q-apprentissage 1, 2, 3
Q-tableau 1, 2, 3, 4
rabais des valeurs apprises 1
récompenses lors de l’ 1
valeur de l’action 1
apprentissage par transfert 1-2, 3
sur Breakout 1
apprentissage profond 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14
différent de la perception humaine 1
en tant que IA étroite 1
Hans le Malin 1
inspiré par les neurosciences 1, 2
manque de fiabilité 1, 2, 3
nécessité pour le Big data 1, 2
voir aussi réseaux neuronaux convolutifs ; système encodeur-décodeur ;
réseau encodeur ; traduction automatique neuronale ; réseaux neuronaux
récurrents
apprentissage supervisé 1, 2, 3-4, 5
contraste avec l’apprentissage humain 1
contraste avec l’apprentissage par renforcement 1, 2
de Watson (IBM) 1
arbre de jeu
échecs 1
go 1, 2
jeu de dames 1
architecture de « symboles actifs » 1
art génétique 1
Asimov, Isaac 1
lois fondamentales de la robotique 1
Atari, jeux vidéo 1-2

barrière du sens 1, 2
Barsalou, Lawrence 1, 2
Bengio, Yoshua 1
Big data 1, 2
Bongard, Mikhail 1
Bostrom, Nick 1, 2
Brackeen, Brian 1
Breakout 1
apprentissage par transfert sur 1
et Q-apprentissage profond 1
Brin, Sergey 1
Brooks, Rodney 1, 2, 3

CaptionBot 1-2
CARL 500 1
cartes d’activation 1, 2
cas aberrants 1, 2, 3
Centre for the Study of Existential Risk 1
chômage 1
Clarke, Arthur C. 1
classification 1
dans les réseaux neuronaux convolutifs 1-2
des sentiments 1-2
Clune, Jeff 1
cognitron 1
compétition ImageNet 1
compréhension
attribuée aux ordinateurs 1
chez les humains 1, 2, 3, 4
dans l’ordinateur de Star Trek 1
dans Watson d’IBM 1
dans le légendage automatique d’images 1, 2
dans les systèmes questions-réponses 1
dans le traitement du langage naturel 1, 2, 3
de la lecture 1, 2
de la vision 1, 2, 3, 4, 5, 6
en traduction automatique 1, 2
imputée aux ordinateurs 1
morale 1
pour la créativité 1, 2
pour les véhicules autonomes 1, 2
systèmes de reconnaissance de la parole 1
comprendre
en analogie 1
en apprentissage profond 1, 2
concepts en tant que simulations mentales 1
conditionnement opérant 1
conducteurs de sécurité 1
configuration(s) 1
au jeu de dames 1-2
au jeu de go 1
aux échecs 1
connaissances de base 1, 2, 3
pour les véhicules autonomes 1
connexionnisme 1-2
conscience 1-2, 3
convolution 1
Cope, David 1, 2-3
Copycat 1, 2, 3
cortex visuel 1-2
couche(s) cachée(s) 1-2, 3
Crawford, Kate 1
créativité 1, 2
croissance exponentielle 1, 2
cybernétique 1
Cyc 1, 2

Dartmouth
atelier d’IA 1, 2, 3
data snooping 1, 2
Davis, Ernest 1, 2
Deep Blue 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
DeepMind 1, 2, 3
acquisition par Google 1
Defense Advanced Research Projects Agency 1
Diamandis, Peter 1
dilemme du tramway 1-2
DiMarco, Jackie 1
Domingos, Pedro 1, 2
doublure d’évaluation bilingue (BLEU) 1
Dowd, Maureen 1
Dreyfus, Hubert 1

échecs 1, 2, 3
ELIZA (chatbot) 1
encodage « one-hot » 1
ensemble
d’apprentissage 1, 2-3, 4
de test 1
d’évaluation 1, 2-3
espace sémantique des mots 1, 2
Etzioni, Oren 1, 2
Eugene Goostman (chatbot) 1-2, 3
Evans, Claire 1
événements rares 1, 2
exemple(s) adverse(s)
contre les voitures autonomes 1
pour les systèmes de Q-apprentissage profond 1
pour les systèmes de reconnaissance de parole 1
pour la vision par ordinateur 1, 2
sur des systèmes de traitement du langage naturel 1, 2
Experiments in Musical Intelligence (EMI) 1, 2, 3, 4
explicabilité de l’apprentissage profond 1-2
exploration vs exploitation 1

Farhadi, Ali 1
Ferrucci, David 1-2, 3
Firth, John 1
fonction exponentielle 1
fragilité des systèmes d’IA 1, 2, 3
French, Robert 1
Fukushima, Kunihiko 1, 2
Future of Humanity Institute 1
Future of Life Institute 1

G
Gates, Bill 1, 2
General Problem Solver 1, 2, 3-4
géocloturage 1
Gershwin, Ira 1
glissement(s) conceptuel(s) 1, 2
Gödel, Escher, Bach (GEB) 1, 2, 3, 4, 5, 6, 7
Good, I. J. 1, 2, 3
Goodfellow, Ian 1
Google Translate 1, 2, 3, 4, 5, 6, 7
Gottschall, Jonathan 1

Hans le Malin (effet) 1


Hassabis, Demis 1, 2, 3-4, 5, 6, 7, 8, 9-10
Hawking, Stephen 1
Hearst, Eliot 1
Hinton, Geoffrey 1, 2-3, 4
hiver de l’IA 1-2
Hofstadter, Douglas 1, 2, 3, 4-5, 6, 7, 8, 9-10, 11-12, 13, 14, 15-16
Horvitz, Eric 1, 2
Hubel, David 1, 2, 3, 4
Hui, Fan 1
hyperparamètres 1-2, 3, 4
hypothèse de l’incarnation 1

IA (intelligence artificielle)
approche subsymbolique 1
approche symbolique 1
bénéfique 1-2
chômage dû à la 1
de niveau général 1
de niveau humain (ou) général 1, 2, 3, 4-5, 6, 7
définition 1-2
droit à l’explication 1
et chômage 1
et créativité 1, 2
et intelligence humaine 1
et préjugés 1, 2
étroite 1, 2
explicable 1-2
faible 1, 2
forte 1, 2, 3
hiver 1-2
lien avec l’apprentissage profond et l’apprentissage machine 1
morale 1, 2
origine de l’expression 1
préjugés 1, 2
printemps 1
réglementation de l’ 1-2
« surhumaine » 1-2
IA subsymbolique 1
contraste avec les méthodes symboliques 1, 2, 3
IA symbolique 1, 2
contraste avec les méthodes subsymboliques 1, 2, 3
ImageNet 1
compétitions 1
pré-entraînement sur 1
relation au 1
taux de performance « top-1 » 2
WordNet 1
Institut Allen pour l’IA 1, 2
intelligence surhumaine 1

Jefferson, Geoffrey 1
Jennings, Ken 1, 2, 3, 4
Jeopardy! 1, 2, 3, 4
match contre Watson d’IBM 1, 2
jeu de dames 1, 2
jeu de dames informatique de Samuel 1, 2
fonction d’évaluation 1
jeu de Go 1-2
jeu de l’imitation, voir test de Turing
Johnson, George 1
Johnson, Mark 1, 2

Kapor, Mitchell 1, 2
Karpathy, Andrej 1, 2, 3, 4
Kasparov, Garry 1, 2, 3, 4, 5, 6, 7
Kelly, Kevin 1
Kreye, Andrian 1
Krizhevsky, Alex 1-2
Kurzweil, Ray 1, 2, 3, 4, 5, 6, 7, 8, 9
L

Lakoff, George 1-2


Landecker, Will 1-2
LeCun, Yann 1, 2-3, 4-5, 6, 7, 8
légendage d’images automatique 1, 2
Legg, Shane 1
Lenat, Douglas 1-2
LeNet 1, 2
Levesque, Hector 1
Li, Fei-Fei 1, 2
Lickel, Charles 1
loi de Moore 1
Long Bets 1
longue mémoire à court terme 1
longue traîne 1, 2-3
voir aussi problème de la longue traîne

machines à vecteurs de support 1


Manning, Christopher 1
Marcus, Gary 1, 2, 3, 4
Markoff, John 1
Marshall, James 1
McCarthy, John 1, 2, 3, 4, 5, 6, 7
McClelland, James 1-2
Metacat 1
métacognition 1
métaphores 1, 2
Metaphors We Live By (livre) 1
méthode
encodeur-décodeur 1
de Monte-Carlo 1
métrique des cinq meilleures 1-2
Miller, George 1
Minsky, Marvin 1-2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13
module de classification 1, 2
Moore, Gordon 1
Morgenstern, Leora 1
mot-valise 1
Mullainathan, Sendhil 1
Müller, Vincent 1
Musk, Elon 1
MYCIN 1, 2

néocognitron 1, 2-3, 4
Neumann, John von 1
neuro-ingénierie 1
Newell, Allen 1, 2, 3, 4
Ng, Andrew 1, 2, 3, 4

Olsen, Ken 1
ordinateur de Star Trek 1
overfitted (surapprentissage) 1
P

Page, Larry 1, 2
Papert, Seymour 1-2, 3, 4, 5, 6, 7
Partnership on AI 1
PASCAL Visual Object Classes 1-2
perceptron(s) 1, 2, 3, 4
algorithme d’apprentissage 1, 2
analogie avec les neurones 1
comparaison avec les réseaux multitouches 1-2
entrées 1
et approche symbolique de l’IA 1
limites des 1-2
poids 1
reconnaissance de chiffres manuscrits 1, 2
seuil 1
Perceptrons (livre) 1, 2
performance
top-1 2
top-1 2
Pew Research Center 1
Pinker, Steven 1
précision humaine au test SQuAD 1
préjugés 1, 2
exprimés par les vecteurs-mots 1
printemps de l’IA 1
problème de la longue traîne 1, 2, 3
problèmes de Bongard 1, 2
processeurs graphiques (GPU, Graphics Processing Unit) 1
profondeur d’un réseau neuronal 1
programme
Situate 1
Watson d’IBM 1
progrès exponentiel 1, 2-3

Q-apprentissage 1, 2, 3
appliqué au go 1
Q-apprentissage profond 1, 2, 3
au jeu de go 1
capacités de transfert 1, 2
comparé avec la recherche aléatoire 1
et Breakout 1, 2
exemples adverses pour 1
Q-réseau profond (QRP) 1-2
Q-tableau 1, 2, 3-4
questions-réponses
voir aussi Watson d’IBM ; compréhension de la lecture ; Stanford Question
Answering Dataset (SQuAD) ; schémas de Winograd 1

recherche arborescente Monte-Carlo 1, 2


déroulés 1
reconnaissance de la parole 1, 2, 3, 4
exemples adverses pour la 1
reconnaissance d’objets 1-2
comparaison des ConvNets et des humains sur 1
dans le cerveau 1, 2
reconnaissance faciale 1, 2
attaques adverses sur la 1
éthique de la 1, 2
préjugés en 1, 2, 3
reconnaissance vocale 1
réglementation 1-2
réponse automatique aux questions 1-2
réseau 1
décodeur 1, 2-3
encodeur 1, 2-3
réseaux neuronaux 1
activation des 1
apprentissage dans les 1
classification des 1
couches cachées 1, 2, 3
profond, voir apprentissage profond
récurrents 1, 2, 3
unités dans les 1
réseaux neuronaux convolutifs 1
voir aussi ImageNet ; PASCAL
ajouts dans le Q-apprentissage profond 1
applications commerciales 1
apprentissage des 1, 2
capacités d’abstraction 1, 2
cartes d’activation dans les 1, 2
comparaison avec les humains sur la reconnaissance d’objets 1, 2
entrée dans 1
module de classification 1
réglage des hyperparamètres 1
sortie d’un 1
structure des 1, 2
réseaux neuronaux multicouches 1, 2, 3
voir aussi rétropropagation ; apprentissage profond
spéculation de Minsky et Papert sur les 1
rétropropagation 1, 2, 3
dans les réseaux neuronaux convolutifs 1
en apprentissage par renforcement profond 1-2
robot footballeur 1
Rochester, Nathaniel 1
Rose, Charlie 1
Rosenblatt, Frank 1, 2, 3, 4
Rota, Gian-Carlo 1
Rumelhart, David 1-2
Rutter, Brad 1, 2, 3

Samuel, Arthur 1
Sander, Emmanuel 1
schémas de Winograd 1, 2
Searle, John 1, 2
Sedol, Lee 1, 2
sémantique distributionnelle 1
sens commun 1, 2, 3
chez les nourrissons 1
connaissances contenues dans Cyc 1, 2
pour les véhicules autonomes 1
Shannon, Claude 1, 2, 3
Sharpless, Ned 1-2
Show and Tell 1, 2
Simon, Herbert 1, 2, 3, 4, 5
Sims, Karl 1
Singularité 1, 2, 3, 4, 5, 6-7
Singularity University 1
situations
de type longue traîne 1
visuelles 1
Skinner, B. F. 1, 2
Smith, Brad 1
Stanford Question Answering Dataset (SQuAD) 1, 2
Summer Vision Project 1
superintelligence 1, 2
Superintelligence 1
Sutherland, Amy 1-2
Sutskever, Ilya 1-2
Sutton, Richard 1
symboles actifs 1
système(s)
de questions-réponses 1
encodeur-décodeur 1-2, 3-4
expert(s) 1, 2-3, 4-5, 6
Szegedy, Christian 1-2

test de Turing 1, 2, 3, 4, 5
pari de Kurzweil et Kapor sur le 1, 2
prédiction de Kurzweil 1
théorie de l’esprit 1, 2
traduction automatique 1, 2
voir aussi Google Translate
comparaison entre humains et machines 1, 2-3, 4
évaluation 1, 2
neuronale 1, 2
statistique 1-2
traitement du langage naturel
approches statistiques 1
définition 1
défis posés 1, 2
reposant sur des règles 1
voir aussi traduction automatique ; réponse automatique aux questions ;
compréhension de la lecture ; classification de sentiments ; reconnaissance
de la parole ; vecteurs-mots
tricherie 1, 2
Turc mécanique d’Amazon 1
origine du nom 1
Turing, Alan 1, 2, 3-4, 5, 6, 7

unité(s) 1
cachées, voir couches cachées

vecteur(s)-mot(s) 1, 2, 3
analogies utilisant des 1
débiaisage 1
vecteurs-pensées 1
vie privée 1, 2
érosion de la 1
Vinge, Vernor 1
voiture(s) autonome(s) 1, 2, 3, 4
autonomie partielle vs autonomie totale 1-2
avantages des 1
données d’apprentissage pour 1-2
éthique de la 1-2
exemple d’attaques adverses 1
exemples adverses contre les 1
géocloturage pour 1
niveaux d’autonomie 1-2

Watson d’IBM 1, 2, 3, 4, 5
Watson, Thomas J. 1, 2
Weaver, Warren 1
Web 1
Wiesel, Torsten 1, 2, 3, 4
Winograd, Terry 1
WordNet 1, 2

Zuckerberg, Mark 1
Crédits iconographique

Figure 1 : Dessin de neurone adapté de C. Ling, M. L. Hendrickson, and


R. E. Kalil, “Resolving the Detailed Structure of Cortical and Thalamic
Neurons in the Adult Rat Brain with Refined Biotinylated Dextran Amine
Labeling”, PloS One, 7, no. 11 (2012), e45886. Image sous license Creative
Commons Attribution 4.0 International license
(https://creativecommons.org/licenses/by/4.0/).
Figure 2 : Caractères manuscrits de Josef Steppan,
https://commons.wikimedia.org/wiki/File:MnistExamples.png. Image sous
license Creative Commons Attribution-ShareAlike 4.0 International license
(https://creativecommons.org/licenses/by-sa/4.0/deed.en).
Figure 3 : Auteur.
Figure 4 : Auteur.
Figure 5 : Auteur.
Figure 6 :
https://media.defense.gov/2015/May/15/2001047923/-1/-1/0/150506-F-
BD468-053.JPG, consulté le 4 décembre 2018 (domaine public).
Figure 7 : Auteur.
Figure 8 : Auteur.
Figure 9 : Auteur.
Figure 10 : Auteur.
Figure 11 : Auteur.
Figure 12 : Auteur.
Figure 13 : Auteur.
Figure 14 : https://twitter.com/amywebb/status/841292068488118273,
consulté le 7 décembre 2018. Reproduite avec l’autorisation d’Amy Webb.
Figure 15 (gauche) : https://www.nps.gov/yell/learn/nature/osprey.htm
(domaine public)
Figure 15 (droite) :
https://www.fs.usda.gov/Internet/FSE_MEDIA/stelprdb5371680.jpg
(domaine public).
Figure 16 : https://twitter.com/jackyalcine/status/615329515909156865,
consulté le 7 décembre 2018. Reproduite avec l’autorisation de Jacky
Alcine.
Figure 17 : https://www.flickr.com/photos/jozjozjoz/352910684, consulté
le 7 décembre 2018. Reproduite avec l’autorisation de Joz Wang
(jozjozjoz.com).
Figure 18 : Tirée de C. Szegedy, Christian, W. Zaremba, I. Sutskever, J.
Bruna, D. Erhan, I. Goodfellow, and R. Fergus. “Intriguing Properties of
Neural Networks”, In Proceedings of the International Conference on
Learning Representations (2014). Reproduite avec l’autorisation de
Christian Szegedy.
Figure 19 : Tiré de A. Nguyen, J. Yosinski, and J. Clune, “Deep Neural
Networks are Easily Fooled: High Confidence Predictions for
Unrecognizable Images”, in Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition (2015), 427–436. Reproduite
avec l’autorisation des auteurs.
Figure 20 : Figure adaptée à partir de M. Sharif, S. Bhagavatula, L. Bauer,
and M. K. Reiter. “Accessorize to a Crime: Real and Stealthy Attacks on
State-Of-The-Art Face Recognition”, in Proceedings of the 2016 ACM
SIGSAC Conference on Computer and Communications Security, (ACM,
2016): 1528-1540. Reproduite avec l’autorisation des auteurs. La photo de
Milla Jovovich (par George Biard) est disponible sur
https://commons.wikimedia.org/wiki/File:Milla_Jovovich.png, sous license
Creative Commons Attribution-Share Alike 3.0 Unported license
(https://creativecommons.org/licenses/by-sa/3.0/deed.en).
Figure 21 : Auteur.
Figure 22 : Tirée de http://www.cs.cmu.edu/~robosoccer/image-
gallery/legged/2003/aibo-with-ball12.jpg. Reproduite avec l’autorisation de
Manuela Veloso.
Figure 23 : Auteur.
Figure 24 : Auteur.
Figure 25 : Auteur.
Figure 26 : Auteur.
Figure 27 : Auteur.
Figure 28 : Auteur.
Figure 29 : Auteur.
Figure 30 : Auteur.
Figure 31 : Auteur.
Figure 32 : Auteur.
Figure 33 : Auteur.
Figure 34 : Auteur.
Figure 35 : Auteur.
Figure 36 : Auteur.
Figure 37 : Tirée de T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J.
Dean, “Distributed Representations of Words and Phrases and Their
Compositionality”, in Advances in Neural Information Processing Systems
(2013), 3111–3119. Reproduite avec l’autorisation de Tomas Mikolov.
Figure 38 : Auteur.
Figure 39 : Auteur. La photographie est tirée du fonds de Microsoft CoCo :
http://cocodataset.org.
Figure 40 : La photographie est tirée du fonds de Microsoft CoCo :
http://cocodataset.org.
Figure 41 : Photographies tirées de http://nic.droppages.com. Reproduites
avec l’autorisation d’Oriol Vinyals.
Figure 42 : Haut : Photographies tirées de O. Vinyals et al., “Show and
Tell: A Neural Image Caption Generator,” in Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (2015), 3156–64.
Reproduites avec l’autorisation d’Oriol Vinyals. Bas, gauche : Road-Tech
Safety Services. Reproduite avec l’autorisation de Ben Jeffrey. Bas, droite :
Nikoretro, https://www.flickr.com/photos/bellatrix6/4727507323/in/album-
72057594083648059. Sous license Creative Commons Attribution-
ShareAlike 2.0 Generic license: https://creativecommons.org/licenses/by-
sa/2.0/.
Figure 43 : Photographies tirées de H. Chen, H. Zhang, P.-Y. Chen, J. Yi,
and C.-J. Hsieh, “Attacking Visual Language Grounding with Adversarial
Examples: A Case Study on Neural Image Captioning”, in Proceedings of
the 56th Annual Meeting of the Association for Computational Linguistics,
Volume 1: Long Papers (2018), 2587–2597. Reproduites avec l’autorisation
de Hongge Chen et de l’Association for Computational Linguistics.
Figure 44 : Dorothy Alexander / Alamy Stock Photo.
Figure 45 : Tirée de http://www.foundalis.com/res/bps/bpidx.htm.
Les images originales proviennent de M. Bongard, Pattern Recognition
(New York: Spartan Books, 1970).
Figure 46 : Tirée de http://www.foundalis.com/res/bps/bpidx.htm.
Les images originales proviennent de M. Bongard, Pattern Recognition
(New York: Spartan Books, 1970).
Figure 47 : Auteur.
Figure 48a-d : Auteur.
Figure 49a : https://www.nps.gov/dena/planyourvisit/pets.htm (domaine
public).
Figure 49b : https://pxhere.com/en/photo/1394259 (domaine public).
Figure 49c : Peter Titmuss / Alamy Stock Photo.
Figure 49d : Thang Nguyen,
https://www.flickr.com/photos/70209763@N00/ 399996115, sous license
Creative Commons Attribution-ShareAlike 2.0 Generic license,
https://creativecommons.org/licenses/by-sa/2.0/.
Figure 50 : P. Souza, Obama: An Intimate Portrait (New York: Little,
Brown, and Co., 2018), p. 102 (domaine public).
Table des matières
Couverture

Page de Copyright

Prologue. Terrifié

Première partie. Le contexte

Chapitre 1. Les racines de l’intelligence artificielle


Deux mois et dix hommes à Dartmouth
On définit, puis on va de l’avant
Une anarchie de méthodes
L’IA symbolique
L’IA sub-symbolique : les perceptrons
Les entrées de notre perceptron
L’apprentissage des poids et du seuil du perceptron
Les limites des perceptrons
L’hiver de l’IA
Les choses faciles sont difficiles

Chapitre 2. Les réseaux neuronaux et l’ascension de l’apprentissage


machine
Les réseaux neuronaux multicouches
L’apprentissage par rétropropagation
Le connexionnisme
Mauvais en logique, bons au frisbee
L’ascension de l’apprentissage machine
Chapitre 3. Le printemps de l’IA
Fièvre printanière
L’IA : étroite et générale, faible et forte
Les machines peuvent-elles penser ?
Le test de Turing
La Singularité
Une fable sur l’exponentielle
Le progrès exponentiel des ordinateurs
Neuro-ingénierie
Les sceptiques et les convaincus de la Singularité
Le pari sur le test de Turing
Deuxième partie. Regarder et voir

Chapitre 4. Qui, quoi, quand, où, pourquoi


Les choses faciles sont difficiles (surtout en vision par ordinateur)
La révolution de l’apprentissage profond
Le cerveau, le néocognitron et les réseaux neuronaux convolutifs
La reconnaissance d’objets dans le cerveau et dans les ConvNets
Entrées/sorties d’un ConvNet
Cartes d’activation
La classification dans les ConvNets
L’apprentissage d’un ConvNet
Chapitre 5. ConvNets et ImageNet
Construire ImageNet
Le Turc mécanique
Les compétitions ImageNet
La ruée sur le ConvNet
Les ConvNets ont-ils surpassé les humains dans la reconnaissance d’objets ?
Au-delà de la reconnaissance d’objets
Chapitre 6. Gros plan sur les machines qui apprennent
Apprendre seul
Le Big data
La longue traîne
Qu’a appris mon réseau ?
L’IA et les préjugés
Montrez vos calculs
Tromper les réseaux neuronaux profonds

Chapitre 7. Sur une IA fiable et éthique


L’IA bénéfique
Le Grand Compromis de l’IA
L’éthique de la reconnaissance faciale
Réglementer l’IA
Des machines morales
Troisième partie. Apprendre à jouer

Chapitre 8. Des récompenses pour les robots


Comment dresser votre robot-chien
Les obstacles du monde réel
Chapitre 9. Mise en jeu
Le Q-apprentissage profond
L’agent à 650 millions de dollars
Des dames et des échecs
Deep Blue
Le grand défi du go
AlphaGo contre Lee Sedol
Comment fonctionne AlphaGo
Chapitre 10. Au-delà des jeux
La généralité et l’« apprentissage par transfert »
« Sans exemples ou conseils humains »
Les plus difficiles des domaines
Qu’ont appris ces systèmes ?
Quel est le niveau d’intelligence d’AlphaGo ?
Des jeux au monde réel
Quatrième partie. L’intelligence artificielle rencontre le langage
naturel

Chapitre 11. Les mots et ceux auxquels ils tiennent compagnie


Le temps est venu d’une petite histoire.
La subtilité du langage
La reconnaissance de la parole et les derniers 10 %
Classifier les sentiments
Les réseaux neuronaux récurrents
Une idée simple pour encoder des mots sous forme de nombres
L’espace sémantique des mots
Word2Vec

Chapitre 12. La traduction en tant qu’encodage et décodage


L’encodeur rencontre le décodeur
Quelques jugements sur la traduction automatique
Lost in Translation
Traduire des images en phrases

Chapitre 13. Demandez-moi n’importe quoi


L’histoire de Watson
La compréhension de la lecture
Que signifie « il » ?
Attaques adverses sur des systèmes de traitement du langage naturel

Chapitre 14. Sur la compréhension


Les blocs constitutifs de la compréhension
Prédire les éventuels futurs
La compréhension est une simulation
Les métaphores dans la vie quotidienne
Abstraction et analogie
Chapitre 15. Connaissance, abstraction et analogie en intelligence
artificielle
Les connaissances essentielles pour les ordinateurs
L’abstraction, idéalisée
Symboles actifs et créations d’analogies
La métacognition dans le monde des chaînes de lettres
La reconnaissance des situations visuelles
« Nous sommes vraiment, vraiment très loin »
Chapitre 16. Questions, réponses et réflexions
Question : Dans combien de temps les voitures autonomes seront-elles une banalité ?
Question : L’IA se soldera-t-elle par un énorme chômage humain ?
Question : Un ordinateur peut-il être créatif ?
Question : Combien d’années nous séparent encore de la création d’une IA de niveau humain
général ?
Question : Devons-nous avoir peur de l’IA ?
Question : Quels problèmes exaltants restent encore à résoudre en IA ?
Postface de Douglas Hofstadter

Version anglaise

Version française

Notes et références

Remerciements

Index

Crédits iconographique
Notes
1. Texte traduit par Google Translate en 2019.

Vous aimerez peut-être aussi