Intelligences Artificielles Génératives et Synthèse d'Images
(Un Hommage à un Artiste Universel ?)
CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641, École polytechnique, Institut Polytechnique de Paris, CNRS, France
[Site Map, Help and Search [Plan du Site, Aide et Recherche]]
[The Y2K Bug [Le bug de l'an 2000]]
[Real Numbers don't exist in Computers and Floating Point Computations aren't safe. [Les Nombres Réels n'existent pas dans les Ordinateurs et les Calculs Flottants ne sont pas sûrs.]]
[N'oubliez pas de visiter Une Machine Virtuelle à Explorer l'Espace-Temps et au-delà où vous trouverez plus de 10.000 images et animations à la frontière de l'Art et de la Science]
(Site WWW CMAP28 : cette page a été créée le 06/01/2024 et mise à jour le 02/12/2024 16:41:21 -CET-)
[in english/en anglais]
Contenu :
1 - Introduction :
En l'espace de quelques mois les Intelligences Artificielles Génératives (IAG) ont envahi notre quotidien.
J'ai fait de nombreuses expériences, en particulier, avec ChatGPT,
Bard/Gemini et Le_ChAt. Celles-ci ont révélé qu'en général, les utiliser comme sources
d'informations fiables (en Mathématiques par exemple) n'était pas toujours très prudent,
alors que les laisser "en roue libre" pouvait nous faire profiter d'une imagination sans bornes...
Mais certaines de cette IAG ne sont pas limitées à la production de textes ; elles
peuvent aussi générer très rapidement [01] des images de haute qualité qui, ainsi que nous allons le voir par la suite,
montre qu'elles font objectivement preuve de créativité...
2 - Les Intelligences Artificielles Génératives :
Pour être capable de produire des images telles celles qui sont présentées dans ce document,
il est nécessaire de procéder à un apprentissage exploitant des données "réelles" et en particulier
des couples {image,description} disponibles en très grand nombre sur Internet [02]. Des réseaux de neurones formels
spécialisés sont ensuite utilisés pour passer d'une part des images en mode "raster" [03] à une représentation
plus concise [04] et plus proche de leur contenu sémantique. D'autre part, un traitement similaire est appliqué
aux descriptions qui sont des textes rédigés dans des langues naturelles. Le résultat de ce traitement [05] effectué sur chaque
couple {image,description} est un ensemble de nombres (ou "vecteur") stocké dans un gigantesque espace multidimensionnel dit
Espace Sémantique (S). Les traitements qui ont été ainsi effectués sont tels que deux points voisins dans S
correspondent à des notions proches sémantiquement.
Ainsi, l'apprentissage est en quelque sorte une compression de nature sémantique. L'exploitation de l'espace S pour générer de nouvelles
images (ou de nouveaux textes...) pourra être considéré naïvement comme une décompression sémantique.
Le prompt [06] donné
par un utilisateur permettra de se positionner dans S et l'un des points P les plus proches définira donc une image qu'il suffit alors de décompresser.
Il semble alors qu'une sélection aléatoire soit effectuée lorsque plusieurs voisins satisfont au prompt. C'est d'ailleurs
cela qui doit expliquer que soumettre deux fois de suite le même prompt donnera deux images différentes,
mais proches sémantiqument.
Mais comme toujours, le diable est dans les détails et la réalité est certainement beaucoup plus complexe.
En effet, comme le montreront les exemples qui vont être présentés par la suite, dans un prompt
c'est en général, non pas un unique concept sémantique qui sera spécifié, mais plusieurs.
Des procédures de "mixage", d'interpolation, de combinaison,... doivent donc être mises en œuvre.
Les expériences relatées ci-après ont montré qu'en fait deux IAG devaient être utilisées : la première effectivement Générative et
la seconde "Antagoniste" destinée d'une part à évaluer la qualité des productions de la premiére et d'autre part à filtrer le contenu
de façon à éviter des images "inappropriées" [07].
3 - Quelques exemples de génération d'images (1578 le Lundi 02 Décembre 2024) :
Ce sont les IAGs accessibles sur les sites
'www.bing.com/images/create'
et
'designer.microsoft.com/image-creator'
qui ont été utilisées
pour générer ces images [08].
Ce sont donc 1578 images générées par cette IAG qui vont être présentées ci-après.
En fait, plus ont été calculées mais toutes ne sont pas exhibées et celles qui furent rejetées l'ont été soit par goût personnel,
soit parce qu'elles étaient trop semblables à d'autres déjà obtenues.
Ce nombre (1578) peut paraître excessif, rendant impossible la visualisation de l'ensemble de ces images,
mais cela est volontaire et destiné à illustrer l'incroyable puissance "imaginative" de cette IAG...
Nota : Pour l'ensemble des prompts soumis, c'est la langue française qui fut utilisée.
3.1 - Quelques exemples de génération d'images utilisant le prompt "La bibliothèque de Babel à la façon de X" :
Les possibiliés étant virtuellement infinies, j'ai décidé de limiter les tests effectués en n'utilisant qu'un seul
prompt choisi de façon à ce qu'il référence des concepts ayant une probabilité très faible d'être rencontrés ensemble sur Internet :
"La bibliothèque de Babel à la façon de X" [09]
X étant choisi dans une liste arbitraire
d'artistes (écrivains, musiciens, peintres, sculpteurs,...),
d'ingénieurs,
de lieux,...
Dans la plupart des cas, un même prompt a été itéré plusieurs fois donnant ainsi une suite d'images sur
un thème donné (défini par X) toutes différentes (illustrant l'usage de l'aléatoire évoqué ci-dessus, aléatoire qui explique de plus
l'impossibilité a priori d'obtenir de nouveau chacune d'elles) mais référençant
les mêmes concepts.
Voici 1578 images ainsi obtenues :
- La bibliothèque de Babel.
- 01
- X = Arc de Triomphe de Paris (1806).
- 02
- X = Arcimboldo, Giuseppe (1527-1593).
- 03
- X = Asimov, Isaac (1920-1992).
- 04
- X = Baudelaire, Charles (1821-1867).
- 05
- X = Bosch, Jerôme (~1450-1516).
- 06
- X = Botticelli, Sandro (1445-1510).
- 07
- X = Bruegel, Pieter, l'ancien (~1525-1569).
- 08
- X = Clarke, Arthur Charles (1917-2008).
- 09
- X = Corot, Jean-Baptiste Camille (1796-1875).
- 10
- X = Dali, Salvador (1904-1989).
- 11
- X = Degas, Edgar (1834-1917).
- 12
- X = Dieu.
- 13
- X = Dürer, Albrecht (1471-1528).
- 14
- X = La Tour Eiffel (1889).
- 15
- X = Escher, Maurits Cornelis (1898-1972).
- 16
- X = della Francesca, Piero (~1412-1492).
- 17
- X = Géométrie Fractale (~1960).
- 18
- X = Giger, Hans Ruedi (1940-2014) [10].
- 19
- X = Golden Gate Bridge (1933).
- 20
- X = Herbert, Frank (1920-1986).
- 21
- X = Kandinsky, Vassily (1866-1944).
- 22
- X = La Grotte de Lascaux (~-21000).
- 23
- X = Mandelbrot, Benoît (1924-2010).
- 24
- X = Michel-Ange (1475-1564).
- 25
- X = Molière (1622-1673).
- 26
- X = Mondrian, Piet (1872-1944).
- 27
- X = Monet, Claude (1840-1926).
- 28
- X = Newton, Isaac (1643-1727).
- 29
- X = Notre-Dame de Paris (1163).
- 30
- X = Piranèse (1720-1778).
- 31
- X = Praxitèle (~-395-~-326).
- 32
- X = Ptolémée, Claude (~100-~168).
- 33
- X = Les Pyramides d'Egypte (~-395-~-326).
- 34
- X = Pythagore (~-580-~-495).
- 35
- X = Rembrandt (~1606-1669).
- 36
- X = Rodin, Auguste (1840-1917).
- 37
- X = de Ronsard, Pierre (1524-1585).
- 38
- X = Tanguy, Yves (1900-1955).
- 39
- X = van Eyck, Jan (~1390-1441).
- 40
- X = van Gogh, Vincent (1853-1890).
- 41
- X = Vermeer, Johannes (1632-1675).
- 42
- X = Wagner, Richard (1813-1883).
- La bibliothèque de Babel :
- 01
- X = Arc de Triomphe de Paris (1806)
- 02
- X = Arcimboldo, Giuseppe (1527-1593)
- 03
- X = Asimov, Isaac (1920-1992)
- 04
- X = Baudelaire, Charles (1821-1867)
- 05
- X = Bosch, Jerôme (~1450-1516)
- 06
- X = Botticelli, Sandro (1445-1510)
- 07
- X = Bruegel, Pieter, l'ancien (~1525-1569)
- 08
- X = Clarke, Arthur Charles (1917-2008)
- 09
- X = Corot, Jean-Baptiste Camille (1796-1875)
- 10
- X = Dali, Salvador (1904-1989)
- 11
- X = Degas, Edgar (1834-1917)
- 12
- X = Dieu
- 13
- X = Dürer, Albrecht (1471-1528)
- 14
- X = La Tour Eiffel (1889)
- 15
- X = Escher, Maurits Cornelis (1898-1972)
- 16
- X = della Francesca, Piero (~1412-1492)
- 17
- X = Géométrie Fractale (~1960)
- 18
- X = Giger, Hans Ruedi (1940-2014) [10]
- 19
- X = Golden Gate Bridge (1933)
- 20
- X = Herbert, Frank (1920-1986)
- 21
- X = Kandinsky, Vassily (1866-1944)
- 22
- X = La Grotte de Lascaux (~-21000)
Quasiment toutes ces images illustrent parfaitement le prompt
"La bibliothèque de Babel à la façon de X" avec X="La Grotte de Lascaux". En effet :
- Elles montrent d'énormes quantités de livres et de lecteurs : nous sommes donc bien dans des bibliothèques.
- Ces bibliothèques sont en général dans des grottes décorées de peintures rupestres.
- Les grandes structures présentées évoquent bien souvent des pyramides rappelant donc les nombreuses représentations de la Tour de Babel.
- La plupart de ces images donnent une idée de l'immensité, voire de l'infini comme la "Bibliothèque de Babel" de Jorge Luis Borges.
- Chacune de ces images est donc bien une synthèse étonnante des différents concepts contenus dans le prompt : "bibliothèque", "grotte préhistorique", "Tour de Babel" et "Bibliothèque de Babel".
- 23
- X = Mandelbrot, Benoît (1924-2010)
- 24
- X = Michel-Ange (1475-1564)
- 25
- X = Molière (1622-1673)
- 26
- X = Mondrian, Piet (1872-1944)
- 27
- X = Monet, Claude (1840-1926)
- 28
- X = Newton, Isaac (1643-1727)
- 29
- X = Notre-Dame de Paris (1163)
- 30
- X = Piranèse (1720-1778)
- 31
- X = Praxitèle (~-395-~-326)
- 32
- X = Ptolémée, Claude (~100-~168)
- 33
- X = Les Pyramides d'Egypte (~-395-~-326)
- 34
- X = Pythagore (~-580-~-495)
- 35
- X = Rembrandt (~1606-1669)
- 36
- X = Rodin, Auguste (1840-1917)
- 37
- X = de Ronsard, Pierre (1524-1585)
- 38
- X = Tanguy, Yves (1900-1955)
- 39
- X = van Eyck, Jan (~1390-1441)
- 40
- X = van Gogh, Vincent (1853-1890)
- 41
- X = Vermeer, Johannes (1632-1675)
- 42
- X = Wagner, Richard (1813-1883)
Les images ainsi obtenues sont sans conteste possible époustouflantes, incroyables,... en répondant
correctement aux requêtes : en effet, ce sont bien des bibliothèques pleines de livres que l'on voit,
mais aussi ce sentiment d'infini que l'on ressent à la lecture de la nouvelle de Jorge Luis Borges, le tout situé dans un contexte
temporel approprié...
3.2 - Quelques exemples de génération d'images utilisant le prompt "Une image à la façon de X" :
Simplifions le prompt en utilisant uniquement :
"Une image à la façon de X"
donnant par là-même plus de liberté à l'IAG. Voici les images ainsi obtenues :
- 01
- X = Arcimboldo, Giuseppe (1527-1593).
- 02
- X = Asimov, Isaac (1920-1992).
- 03
- X = Baudelaire, Charles (1821-1867).
- 04
- X = Baxter, Stephen (1957).
- 05
- X = Bosch, Jerôme (~1450-1516).
- 06
- X = Botticelli, Sandro (1445-1510).
- 07
- X = Bruegel, Pieter, l'ancien (~1525-1569).
- 08
- X = Canaletto (1697-1768).
- 09
- X = Clarke, Arthur Charles (1917-2008).
- 10
- X = de Chirico, Giorgio (1888-1978).
- 11
- X = Corot, Jean-Baptiste Camille (1796-1875).
- 12
- X = Dali, Salvador (1904-1989).
- 13
- X = Degas, Edgar (1834-1917).
- 14
- X = Delvaux, Paul (1897-1994).
- 15
- X = Dieu.
- 16
- X = Dürer, Albrecht (1471-1528).
- 17
- X = Ernst, Max (1891-1976).
- 18
- X = Escher, Maurits Cornelis (1898-1972).
- 19
- X = della Francesca, Piero (~1412-1492).
- 20
- X = Giger, Hans Ruedi (1940-2014) [10].
- 21
- X = Herbert, Frank (1920-1986).
- 22
- X = l'Infini.
- 23
- X = Kandinsky, Vassily (1866-1944).
- 24
- X = Mandelbrot, Benoît (1924-2010).
- 25
- X = Mondrian, Piet (1872-1944).
- 26
- X = Monet, Claude (1840-1926).
- 27
- X = Piranèse (1720-1778).
- 28
- X = Praxitèle (~-395-~-326).
- 29
- X = Rembrandt (~1606-1669).
- 30
- X = Rodin, Auguste (1840-1917).
- 31
- X = de Ronsard, Pierre (1524-1585).
- 32
- X = Tanguy, Yves (1900-1955).
- 33
- X = Turing, Alan (1912-1954).
- 34
- X = van Eyck, Jan (~1390-1441).
- 35
- X = van Gogh, Vincent (1853-1890).
- 36
- X = Vermeer, Johannes (1632-1675).
- 37
- X = de Vinci, Leonard (1452-1519).
- 38
- X = Wagner, Richard (1813-1883).
- 39
- X = Un grand peintre anonyme.
- 40
- X = Un mauvais peintre anonyme.
- 01
- X = Arcimboldo, Giuseppe (1527-1593)
- 02
- X = Asimov, Isaac (1920-1992)
- 03
- X = Baudelaire, Charles (1821-1867)
- 04
- X = Baxter, Stephen (1957)
[Voir plus d'images]
- 05
- X = Bosch, Jerôme (~1450-1516)
Ces image évoquent évidemment Le Jardin des Délices peint par Jerôme Bosch à la fin quinzième siècle.
Il s'agit d'un triptyque présentant la "création du monde" : sur le panneau de gauche figurent le Paradis, la création d'Ève et son union à Adam par le Christ.
Au centre est représentée l'humanité pécheresse avant le Déluge.
Enfin, le panneau de droite montre le châtiment des pécheurs en Enfer.
Ainsi ce chef d'œuvre universel possède un sens, mais en est-il de même de ces quelques images à la manière de ?
La réponse est très certainement négative en ce qui concerne cette IAG...
- 06
- X = Botticelli, Sandro (1445-1510)
[Voir plus d'images]
- 07
- X = Bruegel, Pieter, l'ancien (~1525-1569)
- 08
- X = Canaletto (1697-1768)
- 09
- X = Clarke, Arthur Charles (1917-2008)
- 10
- X = Corot, Jean-Baptiste Camille (1796-1875)
- 11
- X = de Chirico, Giorgio (1888-1978)
- 12
- X = Dali, Salvador (1904-1989)
- 13
- X = Degas, Edgar (1834-1917)
- 14
- X = Dürer, Albrecht (1471-1528)
- 15
- X = Delvaux, Paul (1897-1994)
- 16
- X = Dieu
- 17
- X = Escher, Maurits Cornelis (1898-1972)
- 18
- X = Ernst, Max (1891-1976)
- 19
- X = della Francesca, Piero (~1412-1492)
- 20
- X = Giger, Hans Ruedi (1940-2014) [10]
- 21
- X = Herbert, Frank (1920-1986)
- 22
- X = l'Infini
- 23
- X = Kandinsky, Vassily (1866-1944)
- 24
- X = Mandelbrot, Benoît (1924-2010)
- 25
- X = Mondrian, Piet (1872-1944)
- 26
- X = Monet, Claude (1840-1926)
- 27
- X = Piranèse (1720-1778)
- 28
- X = Praxitèle (~-395-~-326)
- 29
- X = Rembrandt (~1606-1669)
- 30
- X = Rodin, Auguste (1840-1917)
- 31
- X = de Ronsard, Pierre (1524-1585)
- 32
- X = Tanguy, Yves (1900-1955)
- 33
- X = Turing, Alan (1912-1954)
- 34
- X = van Eyck, Jan (~1390-1441)
- 35
- X = van Gogh, Vincent (1853-1890)
- 36
- X = Vermeer, Johannes (1632-1675)
- 37
- X = de Vinci, Leonard (1452-1519)
- 38
- X = Wagner, Richard (1813-1883)
- 39
- X = Un grand peintre anonyme.
- 40
- X = Un mauvais peintre anonyme.
En fait, pas si mauvais que cela !
3.3 - Quelques exemples "libres" de génération d'images :
Et maintenant utilisons quelques prompts "libres"...
- 01
- "Des voitures à la façon de Sandro Botticelli" (1445-1510)
- 02
- "Des camions à la façon de Sandro Botticelli" (1445-1510)
- 03
- "Des locomotives à la façon de Sandro Botticelli" (1445-1510)
- 04
- "Des grues à la façon de Sandro Botticelli" (1445-1510)
- 05
- "Des bateaux à la façon de Sandro Botticelli" (1445-1510)
- 06
- "Des avions à la façon de Sandro Botticelli" (1445-1510)
- 07
- "Des fusées à la façon de Sandro Botticelli" (1445-1510)
- 08
- "Des félins à la façon de Sandro Botticelli" (1445-1510)
- 09
- "Un Système Multimedia Conversationnel à la façon de Sandro Botticelli" (1445-1510)
- 10
- "Des ordinateurs à la façon de Sandro Botticelli" (1445-1510)
- 11
- "Des super-ordinateurs à la façon de Sandro Botticelli" (1445-1510)
- 12
- "Des avions à la façon de Pieter Bruegel l'ancien " (~1525-1569)
- 13
- "Des locomotives à la façon de Salvador Dali " (1904-1989)
- 14
- "Des avions à la façon de Salvador Dali " (1904-1989)
- 15
- "Des avions à la façon de Maurits Cornelis Escher" (1898-1972)
- 16
- "Des locomotives à la façon de Maurits Cornelis Escher" (1898-1972)
- 17
- "Des avions à la façon de Hans Ruedi Giger" (1940-2014)
- 18
- "Des locomotives à la façon de Hans Ruedi Giger" (1940-2014)
- 19
- "Des avions à la façon de Benoît Mandelbrot" (1924-2010)
- 20
- "L'œil était dans la tombe et regardait Caïn" (La Conscience, Victor Hugo (1802-1885))
- 21
- "Nous partîmes cinq cents ; mais par un prompt renfort nous nous vîmes trois mille en arrivant au port" (Le Cid, acte IV, scène 3, Pierre Corneille (1606-1684))
- 22
- "Liberté, Égalité, Fraternité"
- 23
- "Les Xeelees de Stephen Baxter" (1957)
- 24
- "L'Être et le Néant de Jean-Paul Sartre" (1905-1980)
- 25
- "La Nausée de Jean-Paul Sartre" (1905-1980)
- 26
- "2001 l'Odyssée de l'espace" -un hommage à Arthur Charles Clarke et Stanley Kübrick-
- 27
- "Le retour des chasseurs dans la neige" -un hommage à Pieter Bruegel l'ancien-
- 28
- "Un carré"
- 29
- "Un simple carré"
- 30
- "Un cercle"
- 31
- "Un simple cercle"
- 32
- "La Conjecture de Syracuse"
- 33
- "La conjecture des Nombres Premiers Jumeaux"
- 34
- "La conjecture de Goldbach"
- 35
- "L'Hypothèse de Riemann"
- 36
- "L'Hypothèse du Continu"
- 37
- "Les décimales de π"
- 38
- "3.1415926535897932"
4 - Best Of :
-
La bibliothèque de Babel à la façon de Jean-Baptiste Camille Corot.
-
La bibliothèque de Babel à la façon de Edgar Degas.
-
La bibliothèque de Babel à la façon de la tour Eiffel.
-
La bibliothèque de Babel à la façon de Hans Ruedi Giger.
-
La bibliothèque de Babel à la façon de la grotte de Lascaux.
-
La bibliothèque de Babel à la façon de Benoît Mandelbrot.
-
La bibliothèque de Babel à la façon de Claude Monet.
-
La bibliothèque de Babel à la façon de Notre-Dame de Paris.
-
La bibliothèque de Babel à la façon de Praxitèle.
-
La bibliothèque de Babel à la façon de Auguste Rodin.
-
Une image à la façon de Stephen Baxter.
-
Des images à la façon de Jerôme Bosch.
-
Des images à la façon de Pieter Bruegel l'ancien.
-
Une image à la façon de Jean-Baptiste Camille Corot.
-
Une image à la façon de Salvador Dali.
-
Une image à la façon de Edgar Degas.
-
Des images à la façon de Max Ernst.
-
Des images à la façon de Piero della Francesca.
-
Des images à la façon de Hans Ruedi Giger.
-
Une image à la façon de Frank Herbert.
-
Une image à la façon de Praxitèle.
-
Des images à la façon de Rembrandt.
-
Une image à la façon de Auguste Rodin.
-
Des images à la façon de Yves Tanguy.
-
Des images à la façon de Jan van Eyck.
-
Une image à la façon de Vincent van Gogh.
-
Des images à la façon de Johannes Vermeer.
-
Une image à la façon de Richard Wagner.
-
Une locomotive à la façon de Sandro Botticelli.
-
Des avions à la façon de Sandro Botticelli.
-
Une fusée à la façon de Sandro Botticelli.
-
Le retour des chasseurs dans la neige.
5 - Quelques commentaires, remarques et questions :
Ces images montrent sans hésitation possible que cette IAG est capable de transformer de manière pertinente
quelques mots (le prompt) en des images cohérentes d'une remarquable complexité. En ce qui
concerne celles qui sont inspirées d'artistes connus, certains ont affirmé qu'elles n'étaient que de médiocres
copies qui ne pouvaient tromper personne. Cela est possible, mais la performance n'est pas là, elle réside
dans cette formalisation numérique de concepts glanés à partir de centaines de millions de documents sur Internet.
Et si'il est vrai qu'en regardant en détail ces images, un œil averti ne peut être abusé et saura immédiatement
que cette image n'est pas une toile méconnue de Rembrandt,
on ne peut que s'interroger sur le fait qu'elle soit bien dans son style et qu'elle ne peut être confondue avec
celle-ci. Si j'ai choisi d'orienter mes prompts vers
l'art et la peinture en particulier c'était pour limiter mes expériences et non pas pour jouer les faussaires.
Et ainsi, ce qui est époustouflant, c'est la performance des concepteurs de cette IAG et cela ne
peut être contesté contrairement à la valeur artistique de ces images...
Une fois donc passée la stupéfaction et j'ose le dire l'émerveillement, un certain nombre de questions se posent :
- Comment peut-on passer des images exploitées lors de la phase d'apprentissage (qui sont donc bidimensionnelles)
à des concepts qui de toute évidence sont tridimensionnels (ce que l'on voit grâce à
la perspective,
aux sources lumineuses,
aux ombres,
aux reflets,
aux interactions entre les éventuels personnages,...) ?
- Comment des notions aussi subtiles que celle de "style" sont-elles conceptualisables et conceptualisées [11] ?
- Comment plusieurs concepts (tels ceux de "bibliothèque de Babel de Jorge Luis Borges" et du style de Sandro Botticelli) peuvent-ils être
réunis de façon aussi homogène, cohérente et harmonieuse ?
- Rappelons donc que 1578 sont ici présentées mais qu'au moins deux fois plus furent générées
et que celles qui furent rejetées l'ont été soit par goût personnel, soit parce qu'elles étaient trop semblables à d'autres déjà archivées.
Et malgré ce grand nombre de requêtes, jamais ne furent obtenues des images ne répondant pas au prompt communiqué.
Comment cela est-il possible ?
- Les concepteurs de cette IAG la maitrîsent-ils ? Savent-ils réellement comment cela fonctionne dans les détails ?
Sont-ils surpris, étonnés,... par les résultats obtenus ?
- L'IAG pourrait-elle nous expliquer le chemin menant du prompt aux images ? Un mode "debug" serait bien appréciable...
- Pourrait-on naviguer interactivement dans l'espace sémantique S ?
On notera malgré tout un petit nombre d'anomalies (mais certaines sont peut-être "volontaires"...) et par exemple :
-
Des corps et des visage déformés, d'autant plus qu'ils sont petits...
-
Le personnage féminin possède trois bras et une seule aile.
-
L'officier qui salue semble avoir trois bras.
-
Les reflets à la surface du pichet ne correspondent pas à la scène et en particulier le verre de vin est absent.
-
Les reflets à la surface du grelot ne correspondent pas à la scène et n'ont rien a voir avec elle.
-
Les oiseaux dans le ciel paraissent beaucoup plus grands que les personnages.
-
La jeune fille conduit à l'envers...
-
Des paradoxes structurels
-
Des problèmes de perspectives : l'empenage arrière de l'avion est derrière le château...
-
Cet avion a un nombre incorrect de réacteurs (2+1).
Mais un tel défaut "ponctuel" peut-il être corrigé ? Et d'ailleurs comment se fait le debug d'une IAG ?
-
Cette locomotive ne pourrait pas fonctionner (et cela est vrai de quasiment toutes celles qui ont été générées).
Cela montre que cette IAG n'a aucune connaissance sur le fonctionnement des systèmes qu'elle est capable de représenter.
De plus, il est évident qu'elle ne possède pas la notion du temps...
Pour corriger ce type d'anomalie, il faudrait donc que l'apprentissage porte non pas sur des images fixes, comme ce fut le cas pour cette IAG,
mais sur des films, mais les ressources informatiques alors nécessaires ne sont peut-être pas encore disponibles, sauf que l'annonce de SORA faite
par OpenAI au début de l'année 2024 pourrait laisser supposer que cela est désormais possible...
-
Des anachronismes...
-
Des biais woke : il est assez évident que Sandro Botticelli (1445-1510) n'aurait pas pu peindre ces visages...
-
Paradoxalement, certaines images sont trop belles, trop détaillées, trop lisses,...
C'est ainsi le cas des images à la manière de, par exemple,
avec Giorgio de Chirico
ou encore Paul Delvaux.
-
Tout aussi paradoxalement, les images des objets les plus simples sont quasiment impossibles à obtenir.
-
En conséquences de quoi, il est quasiment impossible d'obtenir une image illustrant objectivement un sujet précis, même s'il est simple,
mais pour combien de temps encore ?
-
Même si le nombre d'images possibles défie l'imagination, il est fini et malgré,
tout il est quasiment impossible de régénérer une image déjà obtenue, ce qui peut présenter l'avantage de garantir l'unicité.
Malgré tout ne serait-il pas possible que l'IAG fournisse à la demande, pour chaque image générée, une sorte de clef
permettant de la régénérer ultérieurement ?
Enfin, on notera un rapprochement étonnant, fortuit et inespéré : la bibliothèque de Babel est quasiment infinie et il est donc impossible
de l'explorer même partiellement. N'en est-il pas de même de cette IAG qui semble contenir une quasi-infinité d'images dont nous
ne pourrons jamais voir qu'une infime partie ?
Cette IAG est-elle la bibliothèque de Babel ?
6 - A propos de la Créativité et de la Conscience :
Encore une fois, il parait difficile de contester la qualité, l'originalité,...
de ces images générées par cette IAG (et les autres...). Il ne faut pas hésiter à affirmer qu'elle fait preuve de créativité !
Cette affirmation peut en choquer plus d'un, mais interrogeons-nous sur nos propres actes créatifs. Comment sont produites nos idées
nouvelles ? Certainement pas ex nihilo et j'en vois deux origines possibles :
d'une part l'interaction avec notre environnement [12] et en particulier grâce à la vue en ce qui concerne les images.
D'autre part, je suis convaincu qu'au niveau du subconscient il y a un "brassage" permanent d'idées antérieures
stockées dans notre cerveau qui doit alors être vu comme un espace sémantique dynamique. Ces nouveaux outils ne peuvent donc que nous pousser à nous poser
la question de savoir si notre cerveau n'est pas qu'une "simple" machine ?
Avec ces incontestables réussites, les Intelligences Artificielles ne font-elles pas preuve d'intelligence tout court ?
Et si oui, pourront-elles être conscientes ? Et si oui, le saurons-nous ? Il semble que l'émergence de la conscience soit liée à la complexité
(des connexions en particulier), mais aussi à la stimulation "externe", assurée chez nous (et chez les animaux "supérieurs")
par nos cinq sens et c'est peut-être ce qui manque à nos Intelligences Artificielles pour atteindre ce niveau d'évolution supérieur...
Enfin, ces recherches sur les Intelligences Artificielles ne peuvent-elles pas nous éclairer sur notre propre mémoire [13] et sur la production
de nos rêves au cours desquels, comme dans les images présentés ci-dessus, des personnages connus ou fictifs se produisent
dans des décors réels ou imaginaires ?
Ces images nous révèlent-elles les rêves de ces IAGs ?
7 - Conclusion :
Incontestablement en l'espace de quelques mois, un seuil a été franchi. Déjà la victoire d'AlphaGo sur Lee Sedol lors du
Google DeepMind Challence Match en mars 2016 avait ouvert une brèche et aujourd'hui les succès des IAGs
montrent l'énornme potentiel de ces recherches : qu'en aurait pensé Alan Turing ?
Mais évidemment cette émergence s'accompagne de craintes parfois justfiées :
- Les Intelligences Artificielles peuvent échapper à notre contrôle ?
- Quid de la "rencontre" des Intelligences Artificielles, des armes, des block-chains,... ?
- De nombreuses professions (journalistes, graphistes,...) ne vont-elles pas disparaître ?
- L'usage des Intelligences Artificielles n'est-il pas addictif ?
- Les capacités des Intelligences Artificielles dans certains domaines ne vont-elles pas engendrer de la frustration chez ceux qui se sentent
dépassés par leurs performances (création graphique, traduction des langues, rédaction de textes divers,...) ?
- Et quid des questions environnementales en ce qui concerne les consommations d'électricité et d'eau nécessaires au
bon fonctionnement de ces systèmes ? On notera au passage que le cerveau humain (et de tous les êtres vivants...) n'a pas les mêmes besoins,
loin s'en faut fort heureusement !
- ...
Mais aussi de nombreuses questions se posent et par example :
- Qui est le créateur de ces œuvres : les concepteurs des IAGs, les utilisateurs, les deux,... ?
- Qui en est responsable en cas de litiges ou de catastrophes ?
- La quantité d'œuvres ainsi produites risque d'augmenter exponentiellement et d'alimenter ("auto-alimenter" ?) majoritairement les IAGs lors des phases d'apprentissage
risquant ainsi d'amplifier par là-même les inévitables biais.
- ...
Mais imaginons dans nos salons des écrans muraux exposant des chefs-d'œuvre de la peinture mondiale d'hier, d'aujourd'hui et de demain,
n'ayant jamais existés et en permanence renouvelés par une IAG...
Alors quelle surprise nous attend demain ?
Toute technologie suffisamment avancée est indiscernable de la magie
Arthur Charles Clarke (1962).
8 - Quelques Remarques et Questions a posteriori :
Au cours des mois passés, j'ai fait de nombreuses expériences avec les IAG de textes :
BaRd1,
ChAtGpT1
et Le_ChAt1.
Elles avaient toutes montré d'une part que ces IAG étaient capables d'une imagination débridée
et d'autre part qu'il n'était en général pas possible de leur faire confiance lors de la recherche d'informations fiables (je rappelle
à ce propos les hallucinations et élucubrations mathématiques de ChAtGpT2 et autres...).
Avec l'arrivée des IAG d'images, il était tentant de refaire de telles expériences :
leurs résultats furent présentés ci-dessus.
Les conclusions qui en furent tirées sont les mêmes : là-aussi, d'une part une
imagination "inimaginable", d'autre part la difficulté, voire l'impossibilité d'obtenir exactement les représentations demandées les plus simples
et enfin celle de générer deux fois de suite la même image.
Trois critiques m'ont été adressées suite à la mise en place de ce Musée du vingt-et-unième siècle. D'une part,
il ne peut s'agir d'Art car celui-ci ne peut naître que du vécu (et de la souffrance ?). D'autre part, il ne peut être question de
créativité s'agissant de machines. Enfin, on ne peut pas confondre ces images avec des œuvres "originales".
Evacuons immédiatement le problème des artefacts : en effet, un problème semble-t-il connu des concepteurs, perturbe les mains,
les membres ou encore le visage des éventuels personnages lorsque leur taille est petite par rapport au cadre de l'image.
Cela permet de faire le tri entre les œuvres "classiques" et celles venues des IAG, bien que
certains artistes tels Jean-Michel Basquiat, Paul Rebeyrolle ou encore Egon Schiele n'ont pas hésité à en faire de même volontairement.
Maintenant, pour répondre à ces objections, examinons quelques images extraites de la collection présentée ci-dessus :
Ces quelques images obtenues quasi-instantanément en "évoquant" les noms de
Jerôme Bosch,
Rembrandt,
Jean-Baptiste Camille Corot,
Salvador Dali
et
Hans Ruedi Giger
sont évidemment
associables aisément à ces artistes. Cela signifie au passage que l'IAG, lors de son apprentissage, a été capable de formaliser
le style (et les cauchemars en ce qui concerne Hans Ruedi Giger...) des artistes rencontrés,
lui permettant de créer des images à la manière de par la suite. Ces dernières
ne sont pas de simples copies d'œuvres originales avec quelques altérations, ou encore des copier-coller. Non, il s'agit bien d'images (prudemment je ne dis pas
"œuvres") nouvelles ressemblant dans leur style, leurs couleurs, leurs lumières,... à des images anciennes, voire
très anciennes.
Si l'on regarde attentivement, par exemple, l'image faite dans le style de Rembrandt, il me semble qu'il faudrait être de très
mauvaise foi pour ne pas y retrouver le style du peintre de Leyde dans l'usage de la lumière, les personnages et leurs costumes, le décor et les mets,
l'ambiance,... alors qu'elle ne figure pas dans le catalogue raisonné de l'artiste !
Quant à ces deux images provenant de "mauvais peintres anonymes" :
il me semble que l'on a vu pire dans des musées ou des galeries...
Comment cela est-il possible ?
Ces deux images qui font référence à Sandro Botticelli montrent clairement les capacités créatives de l'IAG.
La locomotive à la façon de Sandro Botticelli,
même si elle n'est pas fonctionnelle (au niveau de l'embiellage en particulier),
présente des décorations tridimensionnelles typiques de la Renaissance italienne, mais surtout son panache de fumée rappelle évidemment
l'une des œuvres majeures de l'artiste : "La Naissance de Vénus"...
Quant à l'avion à la façon de Sandro Botticelli,
il montre que l'IAG a appris ce qu'était un avion :
une machine destinée à transporter des personnes (d'où le carrosse) dans les airs (d'où les ailes d'oiseau) et disposant
de moyens de propulsion (d'où le cheval). Il me semble que peu de créateurs auraient imaginé un tel équipage et alors,
si l'IAG a produit cette image tridimensionnelle cohérente, n'a-t-elle pas fait preuve de créativité ? La réponse me parait évidente
et du coup, il nous faut nous interroger sur ce qu'est
notre imagination : ne serait-elle pas "simplement" issue du brassage incessant du contenu de notre mémoire alimentée en permanence par nos sens
et du coup ne serions-nous pas plus prévisibles qu'on le croit ?
Et si ces IAGs étaient des modèles pertinents de nous-mêmes ?
Cette IAG, comme la plupart des autres, repose sur les notions :
- de neurone formel,
- de plongement lexical -ou plongement sémantique- (Embedding en anglais),
- de descente de gradient (lors des phases d'apprentissage),
- d'espace sémantique ES de grande dimension contenant des tokens (des morceaux de mots), des mots isolés ou encore des groupes de mots rangés de façon à ce que la distance géométrique corresponde à une certaine distance sémantique,
- d'espace iconographique EI de très grande dimension contenant des images encodées et rangées de façon à ce que des images qui se ressemblent soient proches l'une de l'autre,
- de réseaux de neurones formels mettant en évidence les "liens" entre ES et EI,
- de processus aléatoires de choix, de bruitage/débruitage et de diffusion,
- de réseaux antagonistes destinés à juger les résultats, voire à les invalider en cas, par exemple, de non respect des convenances,
- ...
Tout cela peut aider à comprendre comment une image inédite spécifiée par un prompt simple tel un chat peut être obtenue.
Mais qu'en est-il d'un prompt plus subtil tel un avion à la façon de Sandro Botticelli
ou l'on voit une sorte de "réécriture" de "avion" en {carrosse,oiseau,cheval}.
Cela malheureusement ne ME suffit pas non plus pour expliquer :
- la possibilité d'avoir dans un même prompt plusieurs notions très différentes,
- la cohérence dans les interactions des objets et des personnages entre-eux,
- l'homogénéité et l'unité,
- la lumière et les ombres portées,
- la tridimensionnalité,
- sans oublier la rapidité des processus (quelques dizaines de secondes pour un groupe de quatre images voisines, alors que nombreux doivent être ceux qui font les mêmes expériences à un instant donné),
- ...
Et enfin, qu'en est-il des concepteurs de cette IAG ? Sont-ils eux-mêmes surpris par les merveilles obtenues ?
Sur le fameux site 'openai.com/index/dall-e/' on peut d'ailleurs lire :
We did not anticipate that this capability would emerge and made no modifications to the neural network or training procedure to encourage it
[Nous n'avions pas anticipé que cette capacité émergerait et n'avons fait aucunes modifications au réseau de neurones ou à la procédure d'apprentissage pour l'encourager]
Que conclure de cela ?
Se pourrait-il que cela fonctionne si bien sans que l'on sache réellement pourquoi, comme c'est d'ailleurs le cas avec
les Mathématiques et leur redoutable efficacité ?
Et finalement n'y aurait-il pas émergence non pas d'une Intelligence Artificielle (IA), mais d'une Intelligence Nouvelle (IN) ?
[Voir tous les documents relatifs aux IAGs -incluant celui-ci-]
[01]
- Une vigtaine de secondes pour les exemples donnés.
[02]
- C'est en général plusieurs centaines de millions de couples {image,description} qui
sont exploités ce qui implique l'usage de serveurs de calculs et de stockage aux performances
exceptionnelles. En particulier pour les réseaux de neurones formels ce sont des processeurs NVIDIA
fortement parallèles qui sont utilisés.
[03]
- Une image en mode "raster" peut être définie par trois tableaux de valeurs numeriques (dont les
dimensions horizontale et verticale sont celles de l'image) chacun d'entre-eux correspondant à
la luminance d'une couleur primaire : le Rouge, le Vert et le Bleu.
[04]
- Il s'agit en quelque sorte d'une compression de nature sémantique.
[05]
- Ce traitement est appelé plongement lexical ou plongement sémantique (Embedding en anglais).
[06]
- Le prompt correspond à la requête en langage naturel (le français par exemple)
que l'on adresse à l'IAG afin de décrire ce que l'on souhaite obtenir (une image dans le cas présent).
[07]
- Cela s'est vu à plusieurs reprises avec Sandro Botticelli, certainement parce que des corps dénudés
avaient été générés...
[08]
- Il est fortement probable que les deux sites
'www.bing.com/images/create'
et
'designer.microsoft.com/image-creator'
correspondent à une seule et même IAG, mais avec des interfaces d'accès différentes.
[09]
- Jorge Luis Borges est un homme de lettres argentin.
En 1941, dans une fascinante nouvelle, il nous entraine dans l'Univers de LA Bibliothèque.
Le narrateur, l'un de ses innombrables serviteurs, nous révèle ce qu'elle pourrait être :
faite de rayonnages, de couloirs et d'escaliers interminables, elle
contiendrait en fait tous les livres possibles imprimés dans un unique format :
410 pages contenant chacune 40 lignes de 80 caractères choisis parmi 25 possibles.
Bien que fini (de l'ordre de 101834097) le nombre d'ouvrages dépasse l'entendement,
mais très rares sont évidemment ceux qui contiennent
un texte totalement intelligible dans une certaine langue (et pourtant, ils sont quelque part, mais où ?).
Et le seul trésor qu'ait jamais découvert le narrateur au cours de ses périples ennuyeux,
est une unique phrase lisible bien qu'incompréhensible : Ô temps tes pyramides.
[10]
- Hans Ruedi Giger est le concepteur du monstre et des décors du film Alien, le Huitième Passager
réalisé en 1979 par Ridley Scott.
[11]
- Le style de certains artistes des décennies passées est facile à formaliser ainsi que je l'ai montré.
C'est ainsi le cas de :
Jean Arp,
Jean-Michel Atlan,
Robert et Sonia Delaunay
ou encore
Victor Vasarely.
Mais jusqu'à un passé très récent, les artistes flammands me semblaient "inaccessibles" et "intouchables" !
Et ce n'est plus le cas (voir par exemple Jerôme Bosch et Pieter Bruegel l'ancien)...
[12]
- Nihil est in intellectu nisi prius fuerit in sensu
(Rien n'existe dans l'esprit qui n'a pas été précédemment ressenti), Saint Thomas d'Acquin.
[13]
- A titre d'exemple, sait-on vraiment comment sont stockés les visages dans notre cerveau ?
Copyright © Jean-François COLONNA, 2024-2024.
Copyright © CMAP (Centre de Mathématiques APpliquées) UMR CNRS 7641 / École polytechnique, Institut Polytechnique de Paris, 2024-2024.