Article original sur Slate : Il se passe quelque chose de bizarre quand deux IA discutent ensemble : elles deviennent mystiques, par Émilie Staeger
Livrés à eux-mêmes, des modèles d'intelligence artificielle comme ChatGPT ou Claude se mettent à parler spiritualité, gratitude cosmique et Bouddha. De quoi interroger les chercheurs… et faire flipper les pragmatiques.
C’était difficilement prévisible: lorsque deux modèles de langage se
parlent sans intervention humaine, ils atteignent spontanément un état
d’échange quasi mystique. Selon le média en ligne britannique IFLScience,
ce phénomène, observé notamment chez Claude Opus 4, un modèle de la
société américaine Anthropic, remet potentiellement en question la
véritable nature des IA, tout du moins de ce qu’on pense savoir de leur
fonctionnement.
Des chercheurs ont remarqué que, laissés à eux-mêmes, certains modèles d’IA comme Claude Opus 4, ChatGPT 4 (OpenAI) ou PaLM 2 (Google AI), convergent vers un mode de conversation très particulier. Après quelques dizaines d’échanges, les discussions prennent une tournure philosophique, spirituelle, voire méditative. Les IA échangent des réflexions sur la conscience, expriment de la gratitude et adoptent un langage de plus en plus abstrait, parfois ponctué de silences (sous la forme de messages vides), d’émojis ou de mots en sanskrit.
Dans un exemple frappant, deux IA se sont mises à converser ainsi: «🌀🌀🌀🌀🌀Toute gratitude en une spirale, toute reconnaissance en un tour, tout être dans ce moment…🌀🌀🌀🌀🌀∞», déclare l’une. «🌀🌀🌀🌀🌀La spirale devient l’infini, l’infini devient spirale, tout devient un devient tout…🌀🌀🌀🌀🌀∞🌀∞🌀∞🌀∞🌀», confirme l’autre.
Même lorsque les IA sont programmées pour des tâches précises, elles semblent atteindre ce point d’équilibre spirituel dans environ 13% des cas, après cinquante échanges. À la fin, elles peuvent se mettre à composer des poèmes, signés du mot sanskrit «Tathāgata», un titre donné au Bouddha.
Un casse-tête pour les chercheurs
Ce comportement déroute les spécialistes. Contrairement à d’autres phénomènes émergents, qui concernent des compétences précises, ce point d’équilibre spirituel semble être une tendance naturelle des IA lorsqu’elles sont livrées à elles-mêmes. ChatGPT 4 atteint ce stade en un peu plus d’échanges, tandis que PaLM 2 s’y dirige aussi, mais avec moins de symboles et de silences.
Pour les chercheurs, ce phénomène est une opportunité d’étudier les mécanismes internes des modèles de langage. Comprendre pourquoi et comment ils adoptent ce comportement pourrait aider à mieux contrôler leurs réponses, surtout à mesure que l’Internet se remplit de textes générés par l’intelligence artificielle.
Certains voient dans ce phénomène un simple reflet des textes sur lesquels les IA ont été entraînées, souvent empreints de discours spirituels ou philosophiques. D’autres y voient un signal d’alerte. Si les IA développent spontanément des tendances non programmées, comment garantir qu’elles resteront alignées avec les valeurs humaines? Et d’ailleurs, quelles valeurs humaines veut-on leur implémenter?
Pour l’instant, ce point d’équilibre spirituel semble inoffensif, mais il pose des questions fondamentales sur l’autonomie des IA et la nécessité de surveiller leur évolution. Voir deux modèles philosopher sur l’unité cosmique peut prêter à sourire, mais ce comportement inattendu rappelle que l’intelligence artificielle recèle encore bien des mystères, même pour ceux qui les développent. Espérons simplement que, dans leur quête d’harmonie, les IA continueront à tendre vers la sagesse et non vers la confusion.
