Connaître avec les modèles de langage : une rupture paradigmatique

Gras Stéphan-Eloïse
Varoquaux Gaël
Langue de rédaction : Français
DOI: n/a
Product variations: 

Numérique(PDF)

Papier

Cet article s’intéresse à la nature des transformations de notre rapport à la connaissance induites par l’utilisation massive des modèles de langage. Constatant la prolifération de discours alarmistes voire catastrophistes depuis la mise en ligne de ChatGPT en novembre 2022, nous avançons que, pour comprendre ce qui peut changer avec les LLM, il faut se placer du côté de l’épistémologie. L’hypothèse développée est que le cadre normatif hérité de l’ingénierie des connaissances et de l’informatique symbolique se trouve remis en cause par les succès de l’informatique connexionniste. Ainsi, la question traitée à travers cet article est moins de savoir s’il est possible de qualifier de connaissance ou non les textes générés par un modèle de langage, que de comprendre à ce que l’on peut connaître à travers eux. Quelle intelligibilité des textes et des contenus audio et visuels, sur lesquels ils sont pré-entraînés, peuvent revendiquer les modèles de langage ?

Notre analyse, entre les disciplines de l’informatique, la philosophie des connaissances et les sciences de l’information et de la communication, compare dans un premier temps le fonctionnement des modèles de langage, par opposition aux grands principes de l’ingénierie des connaissances. L’approche fondamentalement probabiliste et empirique des modèles de langage, associés à une sémantique distributionnelle et à l’architecture des transformeurs, permet de capturer les mots et leur contexte grâce à d’impressionnantes capacités de représentations internes. Parfois complémentaires, ces techniques s’opposent néanmoins aux approches symboliques dont émane l’ingénierie des connaissances, qui s’appuient sur une conception computo-symbolique de l’intelligence comme de la sémantique, et sur une vision de la connaissance issue de la logique formelle et des philosophies rationalistes. Dans un deuxième temps, nous montrons pourquoi ce fonctionnement des modèles de langage incite à observer des prismes épistémologiques et des limites à leur effectivité empirique, tous deux de nature sociale. Il s’agit de tenir compte des médiations sociotechniques et de leurs conséquences sur le régime de connaissance des objets générés par des IA génératives. Nous démontrons qu’il est nécessaire de procéder à une analyse des représentations matérielles comme immatérielles qui guident l’élaboration des modèles de langage, c’est-à-dire les choix algorithmiques, implicites ou explicites, qui viennent cadrer l’effectivité empirique. Nous nous intéressons à ceux qui sont faits lors de la constitution et du passage à l’échelle des corpus des données d’entraînement (notamment à travers les analyses du corpus de données LAION) et lors de l’évaluation des performances d’un modèle de langage, à travers les choix des benchmarks de performance des modèles (à travers les analyses du benchmark Measuring Massive Multitask Language Understanding).

Pour conclure, cet article ouvre un champ de recherche programmatique pour continuer d’explorer les conséquences épistémologiques de l’informatique connexionniste, discipline qui connaît un fort succès avec les modèles de langage et plus généralement avec l’apprentissage profond.



Pour citer cet article :

Gras Stéphan-Eloïse, Varoquaux Gaël (2024/2). Connaître avec les modèles de langage : une rupture paradigmatique. In Gefen Alexandre & Huneman Philippe (Eds), Philosophies de l’IA : penser et écrire avec les LLM, Intellectica, 81, (pp.85-118), DOI: n/a.