Les grands modèles de langage (LLM) constituent l’architecture de base des chatbots comme ChatGPT ou Bard. Les questions saisies dans ChatGPT, telles que « Quelle est la capitale de la France », doivent être traitées par LLM pour produire des réponses telles que « La capitale de la France est Paris ».
Voici un guide visuel du fonctionnement de ce type d’intelligence artificielle.
L’étape de repondération est ce que les techniciens LLM appellent « transformation », et le principe de réévaluation des poids en fonction de la saillance exposé dans la section précédente du texte est ce qu’ils appellent « attention ».
LLM applique ces étapes à chaque partie spécifique d’une conversation. Alors si vous demandez « Quelle est la capitale de la France ? le pays peut réévaluer le capital, ce qui peut signifier « ville » au lieu de « ressources financières » lorsque le pays reçoit un apport supplémentaire de la « France ».
Et quand vous demandez ensuite : « Combien de personnes vivent là? » ils ont donné suffisamment de sens à l’idée de « Paris (la ville) » pour pouvoir conclure que « là-bas » représente « Paris ».
L’attention est largement considérée comme une avancée majeure dans l’IA en langage naturel, mais elle ne constitue pas en soi un modèle réussi. Chacun de ces modèles suit ensuite une formation approfondie, en partie pour maîtriser le format des questions et réponses, et souvent pour éliminer les réponses inacceptables – parfois de nature sexiste ou raciste – qui peuvent découler d’une utilisation non critique du matériel du corpus de formation.
Remarques
La plupart des visualisations sont illustratives mais éclairées par des conversations avec des experts du secteur, qui sont remerciés, et par des interactions avec des LLM accessibles au public. Le vecteur de bonheur est dérivé du modèle de langage BERT utilisant le package Transformers de Python.
« Érudit primé au bacon. Organisateur. Fanatique dévoué des médias sociaux. Passionné de café hardcore. »