Comment fonctionne les LLM (Chat GPT)

Qu’est-ce qu’un token ?

Un token est une unité de base du texte en traitement automatique des langues. Lorsqu’un modèle de langage traite une phrase, il découpe le texte en éléments plus petits appelés tokens, qui peuvent être :

Des mots entiers (ex : "bonjour")
Des sous-mots (ex : "intellige" et "nce" dans "intelligence")
Des caractères uniques (utile pour certaines langues comme le chinois)

Les tokens servent de briques de base pour permettre aux machines de comprendre et générer du texte, quelle que soit la langue.

Comment le texte est-il tokenisé ?

La tokenisation consiste à découper une chaîne de texte en unités plus petites. En français, le découpage se fait souvent sur les espaces et les signes de ponctuation, mais cela varie selon les langues et les modèles.

Exemple : Tokenisation d’une phrase

Texte d’entrée : « Les modèles de langage sont incroyables ! »
Tokens générés :

[
  "Les", "modèles", "de", "langage", "sont", "incroyables", "!"
]

Dans cet exemple, le point d’exclamation (!) est traité comme un token à part.

Représentation mathématique des tokens

Chaque token est converti en un vecteur numérique via une opération appelée embedding, ce qui permet au modèle de traiter le texte mathématiquement.

Un token T est représenté comme un vecteur de n dimensions :
T = [t₁, t₂, t₃, ..., tₙ]
où t₁, t₂, ..., tₙ sont des valeurs représentant la signification sémantique du token.

Une fois ces vecteurs obtenus, le modèle utilise des probabilités pour prédire le prochain token à partir des précédents, selon le principe de modélisation autorégressive.

Formule : Probabilité d’une phrase

La probabilité d’une séquence S (liste de tokens) est calculée ainsi :
P(S) = P(T₁) × P(T₂|T₁) × P(T₃|T₁,T₂) × ... × P(Tₙ|T₁,...,Tₙ₋₁)

Cette formule modélise la chaîne des dépendances entre tokens dans une phrase.

La tokenisation par sous-mots

Les modèles modernes utilisent souvent la tokenisation par sous-mots pour gérer :

Les mots rares (ex : "anticonstitutionnellement" devient "anti", "constitution", "nel", "lement")
Les erreurs ou variantes d’orthographe
Les langues avec de très vastes vocabulaires

Exemple : Byte Pair Encoding (BPE)

Entrée : « tokenisation »
Tokens générés :

[
  "token", "isation"
]

Limites de tokens des modèles

Les modèles de langage ont une limite sur le nombre de tokens qu’ils peuvent traiter d’un coup. Par exemple, GPT-4 supporte jusqu’à 8192 tokens. Si cette limite est dépassée, il faut tronquer ou résumer les messages.

Importance des tokens dans la génération de texte

Lors de la génération, le modèle prédit un token à la fois, à partir du contexte fourni par les tokens précédents. Exemple :

Tokens d’entrée :

[
  "Le", "soleil", "est"
]

Prochain token prédit : "brillant"
Résultat final : « Le soleil est brillant. »

La prédiction itérative des tokens permet au modèle de composer des phrases, des textes ou même des dialogues cohérents.

Conclusion

Les tokens sont au cœur du fonctionnement des modèles de langage. Qu’il s’agisse de mots, de sous-mots ou de caractères, la capacité à découper, encoder puis prédire les tokens est ce qui permet à l’IA de traiter et de produire du langage naturel.

Pour explorer davantage, parcourez des ressources comme Hugging Face.

Rechercher dans ce blog

WEBINFO FRANCE