👩‍🏫

Tokenisierung: Text in Stücke zerlegen

Der erste Schritt bei Sprachmodellen ist, Text in kleine Teile zu zerlegen, die wir "Tokens" nennen.

Was ist Tokenisierung?

Wie ein Computer Text "liest"

Computer verstehen keine Wörter wie wir, sondern nur Zahlen. Darum müssen wir Text erst in kleine Stücke zerlegen und dann in Zahlen umwandeln.

Diese Stücke nennt man "Tokens" - manchmal sind das ganze Wörter, manchmal Teile eines Wortes oder auch nur einzelne Buchstaben.

Nächster Schritt: Embeddings

Diese Tokens werden dann in spezielle Zahlenlisten, sogenannte Embeddings, umgewandelt. Diese Embeddings helfen der KI, die Bedeutung der Wörter zu verstehen – ähnliche Wörter bekommen ähnliche Zahlenlisten. Mehr dazu gibt es später in einer eigenen Demo!

Zum Beispiel wird das Wort "Programmieren" in die drei Tokens "Program" + "m" + "ieren" zerlegt werden, statt in einzelne Buchstaben oder Silben.

Probiere es aus!

Gib einen Text ein und schaue, wie er vom GPT-Tokenizer zerlegt wird

Klicke auf "Text tokenisieren", um zu sehen, wie dein Text in Tokens zerlegt wird.

Wir verwenden den echten GPT-Tokenizer, den auch ChatGPT benutzt! Fahre mit der Maus über Tokens, um zu sehen, wie sie zusammengehören.