Tokenisierung: Text in Stücke zerlegen
Der erste Schritt bei Sprachmodellen ist, Text in kleine Teile zu zerlegen, die wir "Tokens" nennen.
Computer verstehen keine Wörter wie wir, sondern nur Zahlen. Darum müssen wir Text erst in kleine Stücke zerlegen und dann in Zahlen umwandeln.
Diese Stücke nennt man "Tokens" - manchmal sind das ganze Wörter, manchmal Teile eines Wortes oder auch nur einzelne Buchstaben.
Nächster Schritt: Embeddings
Diese Tokens werden dann in spezielle Zahlenlisten, sogenannte Embeddings, umgewandelt. Diese Embeddings helfen der KI, die Bedeutung der Wörter zu verstehen – ähnliche Wörter bekommen ähnliche Zahlenlisten. Mehr dazu gibt es später in einer eigenen Demo!
Zum Beispiel wird das Wort "Programmieren" in die drei Tokens "Program" + "m" + "ieren" zerlegt werden, statt in einzelne Buchstaben oder Silben.
Klicke auf "Text tokenisieren", um zu sehen, wie dein Text in Tokens zerlegt wird.
Wir verwenden den echten GPT-Tokenizer, den auch ChatGPT benutzt! Fahre mit der Maus über Tokens, um zu sehen, wie sie zusammengehören.