🤔

Wo kommen die Daten her?

Die Qualität und Zusammensetzung der Trainingsdaten hat einen entscheidenden Einfluss auf das Verhalten von KI-Modellen

Warum Daten so wichtig sind

Trainingsdaten prägen, was eine KI lernt und wie sie sich verhält

Ein Sprachmodell wie ChatGPT hat in seiner Basisversion nie ein Spiel gespielt, einen Film gesehen oder ein Buch gelesen. Alles, was es weiß, stammt aus den Texten, mit denen es trainiert wurde.

Riesige Textmengen als Basis

Moderne KI-Modelle wie GPT-4 werden mit Billionen von Wörtern trainiert, die aus verschiedensten Quellen des Internets stammen. Die Menge und Zusammensetzung dieser Daten hat enormen Einfluss auf die Fähigkeiten des Modells.

Die Qualität einer KI hängt stark davon ab, welche Daten zum Training verwendet wurden. Um leistungsfähige Modelle zu entwickeln, werden deshalb enorme Mengen an Textdaten aus dem Internet gefiltert und aufbereitet.

Der FineWeb-Datensatz

Ein Blick auf die Inhalte moderner KI-Trainingsdaten

Der FineWeb-Datensatz ist ein hochqualitativer, öffentlich verfügbarer Trainingsdatensatz für große Sprachmodelle. Er umfasst ca. 15 Billionen Tokens (Wortbestandteile) und wurde aus Webseiten des CommonCrawl-Archivs extrahiert, gefiltert und optimiert.

Lade Datenvisualisierung...

Interaktive Visualisierung der Themencluster im FineWeb-Datensatz. Jeder Punkt repräsentiert ein Textdokument, und die Farben zeigen verschiedene thematische Cluster. Durch Zoomen und Bewegen kannst du die Zusammensetzung der Daten erkunden.

Die Visualisierung zeigt, wie vielfältig die Inhalte sind, die zum Training verwendet werden. Von Technologie und Wissenschaft über Sport und Gesundheit bis hin zu Kunst und Kultur - ein modernes KI-System muss aus allen Bereichen menschlichen Wissens lernen.

Wie werden Trainingsdaten gefiltert?

Die Kunst, qualitativ hochwertige Daten aus dem Internet zu destillieren

Nicht alle Inhalte aus dem Internet sind für das Training nützlich. Forschende wenden komplexe Filterverfahren an, um problematische oder qualitativ minderwertige Inhalte zu entfernen:

Duplikate entfernen - Häufig wiederkehrende Texte werden identifiziert und reduziert
Sprachqualität - Texte mit korrekter Grammatik und gutem Schreibstil werden bevorzugt
Bildungswert - Inhalte mit hohem Bildungswert erhalten höhere Priorität
Formatierung - Texte mit merkwürdiger Formatierung, Codefragmenten oder Listen werden gefiltert
Inhaltsfilter - Schädliche, anstößige oder problematische Inhalte werden entfernt

KI hilft bei der Datenselektion

Interessanterweise werden heute oft selbst KI-Systeme eingesetzt, um Trainingsdaten für neue KI-Modelle zu bewerten und auszuwählen. Moderne Datensätze wie FineWeb-Edu nutzen bestehende Sprachmodelle, um Texte mit hohem Bildungswert zu identifizieren.

Dieser Filterprozess reduziert Rohdaten oft um mehr als 90%, sodass nur die qualitativ hochwertigsten Inhalte übrig bleiben. Die Qualität dieser Auswahl ist entscheidend für die Fähigkeiten des resultierenden KI-Systems.