Wo kommen die Daten her?
Die QualitÀt und Zusammensetzung der Trainingsdaten hat einen entscheidenden Einfluss auf das Verhalten von KI-Modellen
Ein Sprachmodell wie ChatGPT hat in seiner Basisversion nie ein Spiel gespielt, einen Film gesehen oder ein Buch gelesen. Alles, was es weiĂ, stammt aus den Texten, mit denen es trainiert wurde.
Riesige Textmengen als Basis
Moderne KI-Modelle wie GPT-4 werden mit Billionen von Wörtern trainiert, die aus verschiedensten Quellen des Internets stammen. Die Menge und Zusammensetzung dieser Daten hat enormen Einfluss auf die FÀhigkeiten des Modells.
Die QualitÀt einer KI hÀngt stark davon ab, welche Daten zum Training verwendet wurden. Um leistungsfÀhige Modelle zu entwickeln, werden deshalb enorme Mengen an Textdaten aus dem Internet gefiltert und aufbereitet.
Der FineWeb-Datensatz ist ein hochqualitativer, öffentlich verfĂŒgbarer Trainingsdatensatz fĂŒr groĂe Sprachmodelle. Er umfasst ca. 15 Billionen Tokens (Wortbestandteile) und wurde aus Webseiten des CommonCrawl-Archivs extrahiert, gefiltert und optimiert.
Lade Datenvisualisierung...
Interaktive Visualisierung der Themencluster im FineWeb-Datensatz. Jeder Punkt reprÀsentiert ein Textdokument, und die Farben zeigen verschiedene thematische Cluster. Durch Zoomen und Bewegen kannst du die Zusammensetzung der Daten erkunden.
Die Visualisierung zeigt, wie vielfĂ€ltig die Inhalte sind, die zum Training verwendet werden. Von Technologie und Wissenschaft ĂŒber Sport und Gesundheit bis hin zu Kunst und Kultur - ein modernes KI-System muss aus allen Bereichen menschlichen Wissens lernen.
Nicht alle Inhalte aus dem Internet sind fĂŒr das Training nĂŒtzlich. Forschende wenden komplexe Filterverfahren an, um problematische oder qualitativ minderwertige Inhalte zu entfernen:
- Duplikate entfernen - HĂ€ufig wiederkehrende Texte werden identifiziert und reduziert
- SprachqualitÀt - Texte mit korrekter Grammatik und gutem Schreibstil werden bevorzugt
- Bildungswert - Inhalte mit hohem Bildungswert erhalten höhere PrioritÀt
- Formatierung - Texte mit merkwĂŒrdiger Formatierung, Codefragmenten oder Listen werden gefiltert
- Inhaltsfilter - SchĂ€dliche, anstöĂige oder problematische Inhalte werden entfernt
KI hilft bei der Datenselektion
Interessanterweise werden heute oft selbst KI-Systeme eingesetzt, um Trainingsdaten fĂŒr neue KI-Modelle zu bewerten und auszuwĂ€hlen. Moderne DatensĂ€tze wie FineWeb-Edu nutzen bestehende Sprachmodelle, um Texte mit hohem Bildungswert zu identifizieren.
Dieser Filterprozess reduziert Rohdaten oft um mehr als 90%, sodass nur die qualitativ hochwertigsten Inhalte ĂŒbrig bleiben. Die QualitĂ€t dieser Auswahl ist entscheidend fĂŒr die FĂ€higkeiten des resultierenden KI-Systems.