đŸ€”

Wo kommen die Daten her?

Die QualitÀt und Zusammensetzung der Trainingsdaten hat einen entscheidenden Einfluss auf das Verhalten von KI-Modellen

Warum Daten so wichtig sind
Trainingsdaten prÀgen, was eine KI lernt und wie sie sich verhÀlt

Ein Sprachmodell wie ChatGPT hat in seiner Basisversion nie ein Spiel gespielt, einen Film gesehen oder ein Buch gelesen. Alles, was es weiß, stammt aus den Texten, mit denen es trainiert wurde.

Riesige Textmengen als Basis

Moderne KI-Modelle wie GPT-4 werden mit Billionen von Wörtern trainiert, die aus verschiedensten Quellen des Internets stammen. Die Menge und Zusammensetzung dieser Daten hat enormen Einfluss auf die FÀhigkeiten des Modells.

Die QualitÀt einer KI hÀngt stark davon ab, welche Daten zum Training verwendet wurden. Um leistungsfÀhige Modelle zu entwickeln, werden deshalb enorme Mengen an Textdaten aus dem Internet gefiltert und aufbereitet.

Der FineWeb-Datensatz
Ein Blick auf die Inhalte moderner KI-Trainingsdaten

Der FineWeb-Datensatz ist ein hochqualitativer, öffentlich verfĂŒgbarer Trainingsdatensatz fĂŒr große Sprachmodelle. Er umfasst ca. 15 Billionen Tokens (Wortbestandteile) und wurde aus Webseiten des CommonCrawl-Archivs extrahiert, gefiltert und optimiert.

Lade Datenvisualisierung...

Interaktive Visualisierung der Themencluster im FineWeb-Datensatz. Jeder Punkt reprÀsentiert ein Textdokument, und die Farben zeigen verschiedene thematische Cluster. Durch Zoomen und Bewegen kannst du die Zusammensetzung der Daten erkunden.

Die Visualisierung zeigt, wie vielfĂ€ltig die Inhalte sind, die zum Training verwendet werden. Von Technologie und Wissenschaft ĂŒber Sport und Gesundheit bis hin zu Kunst und Kultur - ein modernes KI-System muss aus allen Bereichen menschlichen Wissens lernen.

Wie werden Trainingsdaten gefiltert?
Die Kunst, qualitativ hochwertige Daten aus dem Internet zu destillieren

Nicht alle Inhalte aus dem Internet sind fĂŒr das Training nĂŒtzlich. Forschende wenden komplexe Filterverfahren an, um problematische oder qualitativ minderwertige Inhalte zu entfernen:

  • Duplikate entfernen - HĂ€ufig wiederkehrende Texte werden identifiziert und reduziert
  • SprachqualitĂ€t - Texte mit korrekter Grammatik und gutem Schreibstil werden bevorzugt
  • Bildungswert - Inhalte mit hohem Bildungswert erhalten höhere PrioritĂ€t
  • Formatierung - Texte mit merkwĂŒrdiger Formatierung, Codefragmenten oder Listen werden gefiltert
  • Inhaltsfilter - SchĂ€dliche, anstĂ¶ĂŸige oder problematische Inhalte werden entfernt

KI hilft bei der Datenselektion

Interessanterweise werden heute oft selbst KI-Systeme eingesetzt, um Trainingsdaten fĂŒr neue KI-Modelle zu bewerten und auszuwĂ€hlen. Moderne DatensĂ€tze wie FineWeb-Edu nutzen bestehende Sprachmodelle, um Texte mit hohem Bildungswert zu identifizieren.

Dieser Filterprozess reduziert Rohdaten oft um mehr als 90%, sodass nur die qualitativ hochwertigsten Inhalte ĂŒbrig bleiben. Die QualitĂ€t dieser Auswahl ist entscheidend fĂŒr die FĂ€higkeiten des resultierenden KI-Systems.