Open Source GPT-OSS Modelle: Revolution bei OpenAI
Eine Vorstellung und Analyse der neuen offenen KI-Modelle von OpenAI
Ein überraschender Schritt von OpenAI
Die Firma, die bisher komplett gegen Open Source war und als der größte Konkurrent zu Open Source Modellen wie DeepSeek und Kimi K2 galt, hat gerade ein Open Source Modell veröffentlicht. Richtig gehört – Sam Altman kündigte stolz an, dass sie GPT-OSS veröffentlichen.
Im Kern liefern diese offenen Modelle eine vergleichbare Leistung wie eines ihrer Flaggschiff-Modelle, O4 Mini. Es gibt zwei Versionen, die später im Video präsentiert werden.
Nach den Spezifikationen kann das größere Modell leicht auf High-End-Maschinen mit der Rechenleistung einer 80-GB-GPU betrieben werden, während die kleinere Version laut offiziellen Angaben sogar auf Smartphones laufen kann.
Die neuen GPT-OSS Modelle im Überblick
Modelle & Lizenz
Nach über fünf Jahren ist das ihr erstes Open Source Modell seit GPT-2 (2019).
- GPT-OSS-120B: Großes Modell mit ca. 117 Milliarden Parametern.
- GPT-OSS-20B: Kleineres, aber sehr effizientes Modell mit rund 21 Milliarden Parametern.
Beide stehen unter der Apache 2.0 Lizenz. Die Trainingsmethoden umfassen OpenAI's modernste Techniken wie Reinforcement Learning und dieselben Verfahren, die auch in Top-Tier Modellen verwendet werden.
Technische Fakten
- Beide Modelle nutzen eine Mischung aus Experten („mixture of experts").
- Context Window von 12.000 bis 38.000 Token – üblich, aber nicht ganz an der Spitze, wo 200.000 Tokens möglich sind.
- Skills: Hervorragend bei Tool-Nutzung, few-shot Function Calling und chain-of-thought Reasoning.
Besonders beeindruckend ist, dass die Gewichte für diese Modelle öffentlich zugänglich sind, sodass jede:r sie für spezielle Anwendungsfälle feinjustieren kann.
Leistungsfähigkeit & Benchmarks
Die Modelle wurden umfassend an verschiedenen Benchmarks getestet:
Coding Benchmark – Codeforces
Tests mit und ohne Tool-Nutzung zeigten, dass OSS-20B und OSS-120B mit Tools kaum Performance-Unterschiede aufweisen, jeweils beeindruckende Resultate im Vergleich zu O3 oder O4 Mini erzielen.
Humanities Last Exam
Mit schwierigen Aufgaben aus Mathematik, Philosophie und komplexem Mehrschritt-Denken:
- OSS-20B mit Tools kommt dem O4 Mini mit Tools sehr nahe.
- OSS-120B übertrifft O4 Mini in puncto Genauigkeit.
Health Bench
Bei realistischen gesundheitlichen Fragestellungen performen die Modelle gut; bei schwierigeren Szenarien fällt OSS-20B etwas ab, bleibt aber besser als O3 Mini.
Mathematik und PhD-Level Wissenschaft
Starke und konsistente Leistungen in komplexen mathematischen und wissenschaftlichen Fragestellungen.
Besondere Architekturmerkmale
Die beiden Modelle nutzen chain of thought-Reasoning intensiv – ein Kernbestandteil der Architektur, der den Denkprozess modelliert, um bessere Antworten zu ermöglichen.
Seit dem O1 Preview Modell wird keine direkte Überwachung der chain of thought durchgeführt, was auch bei den OSS-Modellen bewusst beibehalten wurde, um kritisch Fehlverhalten, Täuschung oder Missbrauch leichter aufdecken zu können.
Der rohe chain of thought soll nicht öffentlich etwa durch Apps zugänglich gemacht werden, da er schädliche Inhalte oder vermiedene Antworten enthalten könnte.
Einzigartig ist, dass die Menge an Reasoning bei der chain of thought regelbar ist: Für schnelle Antworten kann man dies herunterfahren, für komplexe Aufgaben wie Mathematik, Wissenschaft oder Programmierung hochfahren.
Verfügbarkeit & Plattformpartnerschaften
Beide Modelle sind kostenlos auf Hugging Face verfügbar – inklusive offener Gewichte.
OpenAI hat Partnerschaften mit diversen Plattformen für die Bereitstellung vor dem Launch geschlossen, darunter:
- Azure
- Olama
- LM Studio
- Together AI
- Open Router
Diese Plattformen bieten die Modelle zum Download oder per API-Nutzung an.
Bei Open Router sind OSS-Modelle bereits live und können getestet werden. Schreiben Sie in die Kommentare, falls Sie ein ausführliches Testvideo wünschen!
Community & Hackathon
In der AI Labs Discord Community läuft vom jetzt bis zum 11. August der erste Hackathon – mit einem Preisgeld von 500 $ für den besten Beitrag.
Die fünf besten Projekte werden zudem in einem kommenden YouTube-Video vorgestellt. Nutzen Sie Ihre Kreativität und reichen Sie Ihre besten Werke ein!
Hier geht's zur Teilnahme über den Link im angepinnten Kommentar auf YouTube.
Abschließende Gedanken
Die offiziellen Benchmarks sind vielversprechend, spiegeln aber nicht immer die echte Leistung im Alltag wider. Für ein wahres Bild braucht es hands-on Tests – wir freuen uns über Feedback und Wünsche für Videos.
Sie möchten diesen Kanal unterstützen? Nutzen Sie den Super Thanks Button unter dem Video auf YouTube. Vielen Dank fürs Zuschauen! Bis zum nächsten Mal.