Einführung in OpenAI's neues Open Weights Modell

← Zurück zum Dashboard

OpenAI's neues Open Weights Modell ist jetzt verfügbar und ich könnte nicht aufgeregter sein. Ich erstelle viele Tutorials zu KI-Automatisierungen auf diesem Kanal und weiß, dass es für viele eine echte Herausforderung ist, für Dienste wie OpenAI, Anthropic und andere kostenpflichtige Anbieter zu bezahlen.

Die unbequeme Realität ist jedoch, dass Modelle wie die von OpenAI und Anthropic die meisten Open-Source-Modelle, insbesondere beim Befolgen von Anweisungen, Tool-Aufrufen und logischem Denken, einfach übertreffen. Deshalb verwenden viele Pädagogen in diesem Bereich entweder Anthropics Modelle oder Modelle wie GPT-4O Mini von OpenAI.

Ich bin wirklich begeistert von der Aussicht, ein OpenAI-Modell zu haben, das ich lokal auf meinem eigenen Rechner oder über die Infrastruktur von Grok betreiben kann.

Überblick zum Open Weights Release

OpenAI hat zwei Modelle veröffentlicht: ein 120 Milliarden Parameter Modell und ein 20 Milliarden Parameter Modell. Beide wurden unter der Apache 2.0 Lizenz angeboten, was bedeutet, dass man sie feinjustieren, einsetzen und auch kommerziell verwenden kann.

Wenn wir uns das genauer anschauen:

Das 120 Milliarden Parameter Modell erreicht eine fast gleichwertige Leistung mit O4 Mini. (Hinweis: Dies ist nicht GPT-4 O Mini, das wir häufig verwenden, sondern das fortgeschrittenere Modell.)
Das 20 Milliarden Parameter Modell liefert ähnliche Ergebnisse wie O3 Mini, ein unglaublich starkes Modell für logisches Denken.

Das 20 Milliarden Parameter Modell ist darauf ausgelegt, auf Consumer-Hardware zu laufen. Man benötigt etwa 16 GB VRAM zum Ausführen. Keine Sorge, ich zeige auch eine kostenlose Alternative, um dieses Modell in der Cloud laufen zu lassen.

Integration in N8N Workflow – Lokale und Cloud Optionen

Schauen wir uns an, wie man dieses Modell zu N8N hinzufügt. Die Einrichtung ist sehr einfach. Wir betrachten zwei Optionen:

Lokales Ausführen des Modells mit Olama
Ausführen in der Cloud mit der kostenlosen Alternative Grok

Hier sehen wir einen einfachen AI-Agenten-Knoten mit Zugriff auf Chat-Speicher, eine benutzerdefinierte Wissensbasis und der Fähigkeit, E-Mails zu senden.

Beispielanfragen an das Modell

Wir können eine Frage stellen wie: "Was sind die aktuellen Specials?". Zunächst verwende ich OpenAI (den kostenpflichtigen Dienst), um ein Vergleichs-Baseline-Ergebnis zu erhalten. Das Modell greift auf die Wissensbasis zu und liefert eine Antwort.

Senden wir eine E-Mail-Anfrage wie: "Bitte reserviere für vier Personen am 8. August um 17 Uhr. Mein Name ist Leon."

Der System-Prompt weist den Agenten an, bestimmte Informationen für die Reservierung zu sammeln – etwa die E-Mail-Adresse und besondere Wünsche. Das Modell fragt korrekt nach diesen fehlenden Angaben und sendet anschließend die E-Mail. Die Reservierungs-E-Mail landet tatsächlich im Postfach.

Modell lokal mit Olama ausführen

Besuche olama.com, lade Olama für dein Betriebssystem herunter und installiere es.
Nach der Installation kannst du die Installation mit dem Befehl olama prüfen.
Suche bei Olama im Bereich „Models“ nach GPT OSS.
Lade je nach Hardware das 20 Milliarden oder 120 Milliarden Parameter Modell herunter.
Hinweis: Für das 20-Milliarden-Modell benötigst du circa 14 GB VRAM.
Kopiere den Download-Befehl von der Website und führe ihn im Terminal oder der Eingabeaufforderung aus.
Danach kannst du im Terminal Chat-Anfragen an das Modell senden, z.B. „Hey“ – du siehst dann auch den Denkprozess des Modells.

In N8N trennst du den OpenAI-Knoten und fügst stattdessen den Olama Chat Model Knoten hinzu. Erstelle neue Anmeldedaten, ändere bei Bedarf „localhost“ in 127.0.0.1. Nach Neustart sollten alle geladenen Modelle sichtbar sein, inklusive GPT OSS.

Teste das Modell mit denselben Fragen wie zuvor. Die Antwortzeit ist länger als bei OpenAI, aber das Modell läuft lokal und ist kostenlos. Perfekt für Forschungs- oder Planungsworkflows, bei denen die Zeit nicht kritisch ist.

Tool-Aufrufe (Tool Calling) mit Olama

Schicke die Reservierungsanfrage erneut ohne E-Mail oder Sonderwünsche. Das Modell fragt korrekt nach der fehlenden E-Mail und sendet die Reservierung nach Erhalt der Information ab.

Ein paar kleinere Fehler treten auf: Das Modell greift manchmal unnötig auf die Wissensbasis zu und versucht, eine E-Mail zu senden, bevor alle Daten vorliegen. Hier kann das Systemprompt feinjustiert werden. Außerdem kann man aktuell in Olama die Denkintensität (Reasoning Effort) nicht anpassen, was zu schlechteren Ergebnissen im Vergleich zu bezahlten Modellen führt. Hoffentlich wird das noch ergänzt.

Kostenlose Cloud-Alternative mit Grok

Falls dein Rechner das Modell nicht lokal ausführen kann, gibt es den Grok Chat Model Knoten als kostenlose Cloud-Variante.

Entferne die Verbindung zum Olama-Knoten.
Füge den Grok-Knoten hinzu und erstelle neue Anmeldedaten mit deinem Grok API-Schlüssel.
Den API-Key erhältst du bei grok.com unter „Start Building“ → „API Keys“ erstellen.

Grok hat eine sehr großzügige kostenlose Stufe. Beim intensiven Gebrauch kannst du an Nutzungslimits stoßen, dann wird eine Abrechnung erforderlich. Für Lernzwecke und kleine Projekte ist Grok aber kostenlos.

In N8N wählst du das Modell (20 Milliarden oder 120 Milliarden) aus der Grok-Liste und testest die gleichen Fragen wie zuvor. Das Ergebnis kommt schnell und korrekt zurück, inklusive Zugriff auf deine benutzerdefinierte Wissensbasis.

Bei Grok werden Tool-Aufrufe deutlich besser gehandhabt: Das Modell fragt erst nach der Email, ohne unnötigen Wissensdatenbank-Zugriff oder verfrühte E-Mail-Versuche. Möglicherweise liegt es daran, dass Grok das Modell mit erhöhter Denkintensität ausführt. Falls du eine Erklärung hast, freue ich mich auf deinen Kommentar.

Fazit und Ausblick

Was hältst du vom OpenAI GPT-OSS Modell? Ist es eine geeignete Alternative zum Beispiel für GPT-4O Mini?

Wenn du lernen möchtest, wie man einen Kundensupport-Chatbot wie diesen baut und in eine Website integriert, dann schau dir meinen ausführlichen N8N KI-Automatisierungskurs an hier.

Danke fürs Zuschauen, ich sehe dich im nächsten Video. Tschüss!

← Zurück zum Dashboard