10.09.2025
5mins
Warum Sprachmodelle halluzinieren – Neue Forschung von OpenAI
Victor Journoud
Co-Founder & Partner
Vom Raten zur Wahrheit

TL;DR

OpenAIs Studie argumentiert, dass das heutige Trainings- und Bewertungssystem Modelle dafür belohnt, zu raten, anstatt Unsicherheit einzugestehen. Da Ranglisten sich ausschliesslich auf Genauigkeit konzentrieren, lernen Modelle zu bluffen – das äussert sich in selbstbewussten, aber falschen Antworten.

Die Lösung ist kein einzelner Benchmark, sondern ein Umdenken in der Bewertung: Selbstbewusste Fehler sollten stärker bestraft werden als Unsicherheit, und Teilpunkte sollten vergeben werden, wenn ein Modell ehrlich mit „Ich weiss es nicht“ antwortet.
Einige Fragen sind allein auf Basis von Text nicht beantwortbar – 100 % Genauigkeit ist also unrealistisch. Kleinere Modelle können sogar besser darin sein, ihre Grenzen zu kennen.

Was die Studie tatsächlich sagt

Halluzinationen sind flüssige, falsche Aussagen, die ein Modell mit Überzeugung trifft. Sie bleiben bestehen, weil gängige Evaluationen Genauigkeit belohnen, ohne zu berücksichtigen, ob das Modell besser geschwiegen hätte.
In auf Genauigkeit beschränkten Ranglisten kann Raten lohnender sein als Ehrlichkeit.

Die Autor*innen schlagen ein neues Bewertungssystem vor:

  • Selbstbewusste Fehler werden stärker bestraft als Unsicherheit.
  • Angemessene Enthaltungen („Ich weiss es nicht“) erhalten Teilpunkte.
    Ziel: Modelle sollen lernen, kalibriert zu antworten – nicht mutig zu bluffen.
    Es geht nicht um „einen weiteren Benchmark“, sondern um eine Änderung im Bewertungssystem.

Warum das passiert – statistisch betrachtet

Pretraining bedeutet: Vorhersage des nächsten Wortes.
Dabei lernt das Modell stabile Muster wie Rechtschreibung oder Syntax – aber keine beliebigen Fakten mit geringer Häufigkeit.
Manche Fragen lassen sich nicht aus Mustern ableiten – genau das erklärt bestimmte Arten von Halluzinationen.
Späteres Feintuning hilft, aber beseitigt das Problem nicht vollständig.

Grenzen und Missverständnisse

  • 100 % Genauigkeit ist bei echten Aufgaben nicht erreichbar, da manche Fragen unbeantwortbar sind.
  • Halluzinationen sind nicht unvermeidbar: Modelle können sich enthalten.
  • Grösser ≠ besser: Kleinere Modelle kennen ihre Grenzen oft besser – das ist eine Frage der Kalibrierung, nicht der Skalierung.

Aktueller Stand

Neuere Modelle halluzinieren weniger – vor allem beim logischen Denken.
Aber das Problem bleibt bestehen und muss systematisch angegangen werden.

Was es bedeutet – Die Zukunft verlässlicher KI und wohin sich Implementierungen entwickeln

TL;DR

Es wird zu einem Paradigmenwechsel kommen:
Weg von „War die Antwort richtig?“, hin zu „War die Antwort verantwortungsvoll?“
Die Branche wird sich auf kalibrierte Metriken, abstinenzorientierte Produktsysteme und quellengebundene Ausgaben verlagern.

Implementierungen erfolgen in Bewertung, Training und Nutzererfahrung, um Systeme vorhersehbarer und auditierbarzu machen – ohne Perfektion zu versprechen.

Grössere Bedeutung

Zuverlässigkeit wird mehrdimensional.
Genauigkeit bleibt wichtig, aber selbstbewusst-falsche Antworten gelten künftig als schwerwiegender Fehler.
Enthaltung wird als legitimes, sogar bevorzugtes Ergebnis angesehen, wenn Beweise fehlen.

Leaderboards entwickeln sich weiter.
Wenn Ranglisten keine Glückstreffer mehr belohnen, werden Modelle auf Kalibrierung und Ehrlichkeit hin optimiert.
Das verändert Verhalten stärker als jeder einzelne Anti-Halluzinationstest.

„Passende“ Intelligenz

Die Vorstellung, dass nur grössere Modelle sicher sind, verliert an Bedeutung.
In klar umrissenen Bereichen können kleinere Modelle mit guter Kalibrierung besseres Risikoprofil und geringere Kosten bieten.

Wie Implementierungen künftig aussehen könnten

  • Evaluationen mit Unsicherheitsbewertung
    Standardisierte Bewertungssysteme werden Metriken einführen oder stärken, die selbstbewusste Fehler bestrafen und kalibrierte Enthaltungen belohnen – Raten wird unattraktiv.
  • Produktdesign mit „Ich weiss es nicht“-Weg
    Interfaces werden Enthaltung normalisieren und Unsicherheiten zeigen, statt das Modell zum Raten zu zwingen.
    Erwartbar: Klarere Hinweise auf Vertrauen und Erklärungen, worauf sich die Antwort stützt.
  • Quellenbindung als Standard
    Antworten werden standardmässig an Quellen und Nachweise gebunden, damit Nutzer Behauptungen schnell überprüfen oder fehlende Infos erkennen können.
  • Training auf Kalibrierung statt Übermut
    Optimierungsziele werden Kalibrierungsmetriken enthalten, sodass Modelle ihr Vertrauen besser an die Richtigkeit koppeln, statt auf maximale (vermeintliche) Genauigkeit zu zielen.
  • Modellportfolios
    Unternehmen werden verschiedene Modelle einsetzen:
    Einige breit trainiert, andere auf konservative Korrektheit und häufige Enthaltung in sensiblen Kontexten abgestimmt.
  • Transparente Berichte
    Modellkarten und Systemberichte zeigen nicht nur Genauigkeit, sondern auch Enthaltungsraten und selbstbewusste Fehlerquoten – so entsteht ein realistischeres Bild des Risikos.

Fazit

Die Forschung stellt Halluzinationen nicht als mysteriöse Fehler, sondern als vorhersehbare Folge der aktuellen Belohnungssysteme dar.
Die Zukunft liegt nicht in einem allwissenden System, sondern in gut kalibrierten Systemen, die wissen, wann sie sprechen, wann sie zitieren und wann sie schweigen sollen.

Dieser Wandel – Unsicherheit in Evaluation, Training und UX zu integrieren – wird KI vertrauenswürdiger und alltagstauglicher machen.

Bereit loszulegen? Sprechen wir darüber.