RAGTrust: Goldstandard für KI-Qualitätsprüfung

30.07.2025

RAGTrust liefert eine wissenschaftlich fundierte, vollautomatisierte Evaluierung von Retrieval-Augmented-Generation-Systemen (RAG). Grundlage ist ein Evaluierungsdatensatz bestehend aus einem PDF-Dokument und einem abgestimmten Satz von Frage-Antwort-Paaren (QA-Paare). Das Prüfverfahren misst alle relevanten Qualitätskennzahlen – objektiv, reproduzierbar, skalierbar und unabhängig vom Modellanbieter.

Ablauf im Überblick

  1. Goldstandard-Fragenkatalog

Für jedes Dokument wird ein vollständiger, dokumentierter Satz an QA-Paaren entwickelt, der zur Validierung der Ergebnisse dient. Negative Sampling – das gezielte Einbringen von Fangfragen ohne Informationsgrundlage – ermöglicht die präzise Erfassung der Halluzinationsrate.

  1. Segmentierung und Indexierung

Das Ausgangsdokument wird systematisch in semantisch sinnvolle Absätze zerlegt und als Embeddings im Vektorindex abgelegt. Dies entspricht exakt den Abläufen im operativen Betrieb.

  1. Automatisiertes Testing: Precision, Recall, Hallucination, Coverage

Das System beantwortet alle Recall-Fragen (abgedeckte Inhalte) und Fangfragen (Negativkontrolle).

  • Recall: Anteil der tatsächlich gefundenen relevanten Antworten
  • Precision: Anteil der korrekt belegten Antworten
  • Hallucination Rate: Rate der unbelegten, halluzinierten Antworten
  • Coverage: Vollständigkeit der erfassten Informationsbereiche
  • Automatisierter Abgleich und Scoring

Jede KI-Antwort wird maschinell mit dem Evaluierungsdatensatz abgeglichen:

  • True Positives: Korrekt und belegt
  • False Positives: Halluziniert, ohne belegbare Quelle
  • False Negatives: Nicht beantwortet, trotz vorhandener Information
  • Audit Trail und Benchmarking

Ergebnisse werden revisionssicher dokumentiert (Audit Trail) und erlauben Benchmarking zwischen Systemen oder Systemständen – entscheidend für Compliance, interne Qualitätssicherung und externe Nachweispflichten.

Ihr Mehrwert mit RAGTrust

  • Messbare, dokumentierte Halluzinationsfreiheit durch gezielten Negative Sampling-Test
  • Prüfung auf Basis eines Evaluierungsdatensatz – industriebewährt, regulatorisch anschlussfähig und herstellerunabhängig
  • Detaillierte Kennzahlen (Precision, Recall, Coverage, Hallucination Rate) für strategische Steuerung
  • Auditierbare Ergebnisse – jeder Testlauf bleibt nachvollziehbar
  • Transparenz für Entscheider, IT und Aufsichtsbehörden
  • Objektive Grundlage für Systemauswahl, Optimierung und Compliance-Reports

Praxisbeispiel

Bei der Evaluierung eines komplexen Fortschrittsberichts erreichte das geprüfte RAG-System eine Recall-Rate von 92 % und 0 % Hallucination Rate – möglich durch strikte Anwendung des Goldstandards, Negative Sampling und systematische Kennzahlenanalyse.

Fazit

RAGTrust macht KI-Leistung belegbar, prüfbar und regulatorisch anschlussfähig. Die Methode schafft belastbare Entscheidungsgrundlagen für den sicheren und verantwortungsvollen KI-Einsatz im Unternehmen.

Sie möchten Ihre eigene Wissensbasis testen?
Oder Sie möchten sehen, wie Ihre Lösung im Vergleich abschneidet?
Sprechen Sie uns an – wir beraten Sie gerne.

IDEAL-X-LOGO-White

Corneliusstr. 28 - 80469 München

+49.89.856 328 -49
office@ideal-x.ai