RAGTrust liefert eine wissenschaftlich fundierte, vollautomatisierte Evaluierung von Retrieval-Augmented-Generation-Systemen (RAG). Grundlage ist ein Evaluierungsdatensatz bestehend aus einem PDF-Dokument und einem abgestimmten Satz von Frage-Antwort-Paaren (QA-Paare). Das Prüfverfahren misst alle relevanten Qualitätskennzahlen – objektiv, reproduzierbar, skalierbar und unabhängig vom Modellanbieter.
Ablauf im Überblick
- Goldstandard-Fragenkatalog
Für jedes Dokument wird ein vollständiger, dokumentierter Satz an QA-Paaren entwickelt, der zur Validierung der Ergebnisse dient. Negative Sampling – das gezielte Einbringen von Fangfragen ohne Informationsgrundlage – ermöglicht die präzise Erfassung der Halluzinationsrate.
- Segmentierung und Indexierung
Das Ausgangsdokument wird systematisch in semantisch sinnvolle Absätze zerlegt und als Embeddings im Vektorindex abgelegt. Dies entspricht exakt den Abläufen im operativen Betrieb.
- Automatisiertes Testing: Precision, Recall, Hallucination, Coverage
Das System beantwortet alle Recall-Fragen (abgedeckte Inhalte) und Fangfragen (Negativkontrolle).
- Recall: Anteil der tatsächlich gefundenen relevanten Antworten
- Precision: Anteil der korrekt belegten Antworten
- Hallucination Rate: Rate der unbelegten, halluzinierten Antworten
- Coverage: Vollständigkeit der erfassten Informationsbereiche
- Automatisierter Abgleich und Scoring
Jede KI-Antwort wird maschinell mit dem Evaluierungsdatensatz abgeglichen:
- True Positives: Korrekt und belegt
- False Positives: Halluziniert, ohne belegbare Quelle
- False Negatives: Nicht beantwortet, trotz vorhandener Information
- Audit Trail und Benchmarking
Ergebnisse werden revisionssicher dokumentiert (Audit Trail) und erlauben Benchmarking zwischen Systemen oder Systemständen – entscheidend für Compliance, interne Qualitätssicherung und externe Nachweispflichten.
Ihr Mehrwert mit RAGTrust
- Messbare, dokumentierte Halluzinationsfreiheit durch gezielten Negative Sampling-Test
- Prüfung auf Basis eines Evaluierungsdatensatz – industriebewährt, regulatorisch anschlussfähig und herstellerunabhängig
- Detaillierte Kennzahlen (Precision, Recall, Coverage, Hallucination Rate) für strategische Steuerung
- Auditierbare Ergebnisse – jeder Testlauf bleibt nachvollziehbar
- Transparenz für Entscheider, IT und Aufsichtsbehörden
- Objektive Grundlage für Systemauswahl, Optimierung und Compliance-Reports
Praxisbeispiel
Bei der Evaluierung eines komplexen Fortschrittsberichts erreichte das geprüfte RAG-System eine Recall-Rate von 92 % und 0 % Hallucination Rate – möglich durch strikte Anwendung des Goldstandards, Negative Sampling und systematische Kennzahlenanalyse.
Fazit
RAGTrust macht KI-Leistung belegbar, prüfbar und regulatorisch anschlussfähig. Die Methode schafft belastbare Entscheidungsgrundlagen für den sicheren und verantwortungsvollen KI-Einsatz im Unternehmen.
Sie möchten Ihre eigene Wissensbasis testen?
Oder Sie möchten sehen, wie Ihre Lösung im Vergleich abschneidet?
Sprechen Sie uns an – wir beraten Sie gerne.

