RAGTrust liefert eine wissenschaftlich fundierte, vollautomatisierte Evaluierung von Retrieval-Augmented-Generation-Systemen (RAG). Grundlage ist ein Evaluierungsdatensatz bestehend aus einem PDF-Dokument und einem abgestimmten Satz von Frage-Antwort-Paaren (QA-Paare). Das Prüfverfahren misst alle relevanten Qualitätskennzahlen – objektiv, reproduzierbar, skalierbar und unabhängig vom Modellanbieter.

Ablauf im Überblick

1. Goldstandard-Fragenkatalog

Für jedes Dokument wird ein vollständiger, dokumentierter Satz an QA-Paaren entwickelt, der zur Validierung der Ergebnisse dient. Negative Sampling – das gezielte Einbringen von Fangfragen ohne Informationsgrundlage – ermöglicht die präzise Erfassung der Halluzinationsrate.

2. Segmentierung und Indexierung

Das Ausgangsdokument wird systematisch in semantisch sinnvolle Absätze zerlegt und als Embeddings im Vektorindex abgelegt. Dies entspricht exakt den Abläufen im operativen Betrieb.

3. Automatisiertes Testing

Das System beantwortet alle Recall-Fragen (abgedeckte Inhalte) und Fangfragen (Negativkontrolle).

Recall: Anteil der tatsächlich gefundenen relevanten Antworten
Precision: Anteil der korrekt belegten Antworten
Hallucination Rate: Rate der unbelegten, halluzinierten Antworten
Coverage: Vollständigkeit der erfassten Informationsbereiche

4. Automatisierter Abgleich und Scoring

Jede KI-Antwort wird maschinell mit dem Evaluierungsdatensatz abgeglichen:

True Positives: Korrekt und belegt
False Positives: Halluziniert, ohne belegbare Quelle
False Negatives: Nicht beantwortet, trotz vorhandener Information

5. Audit Trail und Benchmarking

Ergebnisse werden revisionssicher dokumentiert (Audit Trail) und erlauben Benchmarking zwischen Systemen oder Systemständen – entscheidend für Compliance, interne Qualitätssicherung und externe Nachweispflichten.

Ihr Mehrwert mit RAGTrust

Messbare, dokumentierte Halluzinationsfreiheit durch gezielten Negative Sampling-Test
Prüfung auf Basis eines Evaluierungsdatensatzes – industriebewährt, regulatorisch anschlussfähig und herstellerunabhängig
Detaillierte Kennzahlen (Precision, Recall, Coverage, Hallucination Rate) für strategische Steuerung
Auditierbare Ergebnisse – jeder Testlauf bleibt nachvollziehbar
Transparenz für Entscheider, IT und Aufsichtsbehörden
Objektive Grundlage für Systemauswahl, Optimierung und Compliance-Reports

Praxisbeispiel

Bei der Evaluierung eines komplexen Fortschrittsberichts erreichte das geprüfte RAG-System eine Recall-Rate von 92 % und 0 % Hallucination Rate – möglich durch strikte Anwendung des Goldstandards, Negative Sampling und systematische Kennzahlenanalyse.

Fazit

RAGTrust macht KI-Leistung belegbar, prüfbar und regulatorisch anschlussfähig. Die Methode schafft belastbare Entscheidungsgrundlagen für den sicheren und verantwortungsvollen KI-Einsatz im Unternehmen.

Sie möchten Ihre eigene Wissensbasis testen? Sprechen Sie uns an – wir beraten Sie gerne.

Kontakt aufnehmen →

RAGTrust: Goldstandard für KI-Qualitätsprüfung