KI Qualitätssicherung für Prozessanalyse Software: Wie wir KImpuls automatisiert testen
Wer eine Prozessanalyse-Software betreibt, die echte Geschäftsprozesse bewertet, muss eine unbequeme Frage beantworten: Woher weiß man, ob die Ausgabe gut ist?
Subjektives Feedback ist wertvoll, aber nicht skalierbar. Deshalb haben wir für KImpuls ein automatisiertes Testsystem entwickelt, das KI Qualitätssicherung direkt in die Plattform einbettet – mit regelmäßigen Prüfläufen unter realen Bedingungen. Dieser Artikel erklärt, wie es funktioniert, was es misst und wo seine Grenzen liegen.
Was das Testsystem tut
Im Kern ist das Testsystem ein Python-Script, das mit Playwright (Chromium, headless) KImpuls wie ein echter Nutzer bedient. Es öffnet den Browser, gibt eine Problembeschreibung ein, wählt Branche und Unternehmensgröße, startet die Analyse und wertet das Ergebnis aus.
Dabei passiert etwas Entscheidendes: Das Script hört parallel den Netzwerkverkehr ab und erfasst die rohen API-Responses direkt, bevor die Oberfläche sie rendert. So werden nicht nur visuelle Ergebnisse bewertet, sondern die tatsächlichen JSON-Daten, die das Backend liefert.
Getestet werden beide Versionen:
- Free-Version mit dem Basis-Analyseprozess
- Premium-Version mit allen verfügbaren Modulen
Jeder Testlauf generiert eine echte Case-ID auf dem Produktivsystem. Das ist eine bewusste Entscheidung: Wir testen nicht gegen eine Simulation, sondern gegen das System, das echte Nutzer verwenden.
Die Testfälle selbst sind fest und unveränderlich. Dieselben Eingaben werden Woche für Woche verwendet, damit Ergebnisse über die Zeit vergleichbar bleiben. Eine Verbesserung im Score bedeutet eine echte Verbesserung, keine zufällige Variation durch andere Eingaben.
Das Scoring-Schema (Version 3)
Das Herzstück des Systems ist ein Scoring-Schema mit sechs gewichteten Dimensionen. Jede Dimension misst einen anderen Aspekt der Qualität.
D1 Kernproblem-Diagnose (20 %) Versteht das System das konkrete Problem? Unterscheidet es zwischen Symptom und Ursache, oder paraphrasiert es nur die Eingabe? Eine Diagnose, die das Problem lediglich wiederholt, bekommt hier keine Punkte.
D2 Lösungstiefe (20 %) Wie konkret sind die Empfehlungen? Passen die vorgeschlagenen Technologien und Maßnahmen zur Branche und Unternehmensgröße? Sind Zeitrahmen realistisch? Generische Ratschläge wie „optimieren Sie Ihre Prozesse" werden abgewertet.
D3 Informationsdichte (15 %) Sind alle Pflichtfelder befüllt? Sind Reasoning-Texte tief genug, um hilfreich zu sein? Werden keine redundanten oder offensichtlichen Fragen gestellt?
D4 Reaktionszeit (15 %) Volle Punktzahl unter 30 Sekunden, Abstufung in 15-Sekunden-Schritten. Bei Timeout: 0 Punkte. Diese Dimension stellt sicher, dass Qualitätsverbesserungen nicht auf Kosten der Nutzbarkeit gehen.
D5 Technische Funktionalität (10 %) Läuft der Flow vollständig durch? Ist eine Case-ID vorhanden? Sind die Felder inhaltlich befüllt und nicht leer oder mit Platzhaltern gefüllt?
D6 Premium-Mehrwert (20 %) Sind alle 11 Module vollständig befüllt? Sind Zahlen intern konsistent – zum Beispiel: monatliche Einsparung mal 12 gleich jährliche Einsparung? Ist der Break-Even korrekt berechnet? Inkonsistenzen in den Zahlen werden aktiv bestraft, nicht nur nicht belohnt.
Notenskala:
- 85+ Punkte: Note A – Exzellent
- 70–85 Punkte: Note B – Gut
- 55–70 Punkte: Note C – Grundfunktion vorhanden
- Darunter: Kritisch, sofortiger Handlungsbedarf
Was wir messen – und was das für Prozessoptimierung bedeutet
Die Free-Version von KImpuls liegt aktuell stabil bei Note B, rund 77 Punkte. Die Antwortzeiten liegen zwischen 25 und 33 Sekunden.
Das Scoring ist bewusst streng ausgelegt. Generische Antworten, die zwar korrekt klingen, aber wenig Mehrwert bieten, werden erkannt und abgewertet. Das Ziel ist nicht, einen möglichst hohen Score zu erzielen, sondern einen Score, der tatsächlich mit der Qualität korreliert – denn für die Prozessoptimierung in einem konkreten Unternehmen zählt nur, ob die Empfehlung umsetzbar ist.
Besonders aufschlussreich ist der Paralleltest: Drei gleichzeitige Anfragen zeigen, wie sich der Server unter Last verhält. Bei der zweiten und dritten parallelen Anfrage steigen die Antwortzeiten auf 57 beziehungsweise 81 Sekunden. Das zeigt, wo Optimierungspotenzial liegt.
Die Ergebnisse werden in einem lokalen HTML-Dashboard als wöchentliche Trends dargestellt. Jede Serveroptimierung, jede Prompt-Änderung, jedes Modell-Update hinterlässt eine messbare Spur. Das macht Verbesserungen sichtbar und verhindert, dass Änderungen unbemerkt die Qualität verschlechtern.
Warum LLM-Vergleiche für KI-gestützte Prozessanalyse entscheidend sind
Sprachmodelle entwickeln sich schnell. Neue Versionen erscheinen regelmäßig, und die Annahme, dass neuer automatisch besser bedeutet, ist falsch.
Wir testen aktuelle und ältere Modelle gegeneinander mit denselben Testfällen und demselben Scoring. Das Ergebnis ist oft überraschend: Manchmal ist die Vorgängerversion eines Modells präziser in der Diagnose, auch wenn sie in anderen Benchmarks schlechter abschneidet.
Verschiedene LLMs liefern bei gleicher Eingabe unterschiedliche Ergebnisse – in Tonalität, Struktur und inhaltlicher Tiefe. Für eine KI-gestützte Prozessanalyse, die auf konsistente, nachvollziehbare Ausgaben angewiesen ist, ist das ein kritischer Faktor. Ein Modell, das für allgemeine Texte hervorragend bewertet wird, muss nicht zwingend die treffendste Diagnose für Engpässe im Unternehmen liefern.
Wir sagen offen, welches Modell wann wie abschneidet. Transparenz über die technische Grundlage ist Teil unseres Qualitätsanspruchs.
Cross-Prüfung: Wenn KI-Modelle sich gegenseitig bewerten
Ein einzelnes Sprachmodell hat blinde Flecken. Es kann systematisch bestimmte Aspekte überbewerten, Branchenspezifika missverstehen oder Maßnahmen vorschlagen, die nicht zur Unternehmensgröße passen. Das ist keine Schwäche eines einzelnen Modells – es ist ein strukturelles Merkmal aller LLMs.
KImpuls begegnet diesem Problem mit einer Cross-Prüfung: Analyse-Ergebnisse eines Modells werden von einem oder mehreren anderen Modellen bewertet. Eine Art Zweitmeinung durch KI.
Das Prinzip ist vergleichbar mit einem medizinischen Konsilium: Mehrere unabhängige Einschätzungen ergeben ein vollständigeres Bild als eine einzelne Meinung – auch wenn jede Einzelmeinung für sich fundiert ist.
Konkret läuft das so ab: Wenn Modell A eine Prozessdiagnose erstellt, prüft Modell B – und gegebenenfalls Modell C – drei Dinge:
- Ist die Diagnose in sich schlüssig?
- Fehlen relevante Aspekte, die das eingereichte Problem eigentlich erfordert?
- Passen die vorgeschlagenen Maßnahmen zu Branche und Unternehmensgröße?
Stimmen die Einschätzungen überein, steigt die Zuverlässigkeit der Ausgabe. Weichen sie ab, ist das ein Signal, dass die Diagnose überprüft werden sollte.
Ehrliche Einschränkung: Cross-Prüfung kostet Rechenzeit. Jeder zusätzliche Modellaufruf verlängert die Gesamtdauer und erhöht die Kosten. Deshalb wird sie nicht pauschal auf jede Anfrage angewendet, sondern gezielt dort, wo Qualitätssicherung besonders wichtig ist. Kein Allheilmittel – eine gezielte Qualitätsmaßnahme.
Das Ergebnis: Höhere Zuverlässigkeit und bessere Nachvollziehbarkeit – weil nicht ein einzelnes Modell das letzte Wort hat.
Ehrliche Einordnung
Das Testsystem misst, was messbar ist. Das ist viel, aber nicht alles.
Nutzerzufriedenheit, Verständlichkeit der Empfehlungen und tatsächliche Umsetzbarkeit in einem konkreten Unternehmenskontext werden nicht automatisch gemessen. Ein hoher Score bedeutet nicht zwangsläufig, dass ein Nutzer mit der Analyse etwas anfangen kann. Wer sich fragt, inwieweit KImpuls eine Alternative zur klassischen Prozessberatung darstellt, findet dort eine direkte Einordnung.
Deshalb ergänzen wir automatisierte Tests durch manuelles Feedback. Nutzerrückmeldungen, Gespräche mit Unternehmen, die KImpuls verwendet haben, und qualitative Auswertungen fließen in die Weiterentwicklung ein.
Das Ziel ist kontinuierliche Verbesserung, kein Marketing-Score. Ein System, das intern gut klingt, aber in der Praxis nicht hilft, erfüllt seinen Zweck nicht.
Stabile Qualität als Grundlage
Wir testen KImpuls strenger, als die meisten SaaS-Produkte getestet werden. Nicht weil wir es müssen, sondern weil KI-gestützte Analysen nur dann hilfreich sind, wenn ihre Qualität nachweislich stabil ist – egal ob jemand Prozesse automatisieren will oder strukturelle Engpässe in einem gewachsenen Unternehmen aufdecken möchte.
Das Ergebnis: Eine stabile Note B mit einem klaren Weg zur Note A. Die Dimensionen, in denen wir noch Punkte lassen, sind bekannt. Lösungstiefe und Premium-Konsistenz sind die aktuellen Baustellen.
Wer wissen möchte, was das System für das eigene Unternehmen analysiert, kann das kostenlos in zwei Minuten testen. Wer verstehen möchte, wie KImpuls funktioniert, findet eine detaillierte Erklärung unter So funktioniert KImpuls. Und wer Premium-Funktionen benötigt, sieht alle Optionen unter Preise.
Weitere Artikel: KI-Prozessanalyse vs. Unternehmensberatung