Online-Masterclass · 9. Februar 2026 · 16:00 Uhr · 90€

Eval-Driven Development: Von Bauchgefühl zu Gewissheit

Lerne, wie du mit einem Spreadsheet und einem simplen Python-Script systematisch testest, ob dein Prompt wirklich besser ist — ohne komplexe Tools, ohne Vendor Lock-in.

✓ Baue dein erstes Golden Dataset mit systematischen Testfällen
✓ Führe Evaluationen durch, die dir echte Antworten geben
✓ Lerne den Error-Analysis-Loop: Vom Fehler zur Verbesserung

Platz sichern – 90€

Kostenlos für KI Campus Mitglieder

🔬

90 Min. Hands-on

Spreadsheet + Python-Script

Worum geht es?

"Ich glaube, der neue Prompt ist besser." — Glauben reicht nicht. Du brauchst Gewissheit.

In dieser Masterclass baust du dein erstes Eval-System — ohne komplexe Frameworks, ohne Vendor Lock-in. Ein Spreadsheet. Ein Python-Script. Das ist alles, was du brauchst, um von Bauchgefühl zu datengetriebener Iteration zu kommen.

Der Ansatz ist bewusst simpel. Evals sind kein Monster. Du kannst morgen anfangen.

📦

Golden Dataset

Systematische Testfälle, die deine echten Edge Cases abdecken

⚖️

Evaluation

Klare Antworten: Ist diese Änderung besser oder schlechter?

🔄

Error Analysis

Der Loop: Fehler finden → verstehen → fixen → verifizieren

Für wen ist diese Masterclass?

Perfekt für dich, wenn du:

Tech Lead, Senior/Staff Engineer oder Engineering Manager bist
LLM-Features in Produktion shippst (Chat, RAG, Agents, Extraktion)
Das Gefühl kennst, bei Prompt-Änderungen im Dunkeln zu tappen
Einen pragmatischen Einstieg suchst, keine Enterprise-Lösung

Die Masterclass ist nicht für dich, wenn du:

Noch keine Erfahrung mit LLM-Anwendungen hast
Ein komplexes Setup für CI/CD oder Online-Evaluationen suchst

Voraussetzungen:

Grundverständnis von LLM-Anwendungen
Laptop mit Python-Umgebung (oder Bereitschaft, zuzuschauen)

Programm

Warum Evals

Das Problem mit Vibe-basierter Entwicklung

0–10 Min

Hands-on

Golden Dataset

Wie du Edge Cases systematisch sammelst

10–30 Min

Hands-on

Eval-Driven Development

Das Python-Script: Input → LLM → Output → Spreadsheet

30–55 Min

Error Analysis

Der Loop: Fehler finden → verstehen → fixen → verifizieren

55–75 Min

Ausblick + Q&A

CI/CD, LLM-as-Judge, Production Monitoring

75–90 Min

Dein Dozent

Andreas Spannagel

Freelance AI Consultant & Engineer

Andreas hat über 7 Jahre Erfahrung in der Softwareentwicklung und setzt als Freelancer KI-Lösungen für Unternehmen um — spezialisiert auf LLM Evaluation. Er hat KI-Systeme in Produktion gebracht und evaluiert, darunter einen Support-Chatbot mit 85% Accuracy auf 130 Testfällen und 100+ täglichen Support-Mitarbeitern.

LinkedIn-Profil →

📅 When: 09.02.2026 von 16:00 bis 17:30 Uhr.

📍 Where: Die Session wird als Zoom Meeting stattfinden. Den Link erhältst Du nach der Anmeldung.

💰 Fee: 90,00 € excl. VAT

Free for KI Campus members

Join now for just €49/month and get access to this and many other free AI courses and events!

Become a KI Campus member now

Häufige Fragen

Grundverständnis von Python ist hilfreich, aber nicht zwingend. Du kannst auch zuschauen und die Konzepte mitnehmen.

Ja, alle Teilnehmer erhalten im Nachgang Zugang zur Aufzeichnung und den Materialien.

Der KI Campus ist unsere Learning Community für KI-Professionals. Mitglieder nehmen kostenlos an allen Masterclasses teil. Mehr Infos unter startplatz.de/ki-campus

Nein! Der Ansatz ist bewusst Tool-agnostisch. Wir arbeiten mit Spreadsheet und Python-Script — ohne Vendor Lock-in. Langfuse und Promptfoo werden nur als Ausblick erwähnt.

Eval-Driven Development: Von Bauchgefühl zu Gewissheit

Worum geht es?

Golden Dataset

Evaluation

Error Analysis

Für wen ist diese Masterclass?

Perfekt für dich, wenn du:

Die Masterclass ist nicht für dich, wenn du:

Voraussetzungen:

Programm

Warum Evals

Golden Dataset

Eval-Driven Development

Error Analysis

Ausblick + Q&A

Dein Dozent

Andreas Spannagel

Häufige Fragen

Muss ich coden können?

Gibt es eine Aufzeichnung?

Was ist der KI Campus?

Brauche ich Langfuse oder Promptfoo?