Online-Masterclass · 9. Februar 2026 · 16:00 Uhr · 90€
Von Rubrics und Golden Dataset bis CI/CD-Integration und Red Teaming – alles, was du brauchst, um LLM-Releases messbar und sicher zu machen.
Kostenlos für KI Campus Mitglieder
🔬
90 Min. Hands-on
Langfuse + Promptfoo Live-Demos
Teams releasen LLM-Features ohne systematische Qualitätssicherung. Ohne klare Kriterien (Rubrics), repräsentative Testdaten (Golden Dataset) und automatisierte Pipelines bleiben Releases Glückssache.
Diese Masterclass deckt das komplette EvalOps-Spektrum ab: Von den Grundlagen (LLM-Test-Taxonomie, Rubric-Design, Metriken, Golden Dataset) bis zur Operationalisierung (CI/CD-Integration, Red Teaming mit Promptfoo, Production Monitoring mit Langfuse).
📐
Klare Qualitätskriterien
📦
Repräsentative Testdaten
⚙️
Automatisierte Pipelines
🔴
Security-Tests mit Promptfoo
Unit/Integration/E2E für LLM-Flows. Kriterien definieren (Richtigkeit, Hilfsbereitschaft, Ton, Sicherheit). Scoring stabil machen.
Klassische Metriken vs. LLM-as-Judge vs. Custom Metrics. Golden Dataset Struktur und Edge Cases systematisch erfassen.
Tracing einrichten. Traces verstehen und debuggen. Versionierung nutzen. Fehler reproduzierbar machen.
Pipeline-Architektur: PR vs. Nightly vs. Release. Schwellenwerte und Fail-Kriterien definieren.
Security-Tests: Prompt Injection, Jailbreak-Szenarien, Abuse Cases systematisch prüfen.
Drift erkennen. Neue Fehlerklassen identifizieren. Der Feedback-Loop: Prod-Signale → zurück in Tests. Q&A.

Freelance AI Consultant & Engineer
Andreas ist Freelance AI Consultant & Engineer aus Köln und übersetzt High-Level Business-Strategien in produktionsreife KI-Lösungen. Mit mehr als 10 Jahren Erfahrung in der Softwareentwicklung – als Senior AI Engineer bei ellamind und Engineering Manager bei Perfect-iD GmbH – bringt er Expertise in Generative KI, RAG-Systemen und LLM Evaluation mit. Andreas ist aktives Mitglied der Kölner AI-Community und Speaker beim AI Barcamp im STARTPLATZ.
LinkedIn-Profil →