Online-Masterclass · 9. Februar 2026 · 16:00 Uhr · 90€

EvalOps kompakt: Das komplette System in 90 Minuten

Von Rubrics und Golden Dataset bis CI/CD-Integration und Red Teaming – alles, was du brauchst, um LLM-Releases messbar und sicher zu machen.

  • Definiere klare Qualitätskriterien und baue dein Golden Dataset
  • Integriere Evals als Quality Gate in deine CI/CD-Pipeline
  • Führe systematische Security-Tests mit Red Teaming durch
  • Erkenne Drift früh mit Production Monitoring

Kostenlos für KI Campus Mitglieder

🔬

90 Min. Hands-on

Langfuse + Promptfoo Live-Demos

Worum geht es?

Teams releasen LLM-Features ohne systematische Qualitätssicherung. Ohne klare Kriterien (Rubrics), repräsentative Testdaten (Golden Dataset) und automatisierte Pipelines bleiben Releases Glückssache.

Diese Masterclass deckt das komplette EvalOps-Spektrum ab: Von den Grundlagen (LLM-Test-Taxonomie, Rubric-Design, Metriken, Golden Dataset) bis zur Operationalisierung (CI/CD-Integration, Red Teaming mit Promptfoo, Production Monitoring mit Langfuse).

📐

Rubrics

Klare Qualitätskriterien

📦

Golden Dataset

Repräsentative Testdaten

⚙️

CI/CD Gates

Automatisierte Pipelines

🔴

Red Teaming

Security-Tests mit Promptfoo

Für wen ist diese Masterclass?

Perfekt für dich, wenn du:
  • Tech Lead, Staff/Senior Engineer oder Engineering Manager:in bist
  • AI Product Owner bist
  • LLM-Features in Produktion shippst (Chat, RAG, Agents, Extraktion)
  • Regressionen und Output-Variabilität als Risiko erlebst
Die Masterclass ist nicht für dich, wenn du:
  • Noch keine Erfahrung mit LLM-Anwendungen hast
  • Kein konkretes LLM-Produkt hast
Voraussetzungen:
  • Grundverständnis von LLM-Anwendungen
  • Grundverständnis von CI/CD-Pipelines hilfreich
  • Laptop mit Browser

Programm

LLM-Test-Taxonomie & Rubric-Design

Unit/Integration/E2E für LLM-Flows. Kriterien definieren (Richtigkeit, Hilfsbereitschaft, Ton, Sicherheit). Scoring stabil machen.

0–15 Min
Metriken & Golden Dataset

Klassische Metriken vs. LLM-as-Judge vs. Custom Metrics. Golden Dataset Struktur und Edge Cases systematisch erfassen.

15–30 Min
Hands-on
Observability mit Langfuse

Tracing einrichten. Traces verstehen und debuggen. Versionierung nutzen. Fehler reproduzierbar machen.

30–45 Min
CI/CD-Pattern & Gates

Pipeline-Architektur: PR vs. Nightly vs. Release. Schwellenwerte und Fail-Kriterien definieren.

45–60 Min
Hands-on
Red Teaming mit Promptfoo

Security-Tests: Prompt Injection, Jailbreak-Szenarien, Abuse Cases systematisch prüfen.

60–75 Min
Production Monitoring & Wrap-up

Drift erkennen. Neue Fehlerklassen identifizieren. Der Feedback-Loop: Prod-Signale → zurück in Tests. Q&A.

75–90 Min

Dein Dozent

Andreas Spannagel

Andreas Spannagel

Freelance AI Consultant & Engineer

Andreas ist Freelance AI Consultant & Engineer aus Köln und übersetzt High-Level Business-Strategien in produktionsreife KI-Lösungen. Mit mehr als 10 Jahren Erfahrung in der Softwareentwicklung – als Senior AI Engineer bei ellamind und Engineering Manager bei Perfect-iD GmbH – bringt er Expertise in Generative KI, RAG-Systemen und LLM Evaluation mit. Andreas ist aktives Mitglied der Kölner AI-Community und Speaker beim AI Barcamp im STARTPLATZ.

LinkedIn-Profil →

Tools & Takeaways

Tools die du kennenlernst
  • Langfuse – Tracing, Versionierung, Observability, Monitoring
  • Promptfoo – Test-Suites, Red Teaming, Regression
Das nimmst du mit
  • Golden Dataset + Rubric Templates
  • Pipeline-Blueprint für CI/CD
  • Promptfoo Red Team Config
  • Langfuse Setup-Guide
📅 When: 09.02.2026 von 16:00 bis 17:30 Uhr.
📍 Where: Die Session wird als Zoom Meeting stattfinden. Den Link erhältst Du nach der Anmeldung.
💰 Fee: 90,00 € excl. VAT
Ja, ich möchte gerne über weitere Veranstaltungen informiert werden.
Bei unseren Veranstaltungen können Aufnahmen für Social Media gemacht werden.
Mit Deiner Anmeldung stimmst Du zu, dass Bildaufnahmen für Social Media verwendet werden dürfen.

Häufige Fragen

Nein, wir starten bei null. Die Hands-on Sessions führen dich durch beide Tools.

Ja, alle Teilnehmer erhalten im Nachgang Zugang zur Aufzeichnung und den Materialien.

Der KI Campus ist unsere Learning Community für KI-Professionals. Mitglieder nehmen kostenlos an allen Masterclasses teil. Mehr Infos unter startplatz.de/ki-campus

Ja, das kostenlose Webinar am 2. Februar gibt dir einen Überblick, warum Evals wichtig sind. Die Masterclass baut darauf auf und geht in die Tiefe.