Kursbeschreibung
Zielgruppe
- ML Engineers und Data Scientists mit Betriebsverantwortung
- DevOps Engineers und Platform Engineers, die KI-Workloads integrieren
- Softwareentwicklerinnen und Softwareentwickler, die Inferenz-APIs bereitstellen
- IT-Architektinnen und IT-Architekten, die Deployment-Standards definieren
- Alle, die KI-Anwendungen zuverlässig als Container im Cluster ausrollen und betreiben wollen
Voraussetzung für die Schulung
- Grundkenntnisse in Linux/CLI und Container-Grundlagen sind hilfreich.
- Erste Berührung mit Kubernetes oder Cloud-Networking ist von Vorteil, aber nicht zwingend.
Kursinhalte
- Container-Setup für KI-Workloads
- Docker-Images für Inferenz und Training: Base-Images, Layering, Caching
- Python-Abhängigkeiten reproduzierbar: Wheels, Lockfiles, Build-Strategien
- Modellartefakte und Daten: Mounts, Volumes, Object Storage Patterns
- Healthchecks, Logging und Konfiguration per Environment
- Performance und GPU in Containern
- NVIDIA Container Runtime: Voraussetzungen und typische Stolperstellen
- CUDA-kompatible Images und Treiber-Matrix verstehen
- Batching, Concurrency und Warmup für Inferenz
- Ressourcenlimits: CPU, RAM, GPU und IO sinnvoll setzen
- Kubernetes-Grundlagen für KI-Services
- Pods, Deployments, Services, Ingress: was du wirklich brauchst
- ConfigMaps und Secrets: Konfiguration ohne Image-Neubau
- Readiness/Liveness: saubere Rollouts ohne Ausfälle
- Autoscaling-Grundlagen: HPA, Requests und Limits
- Deployment-Muster für Modelle und APIs
- REST/gRPC Inferenz-API containerisieren (z. B. FastAPI)
- Modellversionierung: Tags, Immutable Images, Registry-Strategie
- Blue-Green und Canary Releases für Modellwechsel
- Job-Workloads: Batch-Inferenz und Scheduled Jobs
- Security, Compliance und Supply Chain
- Least Privilege: Rootless, Capabilities, Pod Security
- Image-Scanning und SBOM: Risiken sichtbar machen
- Secrets Handling: keine Keys im Image, Rotation verstehen
- Netzwerk-Policies und sichere Ingress-Konfiguration
- Observability und Betrieb
- Metriken für KI: Latenz, Throughput, Fehler, Queueing
- Logs und Traces: Debugging von Inferenzproblemen
- Rollbacks und Incident-Playbooks für Deployments
- Kosten- und Kapazitätsdenken: Node Pools, GPU-Auslastung





















