Kursbeschreibung
Zielgruppe
- Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
- DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
- ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
- IT-Betrieb und SRE-Teams, die Training und Inference absichern
- Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen
Voraussetzung für die Schulung
- Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
- Grundverständnis von Docker ist hilfreich, aber nicht zwingend
Kursinhalte
- GPU-Stack unter Linux stabil aufsetzen
- NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
- CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
- Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
- Validierung: nvidia-smi, Persistenced, Smoke-Tests
- Container für KI: Docker, NVIDIA Container Toolkit
- GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
- Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
- Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
- Best Practices für Training vs. Inference
- Ressourcen, Scheduling und Isolation
- cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
- MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
- Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
- Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
- Performance-Tuning für Training und Inference
- Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
- Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
- CPU-Pinning, NUMA-Affinität, IRQ-Balancing
- Monitoring: GPU-Utilization, Thermals, Power-Limits
- Observability, Troubleshooting und Betrieb
- Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
- Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
- Incident-Playbooks: Rollback, Canary, Wartungsfenster
- Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
- Praxis: Referenz-Setup und Abnahmecheck
- Golden Path: von Bare Metal bis Container-Workload
- Kompatibilitätsmatrix als Betriebsdokument
- Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
- Übergabe an Betrieb: Runbooks und Verantwortlichkeiten





















